为了方便自己,顺便练练python,来整个小玩意~
这里是开发记录:
2022.3.4:
完成了提取所有页面上的链接
利用BeautifulSoup得到内容文本,结合起来可以得到所有文章的正文内容
还要实现提取图片,代码和链接内容,提交到CSDN的逻辑还没有完成,还有标题这些小细节等待完善
之后还想完成提交一篇文章自动同步,或者是定时同步~
2022.3.6
直接使用requests库有点难顶,参数校验太麻烦了...
考虑用selenium来模拟登录,没验证码的时候登陆成功,有验证码的时候还没搞定
话说selenium确实好用,定位元素很方便,特别是find_element_by_xpath,可以指定很多限制条件。就是span元素的定位特殊一点
2022.3.7
登陆之后试着把selenium拿到的session给requests发包,结果连发布文章都好几个包,其中那个articleid是自动分配的,还有几个包没看,反正都用了selenium了,干脆一用到底()
文章评论