admin 管理员组

文章数量: 887007

看上博客上一个作者的文章,想一次性下载到一个word文件中,并且可以设置好目录,通过word的“导航窗格”快速定位单篇文章。一劳永逸,从此再也不用去博客上一篇一篇地翻阅了。整理一下步骤:先获取到所有文章的标题、发表日期、链接

通过链接获取文章的内容

将文章标题作为“1级”,发表日期和内容作为正文写入word文件

保存wrod文件

下面就按照以上步骤进行操作。

先进入到目标博客的主页,点击“博文目录”,这样就在网址栏看到“http://blog.sina/s/articlelist_5119330124_0_1.html” 。再点击下一页,可以看到网址末尾的“1”变成了“2”。这样我们就知道所有页对应的网址了(尾号从1到5)。

先挑第一页的网址,定位我们需要的信息,以便后续批量爬取。在博文的标题和发表日期上分别点右键,选择“检查”,在浏览器右侧看到如下信息。可见博文标题和博文链接都位于下面,发表时间位于下面。

因此使用soup.select('.atc_title')就可以获取当前网页的所有博文的链接和标题;使用soup.select('.atc_tm')可获取所有博文的发表日期。慢着,不是发表时间对应的class是"atc_tm SG_txtc"吗?怎么这里只取了atc_tm呢?这是因为atc_tm和SG_txtc之间有个空格,如果原样取

本文标签: 文章 保存为 实例 文档 标题