• 今晚又失眠了,最近睡眠质量很差啊。

  • QsciScintilla 一个很好用的文本编辑器库

  • 愿逝者安息,愿生者奋发,愿祖国昌盛,致敬英雄

  • 身体是革命的本钱,猿(媛)仔们注意身体呀

  • 所谓”事务“就是指一组 SQL 命令,这些命令要么一起执行,要么都不被执行。

  • 遍历 for 循环时将,将外层写成函数,内层写成回调函数模式。

  • 网站被攻击了烦死了,今天一天都不能访问了

  • wordpress 官网抽风不能升级了!

  • Python 中 input 函数返回的始终是一个字符串。

  • 只有符合整数规范的字符串类数据,才能被 int()强制转换。因此:字符串'3.8'是不能被转换哟

火车头采集之网站分析

建站相关 2020-05-05 32次浏览 扫描二维码
文章目录[隐藏]

前言

最近在使用火车头采集,在使用过程中还是遇到一些问题,于是想记录下。鉴于网上完整使用火车头采集的文章较少,于是我就想出一个从网站采集使用到数据发布的一系列文章。鉴于本人技术水平有限,难免有误导情况,如有问题欢迎留言讨论。

火车头软件安装

安装教程,我在此就不多做说明了吧,直接下一步下一步安装即可,没有特殊说明。火车头软件官网地址:http://www.locoy.com。正版软件需要注册开通特权服务哟。

网站分析

1.  确定采集目标

我们想采集一个网站的内容,首先要学会分析目标网站。今天我们就以某资源网站为例。我的采集目标是资源网的每日更新。如下图所示。

火车头采集之网站分析

2. 分析采集目标源代码

进入资源网首页,点击鼠标右键->查看源代码。通过页面分析,网站大概是从上一页这个位置开始,于是在源码中搜索(ctrl+F)上一页关键词。

火车头采集之网站分析

3. 确定我们需要采集的区域

此处懂点 html 知识了,html 标签原则上大部分都是闭合标签。ul/li  tr/td 标签一般都是会同时出现的。按照我的采集经验看一般文章列表就两种: ul/li div/a 。按照此方法我们在确定区域查找是否有这些元素。

火车头采集之网站分析

总结

此处我们只是一个个例,并不代表所有,不过方法都类似。

喜欢 (0)