Print

文章进行火车数据采集

问：火车头如何采集还有缩略图的文章呢

答：1、首先在采集列表页的源码中将带有缩略图的那部分源码复制下来，如图：
2、查看网站的源码，找到这行代码，如图：
3、打开火车头，进入采集网址规则—添加多级网址采集规则，选中手动填写链接地址规则，并将第二步骤中选中的代码粘贴进去，如图：
4、将代码进行如下修改：
5、改好后保存并进行采集测试，如图所示
6、然后再在采集内容规则里进行修改，选中“缩略图”标签，打开，进行内容替换，如图：
7、然后点击文件下载，选中下载图片，并填好缩略图保存路径及命名方式，如图：
8、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀，我设定为桌面，前缀为“./”，如图：
9、我们保存后测试一下，一起顺利，缩略图顺利采集下来了

问：用火车头怎样采集当前文章的url网址

答：要能采集网址的火车头，必须是7版以上的，以下的版本无法办到。
首先创建一个标签为本文网址，勾选后面的“从网址中采集”。
选择下面的“正则提取”，点击通配符“(?<content>?)”，这样在窗口中就显示为(?<content>[\s\S]*?)
我们再在它前加一个与字符串开始的地方匹配的符号^，又在它后面加一个与字符串结束的地方匹配的符号$，这样就变成了^(?<content>[\s\S]*?)$。如图：
我们来解释下意思
Content 代表内容
?        表示匹配0次或者1次
\s        匹配所有空白字符
\S        匹配所有非空白字符
*       修饰匹配次数为 0 次或任意次

问：火车头采集了一整篇文章，怎么设置5kb分页？

答：可以一般保存为表格就可以了。
通过采集规则匹配文章数据然后下载需要一些HTML基础。

问：火车头都能采集哪类文章？怎么采集呢

答：常规的都能采，如果复杂的可能就麻烦了。不过熊猫的操作要简单多，适合非专业技术人员。谷歌或搜狗可以搜索到的。有免费版。
答：一般符合要求的都可以采集要看具体的目标站了。
采集实施需要写采集规则。需要懂HTML。
答：直接添加这几个文章的地址。。将深度调为0

问：高分求助：如何使用火车头采集器采集软文，图文并貌

答：兄台可以上locoy论坛的使用教程区有详细视频教程，也可以咨询客服，他们都会很详细的说明
答：我的百度博客上面有教程，你看看。
呃，博客链接发不了，你自己看下我的百度空间。

本文来源: https://www.topyi.net/article/80a757531fe8928b9af18279.html