61阅读

火车头采集器-火车头采集器怎么采集文章?

发布时间:2017-11-04 所属栏目:Nosql

一 : 火车头采集器怎么采集文章?

有时候我们看到一个网站的文章,想要把这些文章保存下来,一篇一篇的复制保存很麻烦,这个时候就需要用到火车头采集器把文章采集下来保存了。下面介绍一下如何用火车头采集器采集文章。

软件名称:
QQ宠物经典360问补充(累积更新)
软件大小:
更新时间:
2009-04-27

第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。

列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)

设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。

网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。

设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。

第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。

修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。

完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。

第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。

然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认,保存。

把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。

火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。

二 : shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车

一直想在shopex中实现以下功能:(欢迎广大网友交流 qq:158393237)

1  找供应商采购谈判 给你进货价

2  一键采集供应商给你的所有商品(批量采集产品价格、批量采集多图、批量发布、批量去水印、批量打上你的店标和logo)

3   “叮”的一声 ,1万条来自不同地区供应商的产品全部发布到你的网站了,而且都是真真实实的成本价、销售价业务数据,及时报告库存不足,那么剩下的是不是就剩下网络营销了呢?

 

ShopEx采集发布接口 For 火车采集器

2012-08-12 更新后接口版本升级为ShopEx_SP1_build20100921,请大家核对版本,快客的接口用户可享受免费升级服务
快客的此版本接口已通过至少20个不同服务器网站测试,并赢得大量用户好评,请大家放心使用

ShopEx采集程序简介

  • 本套程序为本人研究php而开发,需配合火车采集器使用
  • 支持ShopEx4.8.5,自动下载商品图片,支持自动建立品牌分类,支持自定义商品类型,数据可导出助理
  • 到目前为止,此接口功能性及易用性等均居首位!

 

功能简介

  1. 常见采集字段均可实现,字段包括 商品名称,详细描述,图片等。[www.61k.com]
  2. 可以自动建立并匹配商品品牌,不存在的商品品牌可以自动添加为新品牌。
  3. 可以自动创建并匹配商品分类(支持多级分类)(您只需添加列表页网址即可,采集只是时间问题,您没有任何工作量)。
  4. 检测重复商品,并跳过。
  5. 远程图片多图下载,并生成缩略图,加入相册。
  6. 支持自定义商品类型,商品属性的发布
  7. 支持尺码颜色等多属性的发布
  8. 数据可导出到助理
  9. 支持详细参数表(2010-09-21新增)
  10. 支持图片水印
  11. 批量自动去除图片水印并打上自己店标的logo和商标。

更新日志:
2012-08-12更新(重要)
Bug性更新:

  1. 修正自动创建分类时,不同父分类下相同名称子分类不会建立问题
  2. 修正了发布扩展属性时,当属性选项中含有特殊字符时,导致商品类型扩展属性丢失
  3. 修正当目标站图片地址中含有空格等特殊字符时,图片下载失败的bug
  4. 其他安全性及性能优化

功能性更新:

  1. 增加对ShopEx发布详细参数的支持
    只需在后台开启此商品类型的详细参数表即可
    不存在的参数组和参数名会自动建立,完全无需人工操作
    需要条件1.因本功能使用较复杂些,需快客亲自操作,请私下联系。
  2. 2.目标站有较标准的详细参数表格结构如京东商城或者中关村在线
  3. 支持图片水印

产品部分截图演示

发布后前台效果截图(ShopEx默认模板)

shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术

后台效果图

shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术

后台效果1

shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术

后台效果2

详细参数发布演示(京东)

shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术

京东商城详细参数表

shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术完美发布详细参数表发布到ShopEx

 

 

其它采集接口目录:shopex采集 shopex采集发布接口 shopex火车头数据采集器(20120812更新) 使用火车头接口技术一键批量采集 批量发布 批量去水印 接口技术

入库代码:

//供应商来源货位  供应商名称-网址-qq号码-旺旺-电话-地点
            
  $store_place="快客-www.kk580.com-1055746587-13765152798-深圳";
  $brief="该商品属于核心渠道批发类,380元起批,不限制单价可以混批,淘宝代理商也可自行选择单件起批类型。如无此注明,均为单件起批,核心渠道批发类对应编号为9245fe4a-d402-451c-b9ed-9c1a04247482";
   
   //商品入库
  $query = "insert into sdb_goods (cat_id,type_id,goods_type,brand_id,brand,image_default,thumbnail_pic,small_pic,big_pic,image_file,brief,intro,mktprice,cost,price,bn,name,weight,unit,store,store_place,score,spec,pdt_desc,spec_desc,uptime,last_modify)  VALUES('$fenlei','1','normal','$brand_id','$brand','','$insertarraythumbnail','$insertsmall','$insertarybigpic','','$brief','$intro','$mktprice','0','$price','$bn','$name','$goodsWeight','$jldw','100','$store_place','0','','','','$time','$time')";
 

  $rs=mysql_query($query);
  if($rs) echo "成功!"; else echo mysql_error()."入库错误";

 

三 : 五大免费采集器哪个好,火车头,海纳,ET,三人行,狂人采集

在目前的站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个:火车头,海纳,ET,三人行,狂人。
下面我们对这几款采集工具作一个简单的评比。

1.火车头 基本上人人都知道,那就放第一位,要多说两句。
火车头应该是国内采集软件最成功的典型之一,使用人数包括收费用户数量上应该是最多的
特色:简单,功能强大,速度快,支持的网站最丰富,支持丰富扩展
优点:功能比较齐全,采集速度比较快,主要针对cms,短时间可以采集很多,过滤,替换都不错,比较详细;很多人写接口、规则和发布模块,接口比较齐全,其中有个叫尘缘的人,几乎开发目前所有PHP类CMS的接口;支持的扩展非常好用,如果你是一位懂技术的站,可以使用PHP或者C#开发任意功能的扩展,实再令人好生难忘;附件采集功能完善。
技术:技术主要是论坛支持,帮助文件多,上手容易。有收费、免费版本
缺点:功能增多,软件越来越大,比较占用内存和CPU资源,资源回收控制得不好

2.三人行(狂人) 主要针对论坛的采集,功能比较完善
先申明,不知道三人行和狂人是什么关系,但界面和功能都是一个模子出来的。
特色:针对各大论坛,搬家,移动,速度快,准确度高
优点:还是针对论坛,适合开论坛的
技术:收费技术,免费有广告
缺点:超级复杂,上手难,对cms支持比较差

3.ET工具
特色:无人值守,稳定,资源占用最低,基本上可以叫安静
优点:无人值守,自动更新,适合长期做站,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,关键是软件免费,听说已经增加采集中英文翻译功能。
技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易
缺点:对论坛和CMS的支持一般

4.海纳
特色:海量,关键词抓取,可以预览采集内容,不用写规则
优点:海量,可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类
技术:无论坛 收费,免费有功能限制
缺点:分类不方便,也就说采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限


5.狂人

特色:可以让你的新论坛一开始就会有大量的会员.

优点:非常适合采集discuz论坛

缺点:过于专一,兼容性不好。


总结:追求功能齐全的,似乎应该选择火车头,火车头被称之为“无所不能”,初期作站,可以迅速采集很多的资源,充实网站内容。如果做论坛,那选择三人行,没错了,可以实现采集论坛,回复,搬家等多项论坛功能。长期做站,当然选择ET了,花点时间,弄懂,是个长期受益的事情。写好规则,设置好过滤替换,然后可以像开QQ一样,长期运行,不费内存,自动采集更新,分类明确,采集内容完整,可是说,一个站,一个站长+ET足够了。至于海纳,似乎不写规则,上手容易,但是对文章的发布上,不能如ET一劳

本文标题:火车头采集器-火车头采集器怎么采集文章?
本文地址: http://www.61k.com/1092855.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1