61阅读

织梦采集规则-织梦常用采集规则

发布时间:2017-08-04 所属栏目:织梦采集侠

一 : 织梦常用采集规则

织梦cms自带的采集系统确实很不错,可以免去一些手工添加信息的麻

烦,设置一下dede采集规则、采集点,然后点采集,OK,一下子就可以

搞定!确实很省事的!下面介绍几种常用采集规则的过滤方法:

copyright

应用示例一:来源作者中连接的过滤

在采集文章的时候,有的网站系统里面作者或者来源处都带有连接,

直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会

造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过

滤。

1,如果要保留dedecms链接中的文字:

{dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim} copyright

2,如果去掉链接中的文字:

{dede:trim}<a ([^>]*)>([^<]*)</a>{/dede:trim}

应用示例二:织梦cms模板过滤标题空格

经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻

烦,所以需要在标题处过滤处添加下面正则过滤

{dede:trim} {/dede:trim} 中间有一空格

应用示例三:过滤GG广告代码

其实这个就是在上面的内容过滤,但是很多论坛里的网友经常问这个

,所以单独作为一个应用列出来:

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}

下面是在综合论坛上网友的各种正则的一个dedecms规则过滤全集:

{dede:trim}<param([^>]*)>{/dede:trim}

{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} {dede:trim}<embed([^>]*)>{/dede:trim}

{dede:trim}</embed>{/dede:trim}

{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim}

{dede:trim}</object>{/dede:trim}

{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} {dede:trim}<OBJECT([^>]*)>{/dede:trim}

{dede:trim}</OBJECT>{/dede:trim}

{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} {dede:trim}<iframe([^>]*)>{/dede:trim}

{dede:trim}</iframe>{/dede:trim}

{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<IFRAME([^>]*)>{/dede:trim}

{dede:trim}</IFRAME>{/dede:trim}

{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}

{dede:trim}<font([^>]*)>{/dede:trim}

{dede:trim}</font>{/dede:trim}

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

{dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}

{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}

{dede:trim}<td([^>]*)>{/dede:trim}

{dede:trim}</td>{/dede:trim}

{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}

{dede:trim}<tr([^>]*)>{/dede:trim}

{dede:trim}</tr>{/dede:trim}

{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<tbody>{/dede:trim}

{dede:trim}</tbody>{/dede:trim}

{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} {dede:trim}<table([^>]*)>{/dede:trim}

{dede:trim}</table>{/dede:trim}

{dede:trim}<img([^>]*)>{/dede:trim}

{dede:trim}<span([^>]*)>{/dede:trim}

{dede:trim}</span>{/dede:trim}

{dede:trim} {/dede:trim}

{dede:trim}<stong>{/dede:trim}

{dede:trim}</stong>{/dede:trim}

应用示例四:文章内容中连接以及其他广告代码的过滤

这个就不用说了,当需要对所有东西过滤的时候,直接用上面所有的

代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等

进行过滤。(这个需要按照对方内容里面具体含有什么代码来具体操作

一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一

般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可

以完成过滤:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim} 织梦

模板

过滤div可以用

{dede:trim}]*)>{/dede:trim}

{dede:trim}

{/dede:trim}

过滤js用下面这个

{dede:trim}]*)>([^<]*){/dede:trim}

过滤未知变量字符

固定(.*)固定

上面几种应用基本上涵盖了采集的各种应用,掌握了这个,过滤基本上

就不用求人了!下面来说一个更简单的方法,把下面的过滤规则复制到

你那里去,几乎就可以处理所有的问题了,当然也可以自己分析一下。 {dede:trim}<span(.*)>{/dede:trim}

{dede:trim}</span>{/dede:trim}

{dede:trim}<div(.*)>{/dede:trim}

{dede:trim}</div>{/dede:trim}

{dede:trim}<li>{/dede:trim}

{dede:trim}</li>{/dede:trim}

{dede:trim}<ul>{/dede:trim}

{dede:trim}</ul>{/dede:trim}

{dede:trim}<font(.*)>{/dede:trim}

{dede:trim}</font>{/dede:trim}

{dede:trim}<table(.*)>{/dede:trim}

{dede:trim}</table>{/dede:trim}

{dede:trim}<tbody(.*)>{/dede:trim}

{dede:trim}</tbody>{/dede:trim}

{dede:trim}<tr(.*)>{/dede:trim}

{dede:trim}</tr>{/dede:trim}

{dede:trim}<td(.*)>{/dede:trim}

{dede:trim}</td>{/dede:trim}

{dede:trim}<a(.*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}

{dede:trim}<iframe(.*)</iframe>{/dede:trim}

{dede:trim}<style(.*)</style>{/dede:trim}

{dede:trim}<script(.*)</script>{/dede:trim}

{dede:trim}<option(.*)</option>{/dede:trim}

{dede:trim}<select(.*)</select>{/dede:trim}

{dede:trim}<embed(.*)>{/dede:trim}

{dede:trim}</embed>{/dede:trim}

{dede:trim}<param(.*)</param>{/dede:trim}

{dede:trim}<object(.*)</object>{/dede:trim}

二 : 青帝文学关关采集规则

?<?xml version="1.0"?><RuleConfigInfo xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema"><RuleVersion><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>本规则由唯小说小说阅读提供,唯小说网址:www.yesxs.com/</Pattern><RegexName>RuleVersion</RegexName></RuleVersion><RuleID><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>9</Pattern><RegexName>RuleID</RegexName></RuleID><GetSiteName><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>青帝文学网</Pattern><RegexName>GetSiteName</RegexName></GetSiteName><GetSiteCharset><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>gbk</Pattern><RegexName>GetSiteCharset</RegexName></GetSiteCharset><GetSiteUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>GetSiteUrl</RegexName></GetSiteUrl><NovelSearchUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>http://www.qingdi.com/</Pattern><RegexName>NovelSearchUrl</RegexName></NovelSearchUrl><NovelSearchData><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>NovelSearchData</RegexName></NovelSearchData><NovelSearch_GetNovelKey><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>NovelSearch_GetNovelKey</RegexName></NovelSearch_GetNovelKey><NovelListUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern></Pattern><RegexName>NovelListUrl</RegexName></NovelListUrl><NovelList_GetNovelKey><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><td class="tdLeft"><a href="">(.+?)</a></td></Pattern><RegexName>NovelList_GetNovelKey</RegexName></NovelList_GetNovelKey><NovelUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern></Pattern><RegexName>NovelUrl</RegexName></NovelUrl><NovelErr><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>对不起,该文章不存在!</Pattern><RegexName>NovelErr</RegexName></NovelErr><NovelName><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><h1>(.+?)&nbsp;&nbsp;<b style="</Pattern><RegexName>NovelName</RegexName></NovelName><NovelAuthor><FilterPattern /><Method>Match</Method><Options>None</Options>

青帝 小说网 青帝文学关关采集规则

<Pattern>font-size:12px;">作者:(.+?)</b></Pattern><RegexName>NovelAuthor</RegexName></NovelAuthor><LagerSort><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><strong>(.+?)</strong></Pattern><RegexName>LagerSort</RegexName></LagerSort><SmallSort><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><strong>(.+?)</strong></Pattern><RegexName>SmallSort</RegexName></SmallSort><NovelIntro><FilterPattern></dd></dl></div></FilterPattern><Method>Match</Method><Options>Singleline</Options><Pattern><dd id="wrap">((.|\n)+?)<div class="c"></div></Pattern><RegexName>NovelIntro</RegexName></NovelIntro><NovelKeyword><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>font-size:12px;">作者:(.+?)</b></Pattern><RegexName>NovelKeyword</RegexName></NovelKeyword><NovelDegree><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>目前<strong>(.+?)</strong><br/></Pattern><RegexName>NovelDegree</RegexName></NovelDegree><NovelCover><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><img class="articleInfoPic" src="(.+?)" width="100" height="125" alt=".+?:.+?" title=".+?:.+?" /></Pattern><RegexName>NovelCover</RegexName></NovelCover><NovelDefaultCoverUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>NovelDefaultCoverUrl</RegexName></NovelDefaultCoverUrl><NovelInfo_GetNovelPubKey><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><a href="(.+?)" class="reader" target="_blank">点击阅读</a></Pattern><RegexName>NovelInfo_GetNovelPubKey</RegexName></NovelInfo_GetNovelPubKey><PubCookies><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>PubCookies</RegexName></PubCookies><PubIndexUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>{NovelPubKey}</Pattern><RegexName>PubIndexUrl</RegexName></PubIndexUrl><PubIndexErr><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>对不起,该文章不存在!</Pattern><RegexName>PubIndexErr</RegexName></PubIndexErr><PubVolumeContent><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>PubVolumeContent</RegexName></PubVolumeContent><PubVolumeSplit><FilterPattern /><Method>Spilt</Method><Options>None</Options><Pattern><td colspan="4" class=</Pattern><RegexName>P

青帝 小说网 青帝文学关关采集规则

ubVolumeSplit</RegexName></PubVolumeSplit><PubVolumeName><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>"vcss">\s*(.+?)\s*</td></Pattern><RegexName>PubVolumeName</RegexName></PubVolumeName><PubChapterName><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><a href="\d*.html">(.+?)</a></Pattern><RegexName>PubChapterName</RegexName></PubChapterName><PubChapter_GetChapterKey><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><a href="(\d*.html)">(.+?)</a></Pattern><RegexName>PubChapter_GetChapterKey</RegexName></PubChapter_GetChapterKey><PubContentUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>{ChapterKey}</Pattern><RegexName>PubContentUrl</RegexName></PubContentUrl><PubContentErr><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern>这里必须填写</Pattern><RegexName>PubContentErr</RegexName></PubContentErr><PubContent_GetTextKey><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>PubContent_GetTextKey</RegexName></PubContent_GetTextKey><PubTextUrl><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern /><RegexName>PubTextUrl</RegexName></PubTextUrl><PubContentText><FilterPattern>更多精彩小说最新章节TXT下载尽在青帝文学网,本站地址:www.qingdi.com更多精彩小说最新章节TXT下载尽在青帝文学网,本站地址:<a href=".+?" target="_blank">.+?</a></div></div>收藏\【青帝文学网\】<a href=".+?" target="_blank">.+?</a>,为您提供精彩小说阅读。[www.61k.com)<br /><a href=".+?">收藏\【青帝文学网\】www.qingdi.com,为您提供精彩小说阅读。\【.+?\】收藏www.qingdi.com,</FilterPattern><Method>Match</Method><Options>Singleline</Options><Pattern><div id="content">((.|\n)+?)<div class="readerFooterNav"</Pattern><RegexName>PubContentText</RegexName></PubContentText><PubContentReplace><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><img src="http://www.feiku.com/images/di.gif" />♂地</Pattern><RegexName>PubContentReplace</RegexName></PubContentReplace><PubContentImages><FilterPattern /><Method>Match</Method><Options>None</Options><Pattern><[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*></Pattern><RegexName>PubContentImages</RegexName></PubContentImages></RuleConfigInfo>

三 : 芭奇:不用编写采集规则也可轻松采集网站

一直以来,大家都在用各种类型采集器或网站程序自带的采集功能,它们有一个共同的特点,就是要写采集规则才可以采集到文章,这个技术性的问题,对新手站升可不是一件容易的事,对老站长,它也是一个费力的工作。那么,如果做站群的话,每个站都要定义一个采集规则的话,那就真是苦不堪言。有人说,站长是一个网络搬运工。这话说得也是有道理的。互联网上的文章,很多都是你搬我的,我搬你的,为了生活,不得不如何做下去。现在芭奇站群软件新出一个新的新型采集功能,能大大减轻站长的“搬运工”的时间,也不用再写烦人的采集规则了,这个功能就是互联网首创的功能---指定网址采集。下面我教大家如何使用这个功能:

一、首先打开这个功能。在网站右健可以看到这个功能:如下图。

二、打开后的功能如下,可以在右边填写指定采集的列表地址:

这里我以百度的搜索页为采集源,比如这个地址:http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=%B0%C5%C6%E6

然后我利用芭奇站群软件来采集这个搜索结果的所有文章。大家先可以分析一下,这个页面,如果用各种类型采集器或网站自带程序来自定义采集所有文章,那是不可能采到的。因为互联网还没有这样的通用采集不同网站的功能,但现在,芭奇站群软件可以实现了。因为这个软件支持泛采集技术。

三、首页,我填上这个百度结果列表到软件的“起始采集的文章列表地址”上,如下图:

四、为了能正确采集我想要的列表,我们分析结果列表上的文章,都有一个通用的后缀后,就是:html、shtml、htm,那么,这三个共同的地方就是:htm我定义到软件,这样的做法,是减少采集没用的页面,如下图:

五、现在可以采集了,不过,在这里提示一下大家,一般一个网站里面,带相同字符的会有很多,对于这个百度列表的,也有百度自身的网页,但百度自身的网页内容,不是我要采的,那么还有一个地方可以排除不采带有百度网址的页面。如下图所示:

这样定义后,就避免采到百度自己的页面了。那这样填好了,就可以直接采集文章了,点“保存后采集数据”:

一两分钟后,采集过程结果如下图所示:

六、这里我就只采一部份文章,先停止不再采了,那现在看看采集后的内容:

七、上面就是采集的过程,按上面的步骤,你也可以采集其他地方列表的文章,特别是一些没有收录,或屏避收录的网站,这些都是原创的文章,大家可以自己去找一下。现在我给大家说一下,软件上的一些其他功能介绍:

1、如上图,这里就是去掉网址和采集图片的功能,可以按你的需求,是否打勾。

2、如上图,这里就是设置采集的条数和采集的文章标题最少字数。

3、如上图,这里可以定义替换词语,支持代码替换,文字替换等,这里要灵活使用,对一些难采集的列表,这里就要用到了。可以将某些代码代换为空,才可以采集到列表链接。

上面所说的都是芭奇站群软件的新采集功能,这个功能很强大,但这个功能还要继续需要完善,以满足不同人的需求。有了这个工具,你就不用担心自己不会写采集规则了,这个功能容易入门,容易操作,是新老站长最合适的一个功能。如有不懂的都可以加我QQ问我:509229860。

原文地址: 转载时请注明来源!

注:相关网站建设技巧阅读请移步到建站教程频道。

本文标题:织梦采集规则-织梦常用采集规则
本文地址: http://www.61k.com/1097869.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1