关关采集规则教程 2016正式版

[复制链接]
查看2147 | 回复1 | 2016-3-17 10:42:58 | 显示全部楼层 |阅读模式
部分数据来源度娘,现进行修改并发布教程,由于工作原因可能一是不能使用,可以使用后将把标题改成2016正式版本。想过重点可能需要回复可见或者购买可见具体是情况而定,请多多包含,如果是付费可见必须有用,不然不会自己找骂。。。。。当然支持论坛的金钱系统和我们论坛特有币种。经过半天的时间把事例写了出来,决定下面部分内容付费可见。目前建议大家购买,基本可以使用。(采集中对应规则报错时自我调整,如果搞不定请联系我们客服)d*表示数字
s*表示空格+换行 .+?表示字符(不能为空)  
.*  表示字符(可以为空)()  
表示我们需要的部分   
((.| )*)章节的内容部分,包括了换行。
=====与杰奇后台标签的对应关系=====
!!!!  相当于  ([^><]*)
~~~~  相当于  ([^><'"]*)
^^^^  相当于  ([^><d]*)
$$$$  相当于  ([d]*)
****  相当于  (.*) \s+   我认为是换行或者空格或者空白 在采集 新笔趣阁xbiquge.com时获取列表时成功时失败后:大神指点:
           {<li><span class="s1">[科幻灵异]</span><span
                                    class="s2"><a href="/52_52489/"
                                        target="_blank">最强拳神</a></span>写成
class="s2"><a href="/\d*_(\d*)/"\s+target="_blank">(.+?)</a></span>}

以下是基础教程.......................学会的几率50%以上(会员套餐100包教会写普通规则)
[sell=30,4]

   一.现在开始编写规则,假设目标站为飞速中文(www.feizw.com)

首先我们需要复制一份原有的规则做模版(规则文件存放在Rules目录下)。把复制的那份做模板的规则命名为www.feizw.com.xml 或飞速中文.xml,这个主要是便于规则管理。

170.jpg

二.运行采集器里的规则管理工具,打开后载入刚刚我们命名为fezwe(1).xml 或飞速中文.xml的文件。

172.jpg

1. GetSiteName(站点名称) 这里我们写飞速中文(在执行任务时会在上方显示)

2. GetSiteCharset(站点编码) 这里我们打开www.lingfengge.com源代码查找 charset= 得到charset=gb2312这个gb2312就是我们需要的站点编码

173.jpg

3. GetSiteUrl(站点地址)  写入http://www.feizw.com

4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同,这个网站好找:http://www.feizw.com/book/showbooklist.aspx

174.jpg 175.jpg

4. NovelList_GetNovelKey(从最新列表中获得小说编号) 此规则中需要同时获得书名,获得书名是在手动模式的时候用到,如果你要用手动模式那么必须获得书名,否则手动模式将会无法使用。

176.jpg

上图我们可以看到数据的 提取。

[sell=50,2]

5. NovelUrl(小说信息页地址) 这个很容易,我们随便点开一本小说就能知道了,比如说http://www.feizw.com/Book/10185/Index.aspx这本小说,我们可以看到的我们改下将里面的10185换成 {NovelKey} 一般情况表示小说编号http://www.feizw.com/read/ {NovelKey}.html(这个不好看,有的是根据自己设置的) 177.jpg
6. NovelName(获得小说名称正则) 我们还打开刚才那本书http://www.feizw.com/Book/10185/Index.aspx
178.jpg
可以从上面对比发现哪里不一样
<p><a href="/Book/10185/Index.aspx">王牌特工(闻香识女)</a> 这一段我换成了<p><a href="/Book/\d*/Index.aspx">(.+?)</a>

7. NovelAuthor(获得小说作者)  <span>文 / 闻香识女</span></p> 换成了 <span>文 / (.+?)</span></p> 至于区别自己看. 179.jpg



8.LagerSort(获得小说大类)   截图不是很大,可以点开放大看.<p>作品类别:异术超能 总字数:3965382  换成了 <p>作品类别:(.+?) 总字数 区别自己看

1710.jpg

9.SmallSort(获得小说大类)和上面一样
10.NovelIntro(获得小说简介)对于简介我也不知道说什么.我也有点看不懂, 但是我把例子列出来.
1711.jpg
<em>【作品简介】</em>

林峰本是一个特工,一次任务成功,却让他付出惨重代价!远离硝烟弥漫的战场,回到了久别的城市。却没想到第一天上班就得罪了董事长千金,意外之后又将面临怎样的挑战?当保安?做保镖?无尽的挑战正在等待着他…… 替换成了  <em>【作品简介】</em>((.|\n)+?)a href="http://www.feizw.com  至于为什么,我也不知道.   下面还附带了一份替换规则:[td]<a href="javascript:void(0)"></a></li>
<li><script src=/ad/000.js></script></li>
神马小说网最新章节地址:
http://www.shenmaxiaoshuo.com/xx-.+?/
<strong>.+?</strong>






[/td]


11.NovelKeyword(获得小说主角(关键字))
1713.jpg

12.NovelDegree(获得写作进程)、NovelCover(获得小说封面)
13.NovelCover 小说封面正则  <img src="(.+?)"/></a>
封面.jpg
14.NovelDefaultCoverUrl这个地址就不采集它的封面 nocover.jpg15.NovelInfo_GetNovelPubKey 小说公众目录页地址正则  等待更新(目前我没写)
16.PubIndexUrl公众目录页地址 http://www.feizw.com/Html/{NovelKey}/Index.html
内容地址页.jpg
17.PubIndexErr 公众目录页错误识别标记 (当前小说页不存在) 区别报错用
18.PubVolumeSplit 分割分卷  我是<div id="list"> 好像没用,以为这个没分卷,以后有了我再更新。
19.PubChapterName 章节名:<li><a href="\d*.html" title="更新字数:\d*">(.+?)</a></li>
章节.jpg
20.PubChapter_GetChapterKey章节地址编号:<li><a href="(\d*).html" title="更新字数:\d*">.+?</a></li>
章节编号.jpg
21.PubContentUrl章节内容页http://www.feizw.com/Html/{NovelKey}/{ChapterKey}.html
内容地址页.jpg
[/sell]
21.PubContentText章节内容正则:<div id="content">((.|\n)*)最快更新无错
内容正则.jpg
替换说明:<script.+?</script></script>
章节.+?<p>
var cpro_id = "u1662689";
<script.+?幅
<div class="ads_b">
最快更新.+?手机请访问
<div class="ads_c"></div>
22.PubContentReplace内容替换:
[MmMМm].{0,22}[nNnNлńň].{0,4}[eEeЕЁёêēéěè].{0,4}[tTtT]
[MmMМm].{0,22}[CcC℃Ссc].{0,4}[Oo0ОΟо○0Ooōóǒò].{0,4}[MmMМm]
[MmMМm].{0,22}[CcC℃Ссc].{0,4}[CcC℃Ссc]
[MmMМm].{0,22}[CcC℃Ссc].{0,4}[nNnNлńň]
[WwWwω].{0,4}[WwWωw].{0,4}[WwWωw].{0,22}[nNnNлńň].{0,4}[eEeЕЁёêēéěè].{0,4}[tTtT]
[WwWwω].{0,4}[WwWωw].{0,4}[WwWωw].{0,22}[CcC℃Ссc].{0,4}[Oo0ОΟо○0Ooōóǒò].{0,4}[MmMМm]
[WwWwω].{0,4}[WwWωw].{0,4}[WwWωw].{0,22}[CcC℃Ссc].{0,4}[CcC℃Ссc]
[WwWwω].{0,4}[WwWωw].{0,4}[WwWωw].{0,22}[CcC℃Ссc].{0,4}[nNnNлńň]
[nNnNлńň][eEeЕЁёêēéěè][tTtT]
[CcC℃Ссc][nNnNлńň]
[CcC℃Ссc][Oo0ОΟо○0Ooōóǒò][MmMМm]
[CcC℃Ссc][CcC℃Ссc]
[WwWwω][WwWωw][WwWωw]
[WwWwω][AaAaаαāáǎà][PpPрp]
[HhHh][TtTt][TtTt][PpPрp][::]
【51文学网】发布,更多章节请到
如果您喜欢这部作品,欢迎您来起点(qidian.)投推荐票、月票,您的支持,就是我最大的动力。手机用户请到阅读。
23.PubContentImages:章节内容图片正则:<[^<]*((?<=<(?:img|IMG)[^>]*(??:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*>

[/sell]



173.jpg
1714.jpg
xiao8 | 2018-11-4 22:19:33 | 显示全部楼层
谢谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则