tlyan 发表于 2016-3-17 10:42:58

关关采集规则教程 2016正式版

部分数据来源度娘,现进行修改并发布教程,由于工作原因可能一是不能使用,可以使用后将把标题改成2016正式版本。想过重点可能需要回复可见或者购买可见具体是情况而定,请多多包含,如果是付费可见必须有用,不然不会自己找骂。。。。。当然支持论坛的金钱系统和我们论坛特有币种。经过半天的时间把事例写了出来,决定下面部分内容付费可见。目前建议大家购买,基本可以使用。(采集中对应规则报错时自我调整,如果搞不定请联系我们客服)d*表示数字
s*表示空格+换行 .+?表示字符(不能为空)
.*表示字符(可以为空)()
表示我们需要的部分   
((.| )*)章节的内容部分,包括了换行。
=====与杰奇后台标签的对应关系=====
!!!!相当于([^><]*)
~~~~相当于([^><'"]*)
^^^^相当于([^><d]*)
$$$$相当于(*)
****相当于(.*) \s+   我认为是换行或者空格或者空白 在采集 新笔趣阁xbiquge.com时获取列表时成功时失败后:大神指点:
         {<li><span class="s1">[科幻灵异]</span><span
                                    class="s2"><a href="/52_52489/"
                                        target="_blank">最强拳神</a></span>写成
class="s2"><a href="/\d*_(\d*)/"\s+target="_blank">(.+?)</a></span>}
以下是基础教程.......................学会的几率50%以上(会员套餐100包教会写普通规则)

一.现在开始编写规则,假设目标站为飞速中文(www.feizw.com)首先我们需要复制一份原有的规则做模版(规则文件存放在Rules目录下)。把复制的那份做模板的规则命名为www.feizw.com.xml 或飞速中文.xml,这个主要是便于规则管理。二.运行采集器里的规则管理工具,打开后载入刚刚我们命名为fezwe(1).xml 或飞速中文.xml的文件。1. GetSiteName(站点名称) 这里我们写飞速中文(在执行任务时会在上方显示)2. GetSiteCharset(站点编码) 这里我们打开www.lingfengge.com源代码查找 charset= 得到charset=gb2312这个gb2312就是我们需要的站点编码3. GetSiteUrl(站点地址)写入http://www.feizw.com4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同,这个网站好找:http://www.feizw.com/book/showbooklist.aspx4. NovelList_GetNovelKey(从最新列表中获得小说编号) 此规则中需要同时获得书名,获得书名是在手动模式的时候用到,如果你要用手动模式那么必须获得书名,否则手动模式将会无法使用。上图我们可以看到数据的 提取。5. NovelUrl(小说信息页地址) 这个很容易,我们随便点开一本小说就能知道了,比如说http://www.feizw.com/Book/10185/Index.aspx这本小说,我们可以看到的我们改下将里面的10185换成 {NovelKey} 一般情况表示小说编号http://www.feizw.com/read/ {NovelKey}.html(这个不好看,有的是根据自己设置的)
6. NovelName(获得小说名称正则) 我们还打开刚才那本书http://www.feizw.com/Book/10185/Index.aspx

可以从上面对比发现哪里不一样
<p><a href="/Book/10185/Index.aspx">王牌特工(闻香识女)</a> 这一段我换成了<p><a href="/Book/\d*/Index.aspx">(.+?)</a>

7. NovelAuthor(获得小说作者)<span>文 / 闻香识女</span></p> 换成了 <span>文 / (.+?)</span></p> 至于区别自己看.



8.LagerSort(获得小说大类)   截图不是很大,可以点开放大看.<p>作品类别:异术超能 总字数:3965382换成了 <p>作品类别:(.+?) 总字数 区别自己看



9.SmallSort(获得小说大类)和上面一样
10.NovelIntro(获得小说简介)对于简介我也不知道说什么.我也有点看不懂, 但是我把例子列出来.

<em>【作品简介】</em>

林峰本是一个特工,一次任务成功,却让他付出惨重代价!远离硝烟弥漫的战场,回到了久别的城市。却没想到第一天上班就得罪了董事长千金,意外之后又将面临怎样的挑战?当保安?做保镖?无尽的挑战正在等待着他…… 替换成了<em>【作品简介】</em>((.|\n)+?)a href="http://www.feizw.com至于为什么,我也不知道.   下面还附带了一份替换规则:<a href="javascript:void(0)"></a></li>
<li><script src=/ad/000.js></script></li>
神马小说网最新章节地址:
http://www.shenmaxiaoshuo.com/xx-.+?/
<strong>.+?</strong>








11.NovelKeyword(获得小说主角(关键字))、


12.NovelDegree(获得写作进程)、NovelCover(获得小说封面)
13.NovelCover 小说封面正则<img src="(.+?)"/></a>

14.NovelDefaultCoverUrl这个地址就不采集它的封面 nocover.jpg15.NovelInfo_GetNovelPubKey 小说公众目录页地址正则等待更新(目前我没写)
16.PubIndexUrl公众目录页地址 http://www.feizw.com/Html/{NovelKey}/Index.html

17.PubIndexErr 公众目录页错误识别标记 (当前小说页不存在) 区别报错用
18.PubVolumeSplit 分割分卷我是<div id="list"> 好像没用,以为这个没分卷,以后有了我再更新。
19.PubChapterName 章节名:<li><a href="\d*.html" title="更新字数:\d*">(.+?)</a></li>

20.PubChapter_GetChapterKey章节地址编号:<li><a href="(\d*).html" title="更新字数:\d*">.+?</a></li>

21.PubContentUrl章节内容页:http://www.feizw.com/Html/{NovelKey}/{ChapterKey}.html


21.PubContentText章节内容正则:<div id="content">((.|\n)*)最快更新无错

替换说明:<script.+?</script></script>
章节.+?<p>
var cpro_id = "u1662689";
<script.+?幅
<div class="ads_b">
最快更新.+?手机请访问
<div class="ads_c"></div>
22.PubContentReplace内容替换:
.{0,22}.{0,4}.{0,4}
.{0,22}.{0,4}.{0,4}
.{0,22}.{0,4}
.{0,22}.{0,4}
.{0,4}.{0,4}.{0,22}.{0,4}.{0,4}
.{0,4}.{0,4}.{0,22}.{0,4}.{0,4}
.{0,4}.{0,4}.{0,22}.{0,4}
.{0,4}.{0,4}.{0,22}.{0,4}






[::]
【51文学网】发布,更多章节请到
如果您喜欢这部作品,欢迎您来起点(qidian.)投推荐票、月票,您的支持,就是我最大的动力。手机用户请到阅读。
23.PubContentImages:章节内容图片正则:<[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*>





xiao8 发表于 2018-11-4 22:19:33

谢谢分享
页: [1]
查看完整版本: 关关采集规则教程 2016正式版