采集规则编写教程!
本人也是刚刚接触采集规则,见整个论坛都没人写这方面的,小弟就写一把,终比写一个规则收人10元强吧! 觉的不错的,麻烦点下我网站的广告. http://www.mwzw.cn采集分文字和txt等 先就txt的以连城书盟为例! 首先基本设置就不说了,连成书盟 本文所有信息都是由 http://www.isee5.com Isee5音乐网提供 1,资料页设置: 作品资料页面地址,这个也没什么好说的,终点有介绍! 作品资料页面开始标记:这个是指整个页面的开始部分,一般在head下面,不会看的可以使用dw.重点,开始标记和结束标记中间才是我们要的信息,千万不要把要的弄出去了. 比如,
作品资料页面开始标记:<td class="style9" style="padding-top:4px;padding-bottom: 3px">
作品资料页面结束标记:</td> <td class="style1">最新发布:
2,目录页面连接 一般这个都是有规则的,有规则的你就可以按照终点的介绍来做.或者使用标记!一般这段地址都在点击阅读的附近,比如连城
目录页面连接开始标记:<div align="center" class="style12"><a href="/
目录页面连接结束标记:><font color="ffffff">点击阅读</font>
3,作品名称 只要会看原代码就能找到,这个标记就是名字前面和后面的那段
作品名称开始标记:width=19 height=46></td><td><span class="style20">
4,作者名称和类别!
作者名称开始标记:作 者: 作者名称结束标记: </a>
注:很多网站在作品名称,作者,类别前面都有一个连接地址,一般这个地址忽视就行了! 5:作品封面 看那个页面上封面的地址,然后在DW或者直接在原代码中找到那段!
作品封面开始标记:><tr><td height=210 colspan=2><div align=center><img src="/
作品封面结束标记: width=120 height=168>
6,作品关键词
作品关键词开始标记:作品关键字: 作品关键词结束标记:<br>
作品介绍开始标记:作品关键字: 作品介绍结束标记:<br></p></td></tr></table>
注:连城的这地方有点麻烦,所以我直接在内容里面也加上了关键字,望高手看到不要见笑
作品状态开始标记:进程: 作品状态结束标记:</td>
注:部分网站没有这个进程或者其他的设置,你可以尝试着指定! 二,目录页面
首先你先看下目录页面的地址对不对,不对则后退重新设置!千万不要和我说不知道怎么看对不对!
作品目录页面结束标记:<!----> </div> </div>
这个主要看那一大批章节连接前后那部分!
章节链接/章节ID开始标记: <tr><td width=33% height=28><a href="/
注:本处我用的是章节连接,分卷连接那部分我没写过,经过昨天像老大请教,得知分卷采集在更新时更占CPU
标题也可以下一页设置! 章节页设置: 首先查看系统分析后得到的连接是否正确,不正确就后退重新设置.
作品章节页面结束标记:<div id="commend" class="style1" align="center">
正文开始标记: src=" 正文结束标记: "></script> 该标记如果在用于文字版的就是章节内容前后的部分.TXT版的就是TXT文件的路径前后部分. 若是文字版的到此就差不多了,目前替换功能还没有解决,所以本处也不介绍了! 按本例是TXT的采集.所以先下载一个他的TXT文件,注:未必格式就是TXT的 然后用记事本打开:
TXT文件中正文开始标记: document.write
一直下一页吧! 注:本例所有部分的标记都是不包含! 注:高手看到请不要笑 注:那些收钱帮人写规则的,也不要郁闷!毕竟还会有很多人不懂! 如果谁还是不明白,可以去 http://www.mwzw.cn留言,或者要帮忙写哪个网站的规则,请去网站留言! |