欢迎光临
 
日历
<<  < 2009 - >  >>
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
最新日志
最新评论
最新留言
 
采集规则编写教程!
采集规则编写教程!

本人也是刚刚接触采集规则,见整个论坛都没人写这方面的,小弟就写一把,终比写一个规则收人10元强吧!
觉的不错的,麻烦点下我网站的广告.http://www.mwzw.cn
采集分文字和txt等
先就txt的以连城书盟为例!
首先基本设置就不说了,连成书盟
本文所有信息都是由http://www.isee5.com Isee5音乐网提供
1,资料页设置:
作品资料页面地址,这个也没什么好说的,终点有介绍!
作品资料页面开始标记:这个是指整个页面的开始部分,一般在head下面,不会看的可以使用dw.重点,开始标记和结束标记中间才是我们要的信息,千万不要把要的弄出去了.
比如,

作品资料页面开始标记:<td class="style9"  style="padding-top:4px;padding-bottom: 3px">



作品资料页面结束标记:</td>
    <td class="style1">最新发布:

2,目录页面连接
一般这个都是有规则的,有规则的你就可以按照终点的介绍来做.或者使用标记!一般这段地址都在点击阅读的附近,比如连城

目录页面连接开始标记:<div align="center" class="style12"><a href="/



目录页面连接结束标记:><font color="ffffff">点击阅读</font>

3,作品名称
只要会看原代码就能找到,这个标记就是名字前面和后面的那段

作品名称开始标记:width=19 height=46></td><td><span class="style20">



作品名称结束标记:</span></td>

4,作者名称和类别!

作者名称开始标记:作 者:
作者名称结束标记: </a>



作品类别开始标记:类别:
作品类别结束标记:-

注:很多网站在作品名称,作者,类别前面都有一个连接地址,一般这个地址忽视就行了!
5:作品封面
看那个页面上封面的地址,然后在DW或者直接在原代码中找到那段!

作品封面开始标记:><tr><td height=210 colspan=2><div align=center><img src="/



作品封面结束标记: width=120 height=168>

6,作品关键词

作品关键词开始标记:作品关键字:
作品关键词结束标记:<br>



作品介绍开始标记:作品关键字:
作品介绍结束标记:<br></p></td></tr></table>

注:连城的这地方有点麻烦,所以我直接在内容里面也加上了关键字,望高手看到不要见笑

作品状态开始标记:进程:
作品状态结束标记:</td>

注:部分网站没有这个进程或者其他的设置,你可以尝试着指定!
二,目录页面

首先你先看下目录页面的地址对不对,不对则后退重新设置!千万不要和我说不知道怎么看对不对!

作品目录页面开始标记:<!--start-->



作品目录页面结束标记:<!---->
</div>
</div>

这个主要看那一大批章节连接前后那部分!
 
 
 
 
章节链接/章节ID开始标记: <tr><td width=33% height=28><a href="/



章节链接/章节ID结束标记:>第

注:本处我用的是章节连接,分卷连接那部分我没写过,经过昨天像老大请教,得知分卷采集在更新时更占CPU

章节标题设置:.html>



标题结束标记:</a>

标题也可以下一页设置!
章节页设置:
首先查看系统分析后得到的连接是否正确,不正确就后退重新设置.

作品章节页面开始标记:
<!--start-->



作品章节页面结束标记:<div id="commend" class="style1" align="center">



正文开始标记:
src="
正文结束标记:
"></script>

该标记如果在用于文字版的就是章节内容前后的部分.TXT版的就是TXT文件的路径前后部分.
若是文字版的到此就差不多了,目前替换功能还没有解决,所以本处也不介绍了!
按本例是TXT的采集.所以先下载一个他的TXT文件,注:未必格式就是TXT的
然后用记事本打开:

TXT文件中正文开始标记:
document.write



TXT文件中正文结束标记:
');

一直下一页吧!

注:本例所有部分的标记都是不包含!
注:高手看到请不要笑
注:那些收钱帮人写规则的,也不要郁闷!毕竟还会有很多人不懂!

如果谁还是不明白,可以去http://www.mwzw.cn留言,或者要帮忙写哪个网站的规则,请去网站留言!
isee5 发表于 2007/8/6 10:55:00 | 阅读全文 | 回复(0) | 引用通告 | 编辑
 
发表评论:
 
     
Powered by Oblog.