小说精品屋爬虫管理
爬虫源管理
单本采集管理
规则测试
爬虫源信息填写(示例均为顶点小说网:dingdiann.com)
示例:
新顶点小说网
示例:
http://m.xdingdiann.com/sort/{catId}/{page}.html
({catId}代表分类ID,{page}代表分页页码)
示例:
1
示例:
2
示例:
3
示例:
4
示例:
5
示例:
6
示例:
7
示例:
href="/ddk(\d+)/"
value="(\d+)/\d+"
value="\d+/(\d+)"
http://m.xdingdiann.com/ddk{bookId}
(bookId代表小说ID)
示例:
<p class="title">([^/]+)</p>
示例:
作者:([^/]+)<
示例:
<img src="([^>]+)"\s+onerror="this.src=
可空,适用于图片路径为相对路径的源站,加上小说图片路径,则为完整的可访问的图片路径
示例:
状态:([^/]+)</li>
示例:
连载
示例:
完结
示例:
<div\s+class="score">(\d+\.\d+)分</div>
示例:
示例:
<p class="review">
示例:
</p>
示例:
更新:(\d+-\d+-\d+\s\d+:\d+:\d+)</a>
示例:
yyyy-MM-dd HH:mm:ss
示例:
http://m.xdingdiann.com/ddk{bookId}/all.html
(bookId代表小说ID)
可空,适用于最新章节列表和全部章节列表在同一个页面的源站
示例:
<a\s+style=""\s+href="/ddk\d+/(\d+)\.html">[^/]+</a>
示例:
<a\s+style=""\s+href="/ddk\d+/\d+\.html">([^/]+)</a>
示例:
http://m.xdingdiann.com/ddk{bookId}/{indexId}.html
(bookId代表小说ID,{indexId}代表目录ID)
示例:
id="content">
示例:
<script>