Skip to content

jwlyn/tpl-spider-core

Repository files navigation

TODO

  • 种子url有效性检查
  • 单文件模版模式
  • 任务时间、大文件控制
  • 域名黑名单:不抓这些域名的东西

BUG

  • 百度按钮歪了

竞品

https://gitee.com/mail_osc/templatespider

4种下载模式

  1. 是否抓外网链接:引入的cdn图片,css, js是否要抓到本地来。如果抓到本地就会地柜处理css包含的url, import等引入的
  2. 是否全站:抓取一个url平级和下级全部html页面。适合抓模版网站
  3. 是否压缩为一个文件:图片、字体压缩进css文件,然后css、js、图片(style内联以及<image标签)文件再压缩进html。适合发送email
  4. 是否资源采用盗链方式:图片,css等都从外网引入,不走自己服务器流量.

对于模式1,需要修正页面中引入外站js, image, link链接为绝对链接。

模式4和模式1比较:模式4会主动将属于自己域名平级和下级的资源都尽量引入外部资源(绝对url)对于模式1,如果属于这个页面平级或者下级则会抓取。

动态

  • 开始是个图片,后来才加载 http://r110.mobanvip.com/
  • http://r137.mobanvip.com 需要增加一些策略,保证某些url也要抓及时不在一个网站下或者子网站等。
  • 有时候也需要把页面内的url也智能匹配下,替换里面的url

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages