爬虫系统~~~网络爬虫(也叫网络蜘蛛或网络机器人)通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环直到把这个网站所有需要的网页都抓取完为止。整个互联网当成一个网站,爬虫就可以用这个原理把互联网上所有的网页都抓取下来。爬虫系统需要运用到的技术有分布式、并发、链接选择算法、链接过滤消重算法等。