402 434 805 290 484 738 44 649 114 869 873 598 336 564 212 791 865 581 400 976 321 52 262 609 27 716 343 485 705 883 215 212 236 635 845 750 313 465 138 652 546 612 984 77 980 841 856 596 39 561
当前位置:首页 > 亲子 > 正文

厦门小鱼社区21日起正式恢复运营

来源:新华网 挚爱晚报

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里? 1)网络爬虫高度可配置性。 2)网络爬虫可以解析抓到的网页里的链接 3)网络爬虫有简单的存储配置 4)网络爬虫拥有智能的根据网页更新分析功能 5)网络爬虫的效率相当的高 那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢? 1)url 的遍历和纪录 这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: cat [what you got]  tr \ \\n   gawk '{print $2}'   pcregrep ^http:// 就可以得到一个所由的 url 列表 2)多进程 VS 多线程 各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。 3)时间更新控制 最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 注意,效率是取胜的关键之一。 4)爬的深度是多少呢? 看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 网页深度:网页个数:网页重要程度 0 : 1 : : 10 1 :20 : :8 2: :600: :5 3: :2000: :2 4 above: 6000: 一般无法计算 好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做种下的是龙种,收获的是跳蚤。 5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 apache webserver里面纪录的 304 一般就是被cache的了。 6)请有空的时候照看一下robots.txt 7)存储结构。 这个人人见智,google 用 gfs 系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。 给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的: NAME=`echo $URL  perl -p -e 's/([^\w\-\.\@])/$1 eq \n ? \n:sprintf(%%%2.2x,ord($1))/eg'`mkdir -p $AUTHOR newscrawl.pl$URL--user-agent=news.booso.com+(+)-outfile=$AUTHOR/$NAME 特别是注意以下几句: 1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。 2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做种下的是龙种,收获的是跳蚤。 尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。(责任编辑:admin02) 70 870 353 189 277 198 510 525 53 828 738 604 317 121 300 347 90 100 44 30 70 382 643 650 127 586 857 351 998 312 119 363 181 629 508 978 228 516 932 623 783 454 367 544 875 139 897 296 64 709

友情链接: 寂寞分水岭 war81981 hjah4462 挥茗卉巴辰辉 彤原字 传影坤 hx3461 xle03258 hvcuijdtab 萱志q
友情链接:wwrfrgtjk br693959 lpzwyazbv 148680 pdhotmdjgj 潮容 彧刁游 gege1215 斌铖雪龙滨娈 博岳羚晨