下面是小编给大家整理的引导蜘蛛抓取文章的方法,本文共6篇,欢迎大家借鉴与参考,希望对大家有所帮助。

篇1:引导蜘蛛抓取文章的方法
最近很多人说百度的原创火星计划生效了,百度对于原创内容的网站会更加喜欢,笔者根据自身的网站分析,分享一下自己是吸引百度蜘蛛来网站抓取文章的,下面详细说下步骤:
一、提交地图:
每天发布文章之后将网站的地图更新一下,然后提交地图到百度,让其可以通过地图访问你的网站。
二、按照百度官方的说法去执行
1. 百度的原创火星计划里面谈到,只要你的文章写的是原创,在用户搜索相同文章的时候原创内容优先展示。所以,我们写原创是必须要做的。
2. 对于一些权重比较高的网站,如果采集了一些小站的文章,那么百度可能会不确定小网站的情况,所以小网站可以通过ping机制ping给百度,这样有利于让百度知道哪个是原创的。
3. 笔者一般是按照百度官方的这些指示做好,再到一些收录比较快,权重比较高的网站去发表一下外链,如:红黑联盟,站长之家,还有新浪博客,天涯博客以及中金博客等大型的博客,利用外链吸引蜘蛛来我的网站抓取原创文章。www.dnzg.cn
三、发外链吸引蜘蛛的方法
1. 很多站长发布外链都是带个网站的首页网址就算了,笔者认为这种优化方式比较单一,如果你的网站权重低,更新不频繁的话,可能蜘蛛通过链接到了你的网站就不再深入去爬行了,
2. 笔者一般是更新完文章,然后去各大论坛和博客发布文章,然后带上我刚刚发布的文章地址。这种效果个人感觉是比较不错的,各位站长可以尝试下。
四、和一些更新比较频繁的网站交换链接
各位站长都知道友情链接对于网站的排名起到一定的作用,同时友情链接又引导蜘蛛在网站之间来回爬行的一种链接,对于网站的排名和收录都是非常有帮助的,所以各位站长可以和一些更新比较频繁的网站交换链接。
五、自己站内文章之间的链接
不论是文章之间还是栏目和网站首页之间,全部要有一个或者几个链接的路径,这个路径是蜘蛛在你网站上面爬行的一种链接,同时也可以让用户点击的链接,对于网站的收录,排名和权重的提高都是比较不错的。
总结:
本人做了多年的seo优化,以上的这些经验全部是自己悟出来的,希望对于广大站长朋友们有帮助。当然,如果喜欢本文,你可以,转载同时不要忘记加我们的关键字和网址:温州帮做网站www.win8f.com ,非常感谢大家的支持和配合。
篇2:合理优化网站结构吸引蜘蛛深入抓取网站内容
蜘蛛来到网站是好事,但是通过蜘蛛访问记录我却发现了很大的一个问题,往往蜘蛛来到网站之后抓取了4,5个页面就离开了,这是怎么一回事呢?相信很多站长都感觉到从6月份的事件之后,百度蜘蛛很不稳定吧,我的网站也是一样,从6月份过后蜘蛛每次来了抓取几个页面就走了,这样网站的收录也一直没有提升上去,最后我对网站进行了一次大检查,然后对网站的链接进行了整理,还别说,经过整理后的网站,蜘蛛每次来抓取的页面达到了20、30,下面我来分享一下我的检查方法与整治方法。
我觉得蜘蛛刚开始不深入的原因第一种可能是导航链接没有设置对,蜘蛛不能够通过导航链接进入你网站的深处,那么它怎么去抓取内容页面呢?第二种可能是蜘蛛遇到了死链接,搜索引擎蜘蛛准备抓取下一个页面的时候却无法爬行,那么网站的死链接就成为了罪魁祸首,逼百度蜘蛛离开网站。第三种可能就是长时间的不更新站点内容也会导致百度蜘蛛厌烦。
第一、重新设置网站导航链接
网站的导航链接是用户的指导线,也是搜索引擎蜘蛛的指引线,良好的导航路线能够帮助搜索引擎蜘蛛从网站的首页逐步的贯穿网站的整个页面,这样就要求我们在设立网站导航的时候要一层层的设立,下面我来谈谈设置导航链接的几点要求:
1、导航链接要就近原则,我们在设置导航链接的时候不要将搜索引擎蜘蛛看得太深奥了,其实他就是一个抓取的工具,而最容易抓取的是什么,就是最近的事物。因此我们在利用导航链接的时候可以通过导航链接导入下一层栏目链接,而下一层栏目链接才导入内容页面,这就是一层层的导入方法。
2、导入的URL不要太复杂,我觉得网站的URL地址可以设置简单一些,就用一款PHP的程序,目录设置简单一些,那么蜘蛛在爬行抓取的时候也相对容易一些。
第二、死链接必须清理,留下就是祸害
死链接对网站的阻碍作用非常大,稍不注意死链接就有可能对网站产生致命的影响,检查死链接可以利用chinaz中的`工具,而清理死链接就相对困难一些了。现在我清理网站死链接的方法是通过游览器FTP中的搜索功能,先在查询工具中将死链接的地址进行复制,复制之后再通过游览器FTP的查找功能,找到它在哪个文件之中,最后在进行删除,很多站长会说我这个方法很麻烦,但是我想说这个方法确实最有效的方法,那些清理死链接的工具我也用过,大多都是假的,根本就无法完成清理工作。
第三、文章内容链接进行合理布局
我们在网站的文章内容之中也不要忘记了链接布局这种形式,在进行常规性的文章更新工作的时候我们可以将文章中的关键词作一个链接指向,指向其它的文章内容页面或者网站的栏目页面,这样搜索引擎蜘蛛在抓取了这篇文章内容之后就会向下一篇文章内容进行抓取,这也间接性的提高了搜索引擎蜘蛛抓取的页面进度与力度,大家可以想一下,一个中心汇出来了无数的点,蜘蛛能不高兴吗?这代表他能够吃到的食物更丰富,这也是我们在进行文章内容页面链接布局的关键点。
通过前面的三种方法让网站的结构呈现递进化的趋势,通过层层引入、蜘蛛抓取的方法让网站的收录得到极大的提高,有时候搜索引擎蜘蛛并不是不想抓取你的网站,而是你的网站垃圾太多了,每隔一周检查网站的链接也是很有必要的,这也是提高搜索引擎抓取力度的一个因素。
篇3:百度蜘蛛抓取首页返回304的原因
返回304值的官方意思就是蜘蛛来的前一次跟这一次,网页内容没有发生任何个变化,
经常有朋友在f论坛上问自己的网站被百度蜘蛛抓取首页后返回304的值,而且自己网站是有更新内容的,而且首页也是有变化的。一般论坛上的朋友对这个问题的回答都是:首页没更新或者更新不多。这个回答很让人难以理解。因为明明自己就有更新,而且有时候更新得还不少。
对于这个问题,我提出个人的见解:
①网站没怎么更新,至少更新的不多,
解决方法是加大更新频率,因为有时候蜘蛛来了之后才更新,那样蜘蛛是碰不到您的新内容的。还有就是在首页跟栏目页,内容页增加一个随机文章列表,因为随机列表每次刷新的内容都是不一样的。所以对蜘蛛很好,也能增大内容的抓取量。
②采集太多,采集的内容就相当重复,蜘蛛对你的内容没什么兴趣,自然返回304的值。
③因为采集或者其他原因被百度惩罚,权重降了,百度自然不会稀罕你网站的内容。这种情况下日志会经常出现蜘蛛频繁地抓取首页并返回304,并且很少抓取内页,这种情况一般都会持续到百度对你网站恢复后就不会返回304了。恢复期间建议多弄原创文章。
原创文章:www.ygebh.com/ (请注明地址,谢谢)
篇4:RealPlayer的抓取速度提高的方法
使用REALPLAYER的朋友们相信不在少数,但是有没有碰到过抓取视频的速度非常的慢,很着急吧!不用再着急了,在这里我们就来看看怎样提高RealPlayer的抓取速度!
最近有网友询问如果有大量CD需要RealOne进行转换时候比较慢,能否可以加快转换速度,
RealPlayer的抓取速度提高的方法
,
这里我就回答一下,你可以通过设置快速编码来加快CD的复制进程。那如何提高RealPlayer的抓取速度呢:
方法是:在RealOne Player播放窗口主界面菜单中选择“工具→参数设置”,然后在设置窗口中选择“CD→高级CD”,在激活的“高级CD”窗口中部选择“高级”按钮,接下来在激活的“高级保存CD选项”窗口的下部,将性能框中的CPU占用滑块调节到“最高”的位置并确定即可。这样设置CPU的占用将增大,所以尽量不要开启别的程序,可以在电脑闲置的时候完成这项工作。
篇5:python3抓取中文网页的方法
作者:文傻理呆 字体:[增加 减小] 类型:
#! /usr/bin/python3.2import sysimport urllib.requestreq = urllib.request.Request(‘www.baidu.com‘)response = urllib.request.urlopen(req)the_page = response.readtype = sys.getfilesystemencoding()#转换成本地系统编码print(the_page.decode(type))
希望本文所述对大家的Python程序设计有所帮助,
篇6:利用robots.txt控制Yahoo! Slurp蜘蛛的抓取频度
上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?
我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒,
剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:
User-agent: *
Crawl-delay: 10
我推荐使用 User-agent: * 万一有其他引擎逐步也支持这个配置呢,而不支持这个配置的引擎也会跳过这句。
可实际上我从自己网站的日志中看到:Slurp的压力却不止10秒一次,原因是这样:雅虎美国和雅虎中国有2套蜘蛛在运行,因此实际的访问可能是这样:
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2,
但是实际上我看到的雅虎的蜘蛛是分布在很多台服务器上的:而多个服务器集群之间也是不相互协调同一网站的抓取频度的
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China
我统计了一下:Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
给豆瓣推荐的Crawl-delay: 100平均2.5秒访问一次,应该没有问题了。
注:我查了一下Slurp的意思,就是咂吧嘴的声音,发音听着很像在吃面条吧?
来自:ysearchblog.cn/2006/07/yahoo_slurp.html
★蜘蛛人生
文档为doc格式