背景
百度站长资源平台抓取诊断功能提供了如下说明:
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容和预期是否一致。每个站点每周可使用70次,抓取结果只展现百度蜘蛛可见的前200KB内容。抓取诊断可能受到网络影响造成抓取失败,如遇到抓取失败情况,可重新检测,并自查网站是否可正常访问。
通过抓取诊断可引来蜘蛛爬取网站链接,一个站点的配额每周70次,不多通过批量添加二级域名来增加抓取配额(批量添加域名工具),抓取诊断量很大就需要用到自动化工具来替代人工操作。
百度批量抓取诊断工具简介
使用说明
该工具推送链接到百度接口,如果量小不需要设置adsl,如果量大需要使用动态vps并配置好adsl进行网络切换,因为通过接口发送操作频繁百度会对当前ip拒绝服务处理。
链接文件
1、链接的域名必须已在平台添加完成
2、链接每行一条
3、支持多域名链接在同一文件中
链接文件格式(url.txt)如下:
//about//category/python-crawler//category/python-foundation//category/linux//category/flask//category/tools//category/moneymsg/...
百度资源平台cookie获取
1、先用账号登陆百度资源平台/
2、谷歌浏览器按F12打开调试面板,选择网络面板,清空浏览器记录,按F5刷新当前连接,找到请求连接,然后找到请求标头里面的cookie,把值复制出来,如下图:
3、将复制的cookie粘贴到工具ck处,如下图:
UA方式
支持选择UA方式,PC UA 或移动端UA
打码token
每条抓取诊断的链接都需要配置过百度验证码,这里已对接好打码平台,打码token获取,请.V…X…466867714
Adsl切换网络设置
adsl设置好就可以了,自动切换ip了
切换数量是指每执行多少条链接切换一次ip,这里默认是3,具体可根据实际情况自行调整