从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守
robots.txt是存放与网站根目录下的对搜索引擎爬虫列明抓取限制的文件。
淘宝近日在robots.txt里将百度爬虫完全禁止了,也就是说,不允许百度爬虫抓取taobao.com上任何页面。显然,淘宝这一举动是针对百度将要上线的C2C平台而做出的。
但根据新浪科技的采访报道,百度电子商务事业部总经理李明远表示百度正在酝酿绕过淘宝官方,为淘宝用户开辟“绿色通道”,由用户直接提交URL让百度收录。
[img]
如果百度真的开辟了这个绿色通道,这将是对其行为操守的一个巨大的讽刺。
为什么这样说呢?
首先从robots.txt说起。
robots.txt能做什么?
1、限制某个搜索引擎不让其爬取
2、限制搜索引擎不让其抓取某些页面
3、其它限制
而淘宝的robots.txt里的内容如下:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
大小写都用了,很明显是要限制百度爬虫,除非百度爬虫不叫baiduspider。
淘宝有权禁止搜索引擎抓取吗?
robots.txt是可以分级的
也就是说,二级域名根目录下也可以放置robots.txt。但是,顶级域名下的robots.txt的权限高于二级、三级域名下的robots.txt。
淘宝店铺URL使用的都是二级域名,不管这些店铺是否愿意被收录,只要taobao.com的robots.txt作出了限制,一切都是NO。
robots.txt规则
搜索引擎会先访问网站根目录的robots.txt文件
在百度的帮助文档里可以看到这一句:
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。
搜索引擎在爬取一个网站时,会先检查robots.txt,检查有哪些限制,再作出下一步决定。
说到点子上,不管搜索引擎发现某个网站有多少个URL,但只要这个网站的robots.txt里标明不允许搜索引擎抓取,搜索引擎是不能收录这个URL的。
对百度行为操守的质疑
百度遵守robots.txt吗?
这是这篇文章的要讨论的重点。
百度官方帮助文档里有这一句话:
百度严格遵循搜索引擎Robots协议
虽然在百度的十大罪状里说到,有传闻说百度是不遵守robots.txt的,但那毕竟是传闻,我们不妨先相信百度的官方说明。
低劣的行为操守
但是,一旦百度开通了“绿色通道”,允许卖家直接提交URL让百度抓取,这显然是违反了Robots.txt里的规定,而百度又是说自己是“严格遵循”Robots协议的,这可否说是拿石头砸自己的脚呢?
robots.txt不是法律,是准则
虽然robots.txt不是法律,但一旦搜索引擎加入了这个准则,就说明其遵守里面的协议。虽然违反协议内容不会受到法律的制裁,但这样的行为操守显然会受到鄙视。
百度口口声声说自己是遵循Robots规则的,但偏偏要酝酿这个绿色通道,是否可以认为,百度说遵守robots.txt只是个幌子,它事实上是没有规则可言呢?
当然,我希望百度不会真的酝酿这个绿色通道,不然就会成为天下的大笑话了。但既然这句话出自百度电子商务事业部总经理李明远之口,也未必不是事实。
最后说一点题外话,淘宝这种做法是否伤害到商家利益?
搜索一件商品的最好渠道不是通过搜索引擎。因为在搜索引擎里我们看不到价格、款式等商品属性的比较。而购物网站内建的搜索引擎却可以做到这一点。
另一方面,百度搜索结果经常充斥着诱惑点击的竞价排名广告,如果淘宝店铺结果混合在里面,这未必是一件好事。
用户系统信息:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; NetCaptor 7.5.4; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; InfoPath.2; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)