robots第一案启示:违反爬虫协议无异于行业“毒瘤”

  360行,行行有规矩。不守规矩的企业在任何行业都是要人人喊打,难以可持续发展的。在互联网这个行业里,自然也有自己的规矩。作为信息产业,互联网公司每天处理大量的网友信息,不管是邮件、图片还是地址、帐号等信息,各大正规网站都高度注意保护这些敏感信息,因为一旦泄露,后果不堪设想。互联网公司里头,还有一类公司直接把控着网友各种敏感信息的曝光与否,它们就是有搜索引擎平台的公司。搜索引擎如果不守规矩,它派出的多队蜘蛛就会不管不顾的把包括隐私在内的各种信息统统抓取放出,一旦被搜索传播出去,就会产生难以预料的不良后果。

  为此,1994年荷兰人提出了robots协议,从那时起,robots协议就被Google、Yahoo、微软、百度等各大正规搜索引擎当作不可触犯的天条,只要某个网站的robots文件里明确禁止抓取的内容,搜索引擎就不会去擅自抓取收录,从根本上杜绝了各种事关网民利益的信息安全隐患。

  然而,有些后来推出搜索引擎的公司,为了急于上位,置目标网站robots文件明确禁止的目录于不顾,公然违反robots协议,大搞不正当竞争,不仅有损自己的形象,更给网民的信息安全和隐私保护带来隐患。

  根据之前的媒体报道等公开资料显示,像360公司,自2012年8月推出独立搜索以来,其违反robots协议,窥探用户隐私的问题便屡屡遭到各方的质疑和反感。之前微博网友zeracker指出360抓取用户账户、密码及订单、优惠码等信息,并晒出图片,让360浏览器抓取很多国内知名网游的后台订单、优惠码等敏感记录的行为尽显无遗。

  360的抓取不仅让用户账户信息存在风险,邮件等信息也难逃厄运。细心的网友发现在使用360搜索时,360搜索居然会抓取IBM lotus domino 邮件系统后台和个人邮件文件存储地址。360违反robots(拒绝抓取)协议的抓取行为,将使用户邮件信息的内容,可以被搜索引擎抓取,更可以被网民搜索。IBM国际商业机器中国有限公司的黑客老鹰更是曾在微博中指出,360搜索能抓取公司内网信息,而这些信息在正常状态下仅能通过VPN+动态口令才允许访问。这也就意味着公司所有的内部信息、商业机密等将在360面前暴露无疑。随后该微博立刻被删除,不禁让人猜测,该微博碰到了360的痛处。

  即便对于同样做搜索引擎的同行公司的内容,360竟然也不放过,大有“兔子偏吃窝边草”的无赖架势。这也就是robots第一案的由来。忍了一年多的百度,于去年11月将360告上法庭,百度认为,360搜索在未获得百度公司允 许的情况下,违反业内公认的Robots协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔。目前,百度诉奇虎360违反“Robots协议”抓取、复制其网站内容侵权一案在北京市第一中级人民法院做出一审判决。法院认为,360公司违反Robots协议侵犯百度权益证据确凿,有违商业道德,属不正当竞争行为,责令360累计赔偿百度相关损失70万元。

  “Robots协议是国外通行的行业惯例,我国网络公司通过协商也予以认可,归入行业自律范畴。”针对法院的判决,中国工程院院士倪光南指出,在国家产业政策指引下,我国网络领域依托中国丰富的科技人力资源和巨大的市场支撑,发展态势喜人。在这种情况下,进一步规范市场行为,遵守国际规则和行业惯例,有利于今后长远的发展。

  可以说,无论是从长远计,还是从网民的利益和隐私保护计,任何违反Robots协议的互联网公司都无异于影响互联网行业健康发展的毒瘤。本次robots第一案的判决,对互联网行业发展和网民利益无疑有着重大的里程碑意义。

  免责声明:本文仅代表作者个人观点,与本网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

 

上一篇:智能无惧挑战 山石网科轰动RSA2015

下一篇:拒绝丛林法则 为何必须保护Robots协议?