ROBOT & AI

首页 | 新闻 | 产品 | 竞赛 | 学苑 | 读书 | 硬件 | 软件 | 智能 | 制作 | 项目 | 资源 | 论坛
 您的位置:首页 >> 学苑 >> 分类研究 >> 网络机器人 >> 正文
站内搜索:   

网络机器人(Robots): 是福还是祸?

来源:   字体:[ ]  2007-03-07

关键词:网络机器人

摘要
机器人在万维网上使用已经有一年多了(相对于1995年)。在这段时间中,它们担当着有用的任务,同时也对网络造成了很大的破坏。本文着重研究机器人在资源收寻方面的优势以及劣势。讨论和比较一些标新立异的资源收寻策略。最后得出结论,在很长的一段时间内,机器人将被广泛的使用,但是随着网络的增大,这些机器人将会变得缺乏效率并且会出现更多的问题。
引言
在过去的几年中万维网[1]已经变得非常大众化了,现在她已经成为因特网上主要的信息发布的平台。随着网络站点和文档不断的增加,经由手工点击超联接的方法浏览网页资源已经变得不可能了,更不用说是一种有效率的资源探索的方法了。
这个问题促使了自动浏览“机器人”的实验。网络机器人是一个通过得到文档然后分析出网页超链接结构,以得到的文档为参考,周而复始得到所有文档的程序。这些程序有时被叫做“蜘蛛”,“网络漫游者”或“网络蠕虫”。这些名字或许很吸引人,但它可能会使人误解,“蜘蛛”和“网络漫游者”给人一种它自己能自动移动的印象,而“网络蠕虫”能自己繁殖,就好像声名狼藉的因特网蠕虫病毒[2]。事实上机器人作为一个单独的软件系统,它仅仅是通过标准的环球网协议从远程站点获取信息的工具。
机器人的用处
机器人能处理很多有用的工作。
统计分析
第一个机器人[3]被用来发现并计数WEB服务器的数目。其他统计包括每个服务器的文档平均数,某些类型文件的比例,网页大小的平均数,网络互联的程度等
维护
一个很重要的难点是维护导航到其他网页的超文本结构,当这些被涉及的网页被移动了,这些联接可能会成为变成“死联接”(dead link)。 现在还没有一个统一的机构来主动通知网页维护人员来修改联接。一些服务器,如CERN HTTPD,能够纪录因死联接而造成得失败请求,根据死链接找到网页,然后手工解决。这种方法不太实用,事实上当网站作者注意到这些时他们只能发现网页包含了坏联接,在许多情况下用户是靠电子邮件通知他们的。
机器人可以校验索引,诸如MOMspider [4],能够帮助作者定位那些死联接,同时帮助超文本结构的维护。机器人也能够帮助维护网页内容,一般通过检测HTML [5]的一致性,一致设计方针,有秩序的更新等等。但这不是普通的惯例。正如可提出证据加以证明的那样,这种功能应该被集成到HTML开发环境中,当文档改变时,这些检测能被重复执行,这些问题很快能被解决了。
镜像
镜像是一个维护FTP档案的流行技术。一个镜像通过FTP拷贝整个目录树,并且规律的得到已经被改变的文档。镜像允许你分享这些文件,减少因主机错误而导致的多余拷贝,并能加快访问速度,减少访问费用,实现离线浏览。
在没有出现成熟的镜象工具时机器人能够被用来镜像网站。有些机器人能够得到一个子目录的文件并储存到本地。但是它不能轻易的更新那些被改动的网页。第二个问题是那些被拷贝的网页需要重写:那些已经被镜像的网页可能需要改变超联接的指向,那些关系到未被镜像的页面的联接需要展开成绝对联接。从性能考虑对镜像工具的需求是尽量减少对成熟的高速缓存服务器[6]到来的依赖,选择性的更新,能够保证一个缓存的文档被更新,并且能够最大程度的自维护。不管用什么方法,我们期望镜像工具能及时的被开发出来。
探索资源
也许机器人最令人兴奋的应用是探索资源。在任何人们不能够拷贝大量信息的场所,最能够吸引人的就是让计算机做这些工作,一些机器人囊括了大量的网页,并提供了访问这些信息的搜索引擎。
这就意味着一个网络用户能够联合浏览和查找来定位一个信息,这种方法胜于单独依靠浏览;即使数据库不能包含你所需要的项目,它可能包含相关与目标信息的网页。
第二个优势是这些数据库能够自动而规律的更新,因此死链接将被察觉并删除。这和手工维护文档比较锁碎和不全面,形成了鲜明的对比。机器人的探索资源的功能将在下文做更深的讨论。
组合使用
一个机器人能够处理多项任务,如RBSE Spider [7]能够统计分析得到的文档也提供了资源探索的功能。令人遗憾的是像这种组合功能的机器人是如此的稀少。
运作的花费和危险
机器人的使用带来了很高的代价,特别当他们工作在遥远的英特网上。在这些段落中我们将看到机器人在环球网中昂贵的需求所带来的危险。
网络资源和服务器负荷
机器人需要相当可观的带宽。首先机器人的运作需要不断的额外延长周期,常常是一个月。为了加快执行速度许多机器人同步执行,导致在一定时间内带宽总是处于高使用状态。如果机器人在短时间内做了大量的文件获取(“快速开火rapid fire“),就连远程的网络也能感觉到网络资源的紧张。这能够导致其他用户暂时性的带宽不足,特别是在地带宽的链路中,比如英特网还没有一个成熟的处理负载平衡的协议。
习惯上,因特网已经被认识到是免费的,个人用户无需为他的操作支付费用。这个理解是建立在未经详细调查的基础上的,特别像公司的用户就能直接感觉到网络使用同花费的关系。一个公司能够感觉到为他们的(潜在的)客户服务是值这些花费的,但是自动传输的机器人却不能够体会到这些费用。
除了微网络的需求,机器人还对服务器提出了外加需要。依赖于频繁的从服务器请求文档能够导致一个相当大的负载,这将导致对其他网络用户的访问服务下降。特别当这个主机还被用来做其他目的是,是完全不能接受的。这里是一个试验,笔者运行了一个模拟程序,同时在他的服务器上获取20个文件,服务器同时运行着Plexus服务/Sun 4/330(SUN公司的计算机型号)。在几分钟内机器慢的像一个爬虫,并且不能做任何事。其实就是连续的获取所导致的结果。仅仅在我写本文的这个星期,一个机器人用快速开火的方法访问了我的站点。过了170个连续的获取后,我的服务器崩溃了。
这些事实显示快速开火应该要避免。不幸的是一些流行的浏览器(如Netscape)也因为能够并发地获取在线图片而忽略了这个问题。环球网协议,HTTP[8],已经显示出这种传输的低效率,新制订协议将改正这些问题[10]。
更新的内务操作
我们已经提及机器人能够自动更新数据库。但是不幸的是在环球网上还没有一个有效的文档更新控制机制;没有一个请求能够确定某一组URL(统一资源定位符)已经被移动了,删除了或更改了。(译者注:HTTP1.0已经加入获取最后更改时间的请求)。
错误的执行
新开发的机器人尤其会增加主机和网络的过度劳累。即使协议和URL的发送是正确的,并且机器人也正确的处理了相应协议(包括一些高级的特性如重定位(redirection)),还是会出现不可预料的问题。
笔者已经观察到同样的机器人访问他的服务器。虽然在某些情况下,这是由一些使用网站的人为了测试而导致的(代替一个本地服务器),在某些情况下显然是因为松散的执行。重复的获取一般发生在某一方没有存储对地址的访问历史(这是不可原谅的),或者是当机器人不能辨别出那些语法上相同的URL,如不同的域名指向同一个IP地址,或URL不能被机器人规范,如"foo/bar/../baz.html" 和"foo/baz.html"是一样的.
一些机器人会得到一些他们不能处理并忽略掉的文档类型,如GIF和附言。
还有一些危险是,有一些接近无限的网页空间。举个例子一个脚本返回一个网页,由这个网页链接到一个更深层的网页。如开始于"/cgi-bin/pit/",链接到"/cgi-bin/pit/a/", "/cgi-bin/pit/a/a/", 等等。因此这些URL空间能够欺骗机器人使它陷入其中,这种陷阱通常被叫做“黑洞”。关于机器人排斥(Exclusion)的一些标准在下文将作讨论。
编写目录问题
由机器人产生的资源搜索数据库很流行是无可厚非的。用户根据一定规则来使用这个数据库用来定位资源。然而,机器人在网络资源探索的适用性方面的限制还有一些争议。
网络中有太多的信息,而且它都是动态。
判断一个获取信息途径的效率的尺度是 "查全率(recall)",即实际上被发现的所有有关的文件的分数。 Brian Pinkerton [15] 规定的查全率在因特网指数标定系统中是正确的, 就好像发现相关的文档一样不是问题.然而,如果一把英特网上整套可利用的数据视为一种基础,并非由机器人产生的数据库,查全率不可能是高的,如同数据的数量是巨大的,而且变化很时常发生一样。当网络生长,因此在实践中机器人数据库不可能包含特别细节的资源,随着环球网的增长情况将变得更坏。

3页 [1] [2] [3] 下一页 

录入:master 点击:

[发表评论] [打印文章] [关闭窗口]  

原创文章属本站所有,转载请注明来源:Robotain.com  
相关文章

 网友评论(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)

发表评论 昵称:

  

  • 请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
  • 严禁发表危害国家安全、损害国家利益、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容的评论 。
最新推荐
热门文章
论坛精华
网站简介设为首页 加入收藏在线留言友情链接联系我们 - 广告服务 - 版权申明

Copyright © Robotain.com  all rights reserved  浙ICP备07003355号

版权所有 机器与智能网