> 因特网搜索引擎发展的下一个进程是什么?AltaVista曾经演示了万维网检索内容是可能。Google的成功源于从浩瀚网页中淘出有用的页。但是,无论何人利用网络递交问题获得答案才是因特网赐予的上天厚物。微软的研究人员埃里克-布瑞尔打算让微软实现这一理想的第一家公司。
布瑞尔博士首先倡导的网络回答问题的系统叫做“Ask MSR”(MSR的代表Microsoft Research),这种程序利用网页信息回答问题,答案可以是一个词或者是短语,例如你可以问“玛丽莲.梦露的出生日期?”Ask MSR通过几种步骤开始回答问题,例如先找到动词,再变换时态,或者在句子中调整单词的位置,最终形成的短语(杂乱的短语)再送到搜索引擎中,含有匹配单词的文档被检索出来。听起来这是一个杂乱的策略,实际上这些杂乱的短语能够得到少数的匹配答案。
一旦文档集结之后,扫描这些文档获得可能的答案,并且以频率将其排列。实际上,在75%的时间里,正确答案一般是排在前三位的匹配结果。听起来结果似乎并不理想,但是人类的智慧可以再过滤答案,因为错误答案是显而易见的。例如,假若你问“博格一共获得几次温布尔登公开赛冠军?”,“1980”肯定不是正确答案,“5”可能就是正确答案。如果还有疑问,点击答案转到一系列链接网页以验证答案。
虽然微软正在不断完善Ask MSR系统,并且可能将采用AnswerBot这个商业名字,但是Ask MSR还处于雏形阶段。同时,布瑞尔博士目前已经转向更为艰巨的任务。在最近他写的一篇论文“超越仿真陈述”中,描述了试着建立一套能够回答更难问题的系统,答案长度达到50个单词,这比单个词答案更难一些。然而布瑞尔博士认为采用“噪声通道”模型可以实现这个目标。这种模型已经应用在拼写检查和语音识别系统中,工作原理是在用户意思和用户实际行为之间的变换中建立模型。就像电话线扭曲声音一样,传送到另一端的声音已经出现变化,这个过程可认为是一个噪声通道,它把用户的真实声音变成差别很大的声音。
对于语音识别系统,使用统计技术分析多组正确拼写单词/错误拼写单词,可以预测出一般情况下这种变换是如何工作。针对这个原理,可以设计出一套从后至前的系统。对于一个拼写错误的单词,系统能够猜测出这个单词最可能的正确拼写。
布瑞尔博士的问题-回答系统与拼写检查系统十分相似,网上存在很多问题-答案对,它们在FAQ(常见问题回答)网页中。布瑞尔博士的系统利用100万对问题-答案对去产生一个模型,对于一个指定的问题,该模型能够找到答案采用的多个结构,这些结构用来生成搜索查询,网上发现的匹配文档被扫描之后,找到看起来像是答案的结果。
当前雏形系统有40%的时间能够提供正确答案,不理想也不差。随着网络的发展,它还会不断完善。
Tags:
责任编辑:小黑游戏