新闻来源:译言-技术与创业
原文作者:Nitin Karandikar
原文链接:Top 17 Search Innovations Outside Of Google
译者:convertible 有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索
技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的
(译者:关于破坏性创新,请参见这里)。这些创新分为4类:查询预处理;信息来
源;算法改进;结果可视化和后处理。 [其中的某些创新也在Google的存在各种产品
中,但是,正如下文所述,Google的主搜索页中不是缺失了这些功能,就是功能还很
有限。
查询预处理
这类改进的主要目的是应用逻辑来尽量预测用户的意图,并由此改进查询的输入。
1. 自然语言处理 这一功能最初是由Ask.com开创的。同期最著名的例子是Hakia 和
Powerset,二者以不同的方式试图理解用户查询背后的语义或意思。这些搜索引擎
与Google的很大的不同,是他们认为“忽略词”(stopwords)非常重要,如次要的
连词,像by, for, about, of, in等,Google通常会忽略它们。
2. 个人相关性(亦称“个性化”) 长久以来,大家认为按某特定用户的兴趣和要求
处理查询,能获得更高相关性的搜索结果。 Google已在其搜索引擎中支持这一功能
,但需要登陆才能使用。很多用户理所当然地不情愿这样做,因为这样可能会给Google
提供追踪其特殊的搜索内 容的条件。 [即使John Battelle也认为这个想法有点可怕
,尽管Google的Matt Cutts并不同意这个看法。] 所需要的就是一种虽然是匿名方式
,但能提供个性化的搜索方式。从更广泛的角度来说,提供多个网站上的个性化会更
加有用。 Collarity就是拥有这一功能的搜索引擎。
3. 定制的、专门的搜索 这是一个简单但强大的功能。这一应用的典型代表是SimplyHired
,一个求职招聘的垂直搜索引擎,能提供强大的、预设的搜索,比如“适合年纪大的
员工的雇主”、“允许上班带狗的雇主”等。
信息来源
这些改进着重于潜在的数据来源:额外的内容类型和对数据来源的限制,提高了搜索
结果的可靠性(减少垃圾信息)。
4. 新的内容类型
今天的年轻人正像交流文字信息一样,在手机上舒服地交流照片和视频,成为这个时
代的标记。在网上,富媒体内容-图片、音频、视频、电视等,及与其内容有关的语
义信息一起正在爆炸性地增长。搜索引擎也愈加需要相应地支持这些内容类型。一些
支持丰富内容的搜索引擎的示例如下:
-富媒体搜索:音频 (odeo, podzinger ),视频(Youtube, truveo),电视 (Blinkx
),图片 (Picsearch, Netvue )
-专业化内容搜索:博客 (Technorati ),新闻(Topix ),分类广告 (oodle )
当然,Google在这一领域也非常活跃,如Google Blogsearch(博客),Searchmash
(图片), Google视频, Google新闻等,因此,也许将这一项放在这个清单里不大公
平。尽管如此,理想的情况是,将不同的媒体结果集合在一个搜索里,正如Searchmash
已经做的那样(Retrevo是另外一个好例子)。
5. 限定的数据来源
最使搜索用户烦心的问题之一是垃圾信息。由于营销商们更加聪明,正日益使用更多
侵略性的SEO(搜索引擎优化)技巧,搜索结果的质量就又下降了。 (Google,作为
最流行的搜索引擎,更是众矢之的。) 对一系列受信任站点的限制性搜索排除了这一
问题,尽管它也缩小了搜索内容的领域—它为某些类型的搜索很好地提供了真实的、
优质的结果,比如,当为一个小学项目研究火山时,搜索维基百科(Wikipedia)、
国家地理(National Geographic)和科学/教育站点。
这一应用最好的例子来自A9.com,它能从多种数据来源中提供内容,并允许用户对每
一个搜索作出清楚的选择。Google Co-op 和 Yahoo! Search Builder 能使第三方可
以创建这种解决方案;Rollyo早已经是这一领域的先行者!
6. 特定领域的搜索(垂直搜索)
通过聚焦一个单一的垂直方向,搜索引擎能提供更好的用户体验,它对某一特定领域
更加全面、简明。针对不同的领域有令人难以置信的大量的垂直搜索引擎,更多资料
请查看Alex Iskold在读写网(Read/WriteWeb)上的文章或在Software Abstractions
博客上的概述。 [要更全面地了解这方面的信息,Sramana Mitra的在线旅游服务概
述介绍了垂直搜索与通用搜索的关系。]
算法改进
这些改进着重于提高潜在的搜索算法以提高搜索结果的相关性并提供新的搜索能力。
7. 参数搜索
这类搜索更接近于数据库查询,而不象文本搜索。它回答的问题从本质上不同。参数
搜索有助于发现问题解决方案,而不是文本文档。比如,Shopping.com允许你用材料
、品牌、风格或价格不同来限定衣服搜索;像indeed 这样的招聘搜索网站让你限定
搜索匹配的邮政编码;GlobalSpec让你搜索工程部件时指定多种参数(如搜索工业管
道时输入各种参数)。参数搜索是垂直搜索引擎的天然特性。
Google已在通用层面上组合了这一特性,比如在高级搜索页面上的参数,但是冲淡了
它的有用性。当你深入进标准的搜索结果,或当你限定搜索某一特定垂直领域时,附
加参数的强大功能最能充分体现出来。
8. 社会化信息输入
Yahoo! 的Bradley Horowitz相信社会化输入未来将是搜索技术一个重要的分水岭(
微软也有同样看法)。来自大量用户的聚集信息输入使搜索引擎受益于群众的智慧而
提供优质的搜索结果。当然,如果某些个别的输入缺乏独立性或可能是故意捣乱,搜
索结果可能会无效。 在这一领域中提供的不同的服务中,del.icio.us 是根据这一
方法提供优质搜索能力的典范。[在我较早发布的文章中,作了一个基于“外包给群
众(crowd-sourcing)”的不同解决方案的可搜索性能的对比。] 其他基于用户评价
的系统包括StumbleUpon, Squidoo, About.com,当然也有Wikipedia。尽管严格来说
,它们不是搜索引擎,它们都可以归结于可搜索性的总体框架之内。
当然,Google那功勋卓著的网页排名(PageRank)算法也隐含地根据社会化输入。由
于网页排名(PageRank)的一个重要组成部分是基于不同网站的外部链接的数量和特
点,那些外部链接担当了收集群体智慧的隐含投票。
[ 本帖最后由 jackyang 于 2007-5-18 19:25 编辑 ] |