星期二, 十二月 12, 2006

老东升:网页排名后面的数学

Slashdot美国数学会发表专栏文章,介绍Google对网页排名(PageRank)的计算。大家知道, 网页排名是一种由搜索引擎根据网页之间相互的超链接计算的网页排名。它经常和搜索引擎优化有关。 PageRank系统被Google用来体现网页的相关性和重要性。Google的创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)1998年在斯坦福大学发明了这项技术。PageRank通过网络浩瀚的超链接来往来确定一个页面的等级。 Google把从A页面到B页面的链接解释为A页面给B页面投票 Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级,简单的说,一个高等级的页面可以使其他低等级页面的 等级提升。

举一个例子,大家知道英文中page是“页”的意思,大家也知道 “Larry”是一个非常通用的英文名字。如果有人搜寻Google创始人拉里·佩奇“Larry Page”,那么会出现太多的网页包含这两个字。Google的计算可以使得有关它的创始人拉里·佩奇的网页排在前面。

我曾经去听过一个Google工程师Mehran Sahami的讲座,真的是好复杂的数学。用到的数学很广,比如非常奇异的矩阵的算法,他们所用的向量可能是上百万行。还有人工智能(artificial intelligence, AI),数据挖掘(data mining),等等。

在决定哪些网页应该排在前面的同时,Google还必须决定哪些排在后面,甚至从搜寻结果中除去。Google的工程师Matt Cutts写了一篇Google是如何处理被黑网站的 (中文翻译),讲的就是这方面的技术。

我在 Google收藏知多少一文中记录的Google收集的网页数最多到8,168,684,336页(2005年08月15日的记录),在美国数学会的这篇文章里,作者披露这个数字已经到了25,000,000,000页。

Google取胜的秘密在于它与众不同。对Google新开发的项目有兴趣的话应该去看看http://labs.google.com/,一定会有所收益。当然,Google也不能没有节制地开发新的服务。正如Google公司联合创始人塞吉·布林说的:“我们所担心的是,如果我们再这样不加节制地推出新产品,你会发现在能够使用它们之前,你将不得不先去搜索我们的产品。”(语录中国)。其实,人们平时使用Google,主要就是使用Google本身:

Google Search78.42%
Google Image Search9.20%
Gmail5.44%
Google Video1.53%
Google News1.29%

也就是说,95.88的服务要求是在这五项服务里。把主要工作做好也许应该是Google的首选。

[打印]


罢了 评论于:2006-12-10 12:07:16

谢谢老东升的这篇文章;一是学到不少,二是让我们看到“简单”的背后藏着多少知识和复杂的劳动。所以,我们可不能想当然呐!

看你提到那个多维矩阵,我不由在想,要是goole能用Gauss的对角消元法来简化我们的心灵矩阵,因此而减轻我们心灵和生活的负担,那该多好!



-----------------
编后随笔:

真是个有心人! 知识性很强的博客,值得收藏。

http://blog.wenxuecity.com/blogview.php?date=200612&postID=10965&page=1#mark

/

1 条评论:

匿名 说...

我是老东升. 偶然看到. 谢谢! 我现在主要在国内的网上写, 为了国内的朋友们能读到.