第73章 搜尋引擎(1/2)
第二天,蘇炎直接來到了教學樓,今天是他和陸淵亭約好的日子。
來到陸淵亭的辦公室,此刻裡面正有三名男子正在辦公室里和陸淵亭有說有笑。
看到蘇炎的到來,陸淵亭也是起身做了介紹,這三人是計算機院系那邊的負責人,這次過來主要就是看看蘇炎到底有什麼東西,敢誇下海口去和國外的搜尋引擎進行競爭。
蘇炎簡單的打了個招呼後,一行人便在陸淵亭的帶領下來到了一處會議室坐著,接下來就是蘇炎展示他搜尋引擎核心技術的時候了。
搜尋引擎這個東西,需要用到網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等,在零一年的這個時候,還用不上自然語言處理技術,大數據處理也更後世的概念不太一樣。
但是說白了,所有的搜尋引擎核心點其實就是一個東西,算法。
因為每一個東西都是圍繞著算法進行的。
「各位都是計算機方面的專家了,對於搜尋引擎可能都有自己的看法,所以在一會的講解中我希望可以按照我的節奏來,要是有異議的話可以提出來,我會進行詳細的解答。」
說完蘇炎便開始準備進入正題。
「在展示我的算法核心之前,我們先來看看當下的三大主流算法,百度的超鏈分析,谷歌的pagerank算法以及ibm的hits算法。
而在著三種算法里幾乎所有人都覺得百度的超鏈分析是三個算法中最落後的,但有些事情我們還是要多角度的看一看,百度的超鏈分析在某種程度上可以算得上是奠定了搜尋引擎的發展基礎。
通過抓去網頁信息,然後用算法機制對這些網頁進行排序當用戶輸入關鍵詞進行搜索時,根據關鍵詞匹配出按照機制進行排列的網頁。
當前三大主流算法,其實不管是哪一家的算法,算法基礎其實都是一樣的。都是按照上面的步驟來進行的。
甚至有一種說法,谷歌的算法其實是剽竊了百度的超鏈算法,對此我們不去做過多的研究。那麼同樣是搜尋引擎為什麼百度在國外市場競爭不過谷歌呢?
關鍵在於百度當前的過於簡單的基於在某次搜索的所有結果中被其他網頁用超連結指向的越多的網頁就價值越高這種基礎排序方式。
這種基礎排序方式導致有些正確的網頁反而被一些劣質網頁所覆蓋,最終劣幣驅逐良幣,使用戶很難找到自己需要的東西。
而谷歌的pagerank就多了兩件很重要的事情,第一件事情是,把a頁面到b頁面的連結解釋為a給b的投票行為,谷歌在這裡會同時考評a和b的等級從而形成新的等級。
也就是每一個頁面都有pr值,同時你的pr值會成為其他頁面pr值的參考。
然後不斷的重複計算每個頁面的pr。假設給每個頁面一個隨機pr值,那麼經過不斷的重複計算,這些頁面的pr值會趨向於穩定,也就是收斂的狀態。
這樣也就意味著用戶用谷歌的搜尋引擎可以比百度更為有效的獲取到自己所需要的信息。至於我說為什麼不將百度放在眼裡,完全是因為百度在前不久推出了競價業務。」
當說到百度的競價業務的時候,蘇炎明顯頓了頓。
而計院來的同志也是適時的捧哏道,「競價業務據我所知是百度新推出的盈利模式。」
本章未完,點選下一頁繼續閱讀。