首頁 > 現代都市 > 傳奇1997 > 第四十六章 搜尋引擎的研發

第四十六章 搜尋引擎的研發(2/2)

目錄

從開發量上,技術難度是遠遠大於目錄式檢索技術的。

首先說網絡爬蟲,也稱網絡蜘蛛(Web Spider),這項技術是基於Web的自動化瀏覽程序,通過網頁連結(URL),爬蟲不斷的通過網際網路中獲得新的網頁數據,下載頁面數據形成後台資料庫。

可以說,網絡爬蟲抓取數據是搜尋引擎工作流程的第一步。

爬蟲的體系架構直接關係到搜尋引擎每天數據的採集量,而抓取策略則關係到搜索結果的數據質量,數據的更新策略則關係到系統資源的利用率。

這只是第一步,採集了大量數據信息之後,還需要通過自然語言處理(NLP),將文本信息分解為結構化數據和價值性數據。

這裡面就又存在一個問題,目前國外的搜尋引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。

所以,在中文分詞這一部分,就需要技術團隊單獨進行開發。

通過建立詞庫、採用條件隨機概率分布模型、詞性標註、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關鍵詞中文的語義,才能提高搜索的準確性和查全率。

這還只是其中比較小的開發困難。

比如,搜尋引擎的核心就是通過海量數據抓取後的快速檢索,而抓取的數據越多,當龐大的數據存儲在資料庫里,就需要構建快速存取數據的分布式存儲架構。

再比如,為了讓用戶在最短的時間內獲得想要的搜索結果,就需要後台系統不斷的執行數據抓取和建立索引等操作。

這就需要建立分布式實時計算系統,以及對索引結構的構建……

王川估計也是最近開發中有些鬱悶了,一說起來就滔滔不絕。

隋波雖然不太懂他說的一些技術術語,但畢竟前世作為用戶也使用了20多年的搜尋引擎,接觸的多了,也了解一些基本的知識。

他安靜的聽著王川不斷的講述團隊面臨的一個個困難,又是怎麼想辦法克服的。

不時提問兩句,顯得聽的很認真。

腦子裡卻不斷的在回憶,當初Google和百度是有哪些創新的舉措,才一舉成功的?

印象最深的,就是那句「百度更懂中文」,這應該就是剛才王川所提的中文分詞了,這塊王川已經考慮到了。

至於是不是更進一步,先弄個智能輸入法出來?……

現在團隊的研發壓力已經很大了,暫時先略過不提。

還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……

還有就是Google獨創的PageRank技術。

這是一種根據網頁之間的連結結構來評價判斷網頁重要性的排序算法。

想到這裡,隋波就提了一下,是否在搜索結果的排序算法上,可以採用這種模式?

從網頁的連結數量、權威性、主題相關性、網頁內容的匹配性等多個方面,綜合分析,進行搜索結果的排序。

王川聽了以後若有所思:「這個算法我回去研究一下,應該沒問題。」

隋波笑道:「技術上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和後勤上為團隊鼓勁!

你回去和大家說一下,搜尋引擎項目的團隊項目獎金定在10萬,而且根據每個人的表現,到時候還有個人獎勵。

我已經讓清泉給你們做好後勤,每天會定時讓樓下餐廳送飯菜過來。

另外給你們弄一個休息間,裡面準備好啤酒、咖啡、飲料和小吃,保證供應。

嗯……,再讓她給你們辦公室里配一個沙發,大家累了可以躺下休息一會。

王川,這個項目將會是公司除了電商平台,最核心的業務,還要你多辛苦了!」

王川點頭,一臉的倔強:「波總,你放心,我有信心把這個搜尋引擎搞出來!實際上每當解決一個技術難題,大家的那種快樂都是無法言表的,公司又給我這麼大的支持力度,我一定全力以赴!」

隋波拍拍他的肩膀:「我相信你,你也別著急,和團隊成員要勞逸結合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!」

目錄
返回頂部