首頁 > 現代都市 > 重生之網際網路霸主 > 0201.大數據時代的前瞻

0201.大數據時代的前瞻(2/2)

目錄

Kaltix三人組聞言笑了笑,紛紛向寧子默示意繼續。於是再端起咖啡杯的寧子默就像打開話匣子一樣,拿著帶路奇去見過的理察·賓先生扯起了大旗。

「去年我在迷茫的時候,有幸認識了以為叫做理察·賓的老人。那是以為傳奇老者,在他過往的歲月里。他從一個普通的啤酒花商人,轉而師從理察·施特勞斯學習音樂,最後又在戰後轉攻醫學心臟病領域。

……理察·賓先生的的故事幾乎跨越一整個世紀的所有年份。我徵得他的同意後,想要在他的祖國德國開始創立我們的產品,並用他的名字為我們的搜尋引擎命名。我想在他有生之年能作出一些成績,讓他看到我沒有埋沒他對我們的這份信任。」

寧子默向Kaltix三人組添油加醋的將理察·賓先生的故事講了一番,一些偷梁換柱的東西也被他悄然加了進去。

這兩年時間的歷練,寧子默也逐漸學會如何去講故事。只要不違背原則的情況下,為那些加入團隊的未來拍檔們去講理想、講未來、講情懷幾乎是必不可少的部分。

畫餅聽起來很虛無,但它在某些時刻卻有著大用處。如果這個方法可以吸納到高端人才,寧子默並不介意腹黑一些。

而且這條拐帶大拿的路,寧子默決定一直走到黑了!

「哇,酷~~~~~」

Kaltix三人組在寧子默鋪開那位傳奇老者的故事時,就聽得很入神。

無論是他推崇自己的啤酒花,

還是和老師理察·施特勞斯的不和,

還有最後他在心臟病領域的各種突破,

這些故事都讓Kaltix三人組眼中閃耀著一種叫做崇拜的東西。

頓了頓,寧子默才補充道,「這款搜尋引擎叫做Bing,如今它已經被開發完成,並使用爬蟲對網絡信息進行爬取。但是目前,我們的【Bing】團隊在搜索算法上碰到了問題。以至於我在搜尋引擎的大數據劃時代計劃,碰到了阻礙。」

「而這些阻礙,」將手指從自己轉向Kaltix三人,寧子默鄭重道,「就是我托霍夫曼找到你們這些搜索專家的主要原因。」

「大數據劃時代計劃?」賽普疑惑地沉吟著,末了他抬起頭向寧子默問到,「聽起來是一個很龐大的工程。」

「是的,是一個很龐大的工程。因為目前對於不了解搜索價值的人而言,搜尋引擎只是給人們帶來結果的窗口。但真正去討論搜尋引擎的價值,最能體現他價值的地方一定是大數據劃時代的搜尋引擎時代。

想一想,曾經我們在進行數據分析與統計時僅僅局限於資料庫,在資料庫中對數據表進行統計分析。並且受數據量和計算能力的限制,我們只能對最重要的數據進行統計和分析。

搜尋引擎跳出了這個限制,它可以成為存儲著全世界幾乎所有可訪問的網頁,數目可能超過萬億規模,全部存儲起來大約需要數萬塊磁碟的大型資料庫。

雖然這件事看起來峰語已經在做了,但峰語對於未來的規劃,並沒有我想像中那麼清晰。

因為再往下發展下去,我想讓Bing可以把科技、文化、知識、資訊、新聞對應的文字、圖片、視頻等林林總總的東西進行統一存儲管理,形成整個人類的大型資料庫。

它記錄人類文明過往的所有資料,為向未來的發展提供各種各樣的支撐條件。把它打造成為人類的諾亞方舟那樣,去造福全人類。

我可以簡單舉幾個階段性的例子,例如大數據的某一個先期階段-大數據應用的數據倉庫時代。

而Bing可以跳出資料庫的概念去進行SQL操作,實現數據統計與分析。也就是說,人們將在Bing上用更低廉的價格獲得比以往多得多的數據存儲與計算能力。

我們可以把運行日誌、應用採集數據、資料庫數據放到一起進行計算分析,獲得以前無法得到的數據結果,而企業的數據倉庫也隨之呈指數級膨脹。

你們想想,在數據倉庫時代只要有數據幾乎就一定要進行統計分析。如果數據規模比較大,我們就會想到要用大數據技術。而技術的發展同時又促進了技術應用,這也為接下來大數據應用走進數據挖掘時代埋下伏筆。

而在大數據應用的數據挖掘時代必定凌駕於大數據應用的數據倉庫時代基礎之上。舉個例子,很早以前商家就通過數據發現,買尿不濕的人通常也會買啤酒,於是精明的商家就把這兩樣商品放在一起,以促進銷售。

啤酒和尿不濕的關係,你們可以有各種解讀,但是如果不是通過數據挖掘,可能打破腦袋也想不出它們之間會有關係。

在商業環境中,如何解讀這種關係並不重要,重要的是它們之間只要存在關聯,就可以進行關聯分析,最終目的是讓用戶儘可能看到想購買的商品。

除了商品和商品有關係,還可以利用人和人之間的關係推薦商品。如果兩個人購買的商品有很多都是類似甚至相同的,不管這兩個人天南海北相隔多遠,他們一定有某種關係。

比如可能有差不多的教育背景、經濟收入、興趣愛好。根據這種關係,可以進行關聯推薦,讓他們看到自己感興趣的商品。

除了商品銷售,數據挖掘還可以用於人際關係挖掘。六度分隔理論認為世界上兩個互不認識的人,只需要很少的中間人就能把他們聯繫起來。這個理論在米國的實驗結果是,通過六步就能聯繫上兩個不認識的米國人。

未來像我們的【領贏】甚至【MySpace】,各種各樣的社交軟體記錄著我們的好友關係,通過關係圖譜挖掘,幾乎可以把世界上所有的人際關係網都描繪出來。

現代生活幾乎離不開網際網路,各種各樣的應用無時不刻不在收集數據,這些數據在後台的大數據集群中一刻不停地在被進行各種分析與挖掘。

當然我們也可以舉個高大上的例子,來說說理察·賓這位傳奇相關的行業-醫療。

例如人類目前難以攻克的白血病和紅斑狼瘡,我們可以通過對病人的生活習慣、生長環境、DNA、病情發展等信息的收集,將數據採集聚集在一起,把小特殊病理變成可供參考的大數據。

而後透過不斷的數據挖掘,去分析這些病例的因由。那麼科研人員對於這些不治之症,將擁有更多可參考性的依據,把原本很小的可能變成大概率可以突破的可能。

或許是讓患有這些病情的人有了被治癒的可能,或許是讓基因里包含潛在基因缺陷的胚胎在孕育的過程中避免來到人世後的痛苦。

這些分析和挖掘帶給我們的是美好還是恐懼,完全要依賴大數據從業人員的努力。但是可以肯定不管最後結果如何,這個進程只會加速不會停止,而你我只能投入其中。

但無論如何這件事值得去做,甚至為了提高效率,我們可以將一些繁瑣規律的工作交給人工智慧去做,這又會讓大數據時代發展到大數據應用的機器學習時代。

像剛剛的例子裡,數據中蘊藏著規律,這個規律是所有數據都遵循的。過去發生的事情遵循這個規律,將來要發生的事情也遵循這個規律。一旦找到了這個規律,對於正在發生的事情,就可以按照這個規律進行預測。

在過去,我們受數據採集、存儲、計算能力的限制,只能通過抽樣的方式獲取小部分數據,無法得到完整的、全局的、細節的規律。而未來有了大數據,就可以把全部的歷史數據都收集起來,統計其規律,進而預測正在發生的事情。

這就是機器學習。

例如,我再舉個例子,把歷史上人類圍棋對弈的棋譜數據都存儲起來,針對每一種盤面記錄何種落子可以得到更高的贏面。得到這個統計規律以後,就可以利用這個規律和人下棋。

每一步都計算落在何處將得到更大的贏面,於是我們就得到了一個會下棋的機器人,說不定哪一天這個機器人就會以幾年的時間學習上千年的棋局後,通過共性和局部戰略的學習,通過分析人類落子的意圖分析以壓倒性優勢下贏了人類的頂尖棋手。」

也不管身邊目瞪狗呆的四人,寧子默喝了口咖啡潤了潤喉嚨,借著繼續說到:

「在我講完剛剛這些事例的時候,相信你們對於我腦中的搜尋引擎已經有了一個更遠期的看法。沒錯,它很龐大,它不止是一個可以向人們提供搜索結果的窗口,而是一個大數據時代的窗口。

Bing要做的事情就是要把人類文明從誕生到發展至今說保留的所有信息都進行存儲,讓它成為一個龐大的資料庫,讓它為各行各業的人們提供可供查證的大量數據,讓人類在行進的過程中少犯錯誤、少點痛苦。

但亦或許,那也只是我的痴心妄想。因為人性的貪婪,會讓我們及時擁有這麼先進的科技,仍舊避免不了那麼多問題的存在。

但科技並沒有錯,完全要看我們應用的方法,以及我們這些從業者是否能擁有一把衡量公正的尺子。

我做不了那麼多去衡量公正的事情,但我的有生之年,只想讓科技更進一步,讓我身邊的團隊為了人類文明去出一份力。

至於未來那個大時代到來後會成為什麼樣,我相信就算我老了,也依舊有無數有識之士能作出比我還傑出的事情。

讓人類在前行的路上,依舊走著一條正確的路。」

目錄
返回頂部