第158章 我們究竟在談些什麼(2/2)
而且,百度和谷歌除了搜索大數據的歷史記錄足夠龐大、完爆其他搜索服務提供商之外,他們還有一個獨門之秘,在2009年只有他們兩家形成了規模。
那就是「百度知道」,以及比百度知道遜色一些的「谷歌問答」。
「知道」,是一個比搜索更加貼近人類語言習慣的問答產品。在搜索的時候,人只會打幾個關鍵詞,很少會直接長篇大論寫一句話,寫一個用人類正常語法表述的問題。
而用百度知道的時候,因為背後是人類在回答,所以大家都遵循了人類語言的語法。
一個新買手機的用戶,和初秘或者siri聊天的時候,問到的問題,真的是絕無僅有、從來沒有前人問過的麼?
恐怕不盡然。
十幾億人心中的困惑,有相當大一部分是重合的。同一個問題,可能全國有幾百萬人想問。
有了百度知道的雲端大數據之後,初秘或者siri再聽到手機主人的語音發問時,就可以先搜一搜這個雲端數據,看看有沒有近似的或者重複的前人提問。
如果有,直接把前人提問中的「被採納答案」推送過來、語音閱讀一遍就行了。
在「知道」這個產品上,谷歌其實走得比百度慢。谷歌的強項,是「谷歌學術」那種專業標準化的問答,而缺少家長里短的日常人工智慧鍛鍊。
在人工智慧領域,如果非要對比谷歌和百度的優劣勢,只能說:谷歌可以訓練出更精密的機器,但是不如百度那樣容易給機器學會『七情六慾』。
因為早年的谷歌,壓根就沒想到去鍛鍊其人工智慧的這個方面。
當然,說句良心話,百度也沒想到。
「百度知道」日後教會了「度秘」比siri更能插科打諢,也只是百度發展時一招無心插柳的歪打正著。
……
正因為顧莫傑懂行,因為他自己就懂深度學習算法,所以,他比別人更能領會嚴磊開出的條件誘惑力。
初音集團,在搜索上是弱項。
但是初音集團,在人工智慧的算法領域,是強項。
一個企業人工智慧產品的強弱,受制於兩個因素。
一個是算法的好壞,一個是大數據的規模。
比如,谷歌的算法效率假設是10%,而谷歌的日搜索處理量是10億條,所以谷歌的人工智慧每天理論消化的問答是1億條。
如果初音的算法效率更好,有20%,但初音每天的搜索處理量只有1億條,那麼初音人工智慧每天理論消化的問答只有2000萬,比谷歌弱了五倍。
有好算法,有好的「數據消化效率」,卻沒有足夠的「數據飼料」去餵養這副「消化功能」極強的「胃口」。
這一直是初音人工智慧研究院的缺憾,短板。
但是,如果按照嚴磊的說法,把谷歌中國過去五年,在中國市場上搜集到的伺服器端歷史記錄數據統統copy過來,「填鴨式」地塞給「初秘」去學習,那麼初秘在「真正聽懂中國人講話」這個問題上,起碼可以贏得相當於額外獲得兩三年時間鍛鍊的效果。
歷史上siri公司成立於2007年,10年被蘋果收購後,在4s上放出了這個人工智慧產品。
但是用過iphone4s的用戶,恐怕都有一種記憶:
剛開始,4s上的siri智能程度真的很低,幾乎聽不懂什麼話。還是只能和舊時代的「語音撥號助手」那樣,幫主人翻翻通訊錄、撥打一下電話為主。
至於讓siri真的近似於人一樣和主人聊天,似乎是2012~2013年的事情了,那時候的siri才漸漸說話像人話。
那就是因為,siri花了兩三年時間來「學習」、來積累和消化雲端大數據,漸漸統計出人類語言習慣。
如果谷歌中國不倒下,谷歌在華的那多年數據記錄,肯定是作為商業秘密不會公開的。因為那涉及到其對中國人上網習慣的統計。如果公開了,很有可能被對手拿去,作為優化對手引擎算法的參照物。
但是,如果谷歌中國倒下了,這些數據再遮遮掩掩藏著,似乎就沒什麼意義了。
只要顧莫傑出一筆看上去挺誠意的價碼,谷歌總部相信就會把這筆數據財富賣給初音。
顧莫傑意淫著美好前景,簡直要獸血沸騰。
恨不得現在就在老朋友拉利佩奇脊梁骨上捅一刀,然後把谷歌中國的數據資源巧取豪奪走。
「磊哥,來,好好說說你數據到手之後的詳細使用計劃。我都有點迫不及待了……」
「當然沒問題,就是如此如此,這般這般……」
嚴磊一副指點江山狀,對顧莫傑講解了一個鐘頭的技術路線梗概。
「只要做到了這些,然後,我們的初秘肯定可以在『人話識別率』上領先siri至少兩年。」