首頁 > 現代都市 > 重生之乘風而起 > 第二千六百一十七章 統一碼大會

第二千六百一十七章 統一碼大會(2/2)

目錄

「以《聯合國憲章》為例,中文版的《聯合國憲章》有26650個字符,而英文版則需要55600個字符,在排版統一的情況下,中文文件的厚度一般只有英文等字母形語言的一半。」

「因此作為書面文字,漢字是這個星球上最高效,信息密度最高的文字。」

「究其根本原因,是因為字母形文字是『一維』的,只代表了聲音,而漢字是二維的,不僅僅代表聲音,還封裝了海量的信息。」

「這種信息還可以自由組合,用極簡的方式完成派生詞的產生。」

「比如國際化這個詞,用英文表述需要二十個字符,用中文只需要三個字符,換成信息技術的表述,英文需要二十比特,而中文只需要六比特。」

「根據香農信息熵的研究,字符的信息熵為4比特,而漢字的信息熵為9.65比特,也就是說,在以計算機技術為主的信息世界裡,中文可以比其餘文字,以更小容量的信息載體,更快的速度,記錄和傳播更大的信息量。」

「比如中文的舅舅一詞,只有四個比特,而要用英文來準確瞄準,則需要以『媽媽的哥哥』來表示,中文詞彙在這裡還包含了血緣,輩分,性別三個維度的信息量,這是聲音記錄類字符型文字所無法表達的。」

「除了記錄的效率,還有讀取的效率。」麥小苗在台上侃侃而談:「中國有個成語叫做『一目十行』,意思就是中文信息的讀取可以是面積式的,圖形化的。」

「四葉草實驗室做過一個有趣的實驗,那就是將固定中文詞彙的排列順序予以打亂,然後製作出文本交給讀者閱讀,讀者們可以驚奇地發現,混亂的詞彙語序搭配正確的中文語法,並不會對閱讀理解造成任何影響。」

「也就是說,『實驗』和『驗實』在文章里的作用是一樣的,錯誤的排序會被中文使用者在下意識層面完成自動糾正。」

「人類的大腦在閱讀時主要涉及兩條通路,一條叫背側通路,主要進行語音識別,一條叫腹側通路,主要進行視覺處理和語意連接。」

「大家在閱讀字符型文字的時候,需要先將文字轉化為語音,然後通過背側通路接收;而在閱讀表意型文字的時候,則是兩條通路同時進行,所以才能夠達到『一目十行』的效果,信息的提取效率也得到了極大的提高。」

「作為識別工具,漢語的『六書』法,又提供了強大的功能,瀚文大字庫的所有表意文字,拆分開來,都是『字根』,而這些字根裡邊,也涵蓋了巨大的信息量。」

「比如鳥字旁的字,可以圈定一個大概的理解範圍,大家可以發現漢字里這類文字,大多和鳥,飛翔這類特性相關,而字符型文字很難做到這一點。」

「對此有人會產生一種直覺,認為漢字的高效,與漢字特別多有關。」麥小苗微笑道:「然而這是一種錯覺。英文總詞彙量超過一百萬,而且目前還在以每年四千到八千的數量增長。而中文常用字大約3500個,基本上只需要掌握這三千五百字,就能夠自由組合,並且完成中文世界裡百分之九十以上信息量的交互,這也是瀚文基準字庫的範圍。」

「這一點重要不重要呢?我只舉一點重要性,那就是中國人基本無需重構專業語言,學習另一套專業詞彙,就可以自由地進行跨專業的學習。」(本章完)

目錄
返回頂部