首頁 > 現代都市 > 重生之乘風而起 > 第二千六百一十七章統一碼大會

第二千六百一十七章統一碼大會（2/2）

「以《聯合國憲章》為例，中文版的《聯合國憲章》有26650個字符，而英文版則需要55600個字符，在排版統一的情況下，中文文件的厚度一般只有英文等字母形語言的一半。」

「因此作為書面文字，漢字是這個星球上最高效，信息密度最高的文字。」

「究其根本原因，是因為字母形文字是『一維』的，只代表了聲音，而漢字是二維的，不僅僅代表聲音，還封裝了海量的信息。」

「這種信息還可以自由組合，用極簡的方式完成派生詞的產生。」

「比如國際化這個詞，用英文表述需要二十個字符，用中文只需要三個字符，換成信息技術的表述，英文需要二十比特，而中文只需要六比特。」

「根據香農信息熵的研究，字符的信息熵為4比特，而漢字的信息熵為9.65比特，也就是說，在以計算機技術為主的信息世界裡，中文可以比其餘文字，以更小容量的信息載體，更快的速度，記錄和傳播更大的信息量。」

「比如中文的舅舅一詞，只有四個比特，而要用英文來準確瞄準，則需要以『媽媽的哥哥』來表示，中文詞彙在這裡還包含了血緣，輩分，性別三個維度的信息量，這是聲音記錄類字符型文字所無法表達的。」

「除了記錄的效率，還有讀取的效率。」麥小苗在台上侃侃而談：「中國有個成語叫做『一目十行』，意思就是中文信息的讀取可以是面積式的，圖形化的。」

「四葉草實驗室做過一個有趣的實驗，那就是將固定中文詞彙的排列順序予以打亂，然後製作出文本交給讀者閱讀，讀者們可以驚奇地發現，混亂的詞彙語序搭配正確的中文語法，並不會對閱讀理解造成任何影響。」

「也就是說，『實驗』和『驗實』在文章里的作用是一樣的，錯誤的排序會被中文使用者在下意識層面完成自動糾正。」

「人類的大腦在閱讀時主要涉及兩條通路，一條叫背側通路，主要進行語音識別，一條叫腹側通路，主要進行視覺處理和語意連接。」

「大家在閱讀字符型文字的時候，需要先將文字轉化為語音，然後通過背側通路接收；而在閱讀表意型文字的時候，則是兩條通路同時進行，所以才能夠達到『一目十行』的效果，信息的提取效率也得到了極大的提高。」

「作為識別工具，漢語的『六書』法，又提供了強大的功能，瀚文大字庫的所有表意文字，拆分開來，都是『字根』，而這些字根裡邊，也涵蓋了巨大的信息量。」

「比如鳥字旁的字，可以圈定一個大概的理解範圍，大家可以發現漢字里這類文字，大多和鳥，飛翔這類特性相關，而字符型文字很難做到這一點。」

「對此有人會產生一種直覺，認為漢字的高效，與漢字特別多有關。」麥小苗微笑道：「然而這是一種錯覺。英文總詞彙量超過一百萬，而且目前還在以每年四千到八千的數量增長。而中文常用字大約3500個，基本上只需要掌握這三千五百字，就能夠自由組合，並且完成中文世界裡百分之九十以上信息量的交互，這也是瀚文基準字庫的範圍。」

「這一點重要不重要呢？我只舉一點重要性，那就是中國人基本無需重構專業語言，學習另一套專業詞彙，就可以自由地進行跨專業的學習。」(本章完)

章節報錯(免登入)

第二千六百一十七章 統一碼大會（2/2）

第二千六百一十七章統一碼大會（2/2）