第一千零八十九章 求助(2/2)
「你別聽肘子胡說。」「看螞蟻」是喬老爺的社死故事,在心上人這裡那是能瞞多久瞞多久,趕緊打岔:「你們的報告什麼時候開始做?」
周至在大字庫研發小組裡的地位有些特殊,有點類似「獨董」,地位介於領導者和工作者之間,如果從智慧財產權占比這邊來論的話,和微軟,UNICODE組織一樣,用「合作者」來定義比較合適。
因此給部里匯報的事情,他也不是特別清楚:「不知道,我最多就是個旁聽。等麥主任和李教授來京了會和我聯繫。」
「你們的二期字庫什麼時候出來?」王老爺子很關心這事兒:「還有典籍數位化的工作準備什麼時候開始?」
「現在大家的意見有分歧。」周至其實也很無奈,在瀚文大字庫這個概念推出以前,好像大家根本都不急,現在研究方向打通了,一期研發和轉化其實還是一個可行性驗證的過程,實際證明這條路是完全可以走通的。
雖然一期字庫已經非常好用,基本可以滿足各地企事業機構,政府機關的需要,然而報社出版社圖書館檔案館這些地方,依舊不滿意。
以前那是壓根沒指望過,所以大家都覺得「日子還能將就過」,現在發現日子原來可以變好,而且夠一夠的話,還能更好……
於是壓力就給到了開發組。
「什麼意見分歧?」
「主要是大家和我的分歧。」周至攤開手:「我的意思是磨刀不誤砍柴工,等到第三期字庫推出以後,漢字轉碼入庫十萬以上,自定義漢字申報入庫工作流程和相關規定,軟體都弄好,再進行數位化圖書館項目不晚。」
「那你覺得三期字庫的推出還有多久?」啟老爺子追問道。
「其實現在阻礙並不在技術上,一期的開發工作涵蓋了全部取字、編碼、入庫工作流程,我們開發了很多的工具軟體來提高效率,形成了自動掃描識別技術,自動檢字分類技術,自動轉矢量技術等一系列基於大字庫基礎上的專利技術大包。」
「現在的問題反而在采字上,二期字庫最少必須要突破六萬六千字,用完一個平面,才能為三期字庫的驗證工作做完前瞻性研究。」
在場所有人都面面相覷,完全聽不懂。
不過老一代學問人最大的優點就是不懂就問:「為什麼要突破六萬六千字呢?」
「是這樣的,UNICODE的編碼規則,就是給各種字碼編出些『平面』,這些平面,大家可以理解成印刷廠放鉛碼的鉛碼盤。」
「不過UNICODE這個盤子就比印刷廠的大多了,一個平面就有65536個碼位,理論上可以存放六萬五千多個漢字。」
「在一個平面上編碼存碼的工作,我們在一期就已經完成了,現在要驗證轉化的,是跨平面編碼解碼的技術。因為三期字庫投產後,瀚文大字庫是鐵定跨平面的,因此我們想在二期就突破過去,提前完成可行性方案驗證和相關的技術儲備。」
「現在《康熙字典》也就四萬多字,第一版的《漢語大字典》也才五萬六千多字,都達不到打破UNICODE一個平面的要求。」
「所以此次來京,還要拜會兩位叔伯老師兄,尋求他們的幫助。」
「誰?」啟老笑道:「說不定我們也能夠幫得上忙。」