第三百七十章 M語言和最先被幹掉的職業(2/2)
「大家這段時間唯一的工作,就是把M語言以及M框架和配套的這一系列包,學會怎麼用。
然後結合我們的工作,看有哪些地方可以利用M語言來進行重寫的。」
其中最先被利用到的就是AI鑒黃。
AI鑒黃一直都是內容安全的核心訴求,基本上從豬廠、鵝廠到微博、字節,全部都在研究這玩意。
屬於經典的入門容易精通難。
早期的鑒黃基本上是人工審核,屬於勞動密集型工種。
後來上網人數多了,內容也多了,人工審核成本越來越高,因此採用AI+人工的方式鑒黃就成為了主流。
AI+人工的方式一般是先通過機器過濾出大部分一定正常和一定有問題的圖像,剩下的再交給人工進行審核,這樣可以大幅度降低人力成本,而且機器識別效果越好,人工審核成本越低。
AI鑒黃其實是比較寬泛的概念,可以是通過規則系統來實現,比如基於MD5、基於用戶的IP等信息設置黑名單庫,直接基於規則進行攔截。
大部分還是會採用算法模型,也就是用算法模型判斷一張圖像中是否包含sq信息,本質上就是圖像識別。
圖像識別目前在部分任務上的效果甚至超越了人類。
圖像識別中最常見的就是圖像分類算法,從Alex到VGG,從Res。
目前的圖像分類算法可以較為準確地區分Image的1000類數據,鑒黃本身也是對輸入圖像做分類,因此採用圖像分類算法就是順其自然的事。
而且目標檢測算法可以用來檢測sq圖像中的露點部位,也是比較可靠的手段。
此外,還有基於業務層面構造的特徵和邏輯,比如是否有人、皮膚的面積等,用來輔助判斷,在一些情況下確實是有效的。
AI鑒黃的難點主要在於不露點的軟sq,特徵小的sq、非通用sq以及卡通動漫sq等等。
這是圖片ai鑒黃的難點,視頻和音頻鑒黃的難點就更多了。
而且對於這幫網際網路大廠來說,即便能夠做到百分之九十九的攔截率,剩下百分之一的內容都不得了。
以微博為例,每天產生的數據都是以T為單位。
即便是幾十個T,百分之一的攔截失誤率,都足夠把來總整的夠嗆。
而且更重要的是華國的內容審核行業,不僅僅局限於鑒黃,OCR審查這幫網際網路大廠更是很早就在做了。
點到為止。
同樣的道理,百分之九十九的攔截率,對他們來說都是無法接接受的。
所以一直到了2031年,依然是AI加人工的鑒黃方式。
只是說2021年的時候像微博這個體量的,可能需要上千名鑒黃師,到了2031年只需要上百名。
四位數變三位數。
至於微信,你在微信發的每份圖片視頻都會OCR一遍,然後丟到後端的審查接口。
通過權重算法來判斷你是否有違規行為,觸發特定規則之後,會決定你傾向的權重,權重超過閾值之後你會被重點關注。
將會有人工來對你進行審核。
當然這種審核不僅僅是國內的大廠,fb、ins、youtube、Google和推特都有大量的人工審核團隊。
他們的審核團隊放在菲律賓。
在2018年的時候,關於這件事,PBS放過一個紀錄片。
對於國內外的網際網路巨頭們來說,他們在文字識別上能夠做到接近百分之百,但是在圖像分類測試中,只能做到98%左右。
而且對算力有非常高的要求,壓根用不到實際的生產環境裡。
這是Image每年的圖像分類測試競賽結果,實際運營中的圖像視頻識別比Image競賽可要難得多。
而鄭理公開的AI算法後,利用M語言寫出來的模型。
從部署到使用突破了這幫網際網路公司的認知,一個能夠對內容實現99.9的識別成功率的AI模型,需要花的算力和之前差不多。
也就是說之前網際網路大廠們幾百人的AI鑒黃規模,現在再度被壓縮了百分之九十。
AI鑒黃只是M語言最先落地的應用。
它代表的AI技術,在算力優勢以及算法本身的落地難度都大幅度提升。
它允許輕鬆構建大部分原本複雜的架構,能夠廣泛的應用在工業領域。
大量易於組合的模塊化部件,編寫自己的圖層類型、計算圖抽象、數據和模型並行、動態類型的穩定性等等都完美適配。
在算法工程師們使用之後,Github上M語言相關的項目成為社區熱門。
國外的程式設計師社區里,活躍的大牛都在吐槽,一些很少發言的大牛也冒泡了:
「梅林的技術遠超我們的想像,如果M語言是他自己開發的,那他在AI領域的造詣要超過我們所有人。
真的很難見到一款沒有任何缺陷的AI程式語言。
像Caffe能夠把Matlab的快速卷積網絡實現移植到C和C++,適用於前饋網絡和圖像處理,不需要任何代碼就可以訓練模型。
但是caffe不能使用於循環網絡,同時擴展性極差。
谷歌推出的TensorFlow框架能夠生成計算圖之後執行自動微分,不需要在嘗試新的神經網絡排列的時候,手動去進行編碼。
但是它運行速度很慢,同時在大型的軟體項目里非常容易報錯。
基本上這些年各大網際網路巨頭們推出的AI框架,或多或少都會存在問題。
當然這是無法避免的,沒有什麼東西能夠完美。
就像Java使用的人再多,活躍的時間再長,也是能夠找到缺點的。
但是M語言在人工智慧領域,就好像沒有缺點一樣。
好像經過了無數次的測試和優化,達到了一種圓滿。
這讓我嚴重懷疑,梅林掌握的人工智慧是強人工智慧。
他能夠實現幾乎藍星人對於人工智慧的所有幻想。
包括自我編程。
一段代碼能夠編譯另一段代碼,好像也不是那麼稀奇。
畢竟現在的人工智慧模型已經可以自己進行簡單的編程了。」