唐能翻譯君按語:
2013年底我和搭檔魏勇鵬創(chuàng)辦公司的時(shí)候,他說了兩件事:一是,谷歌機(jī)器翻譯幾乎不再聘請語言學(xué)專家了,由懂得統(tǒng)計(jì)、計(jì)算的計(jì)算機(jī)專家主理開發(fā)。二是,谷歌有世界上豐富的多語言語料數(shù)據(jù),但對這種基于數(shù)據(jù)統(tǒng)計(jì)訓(xùn)練而成的翻譯引擎來說現(xiàn)狀有點(diǎn)尷尬,更多語料能帶來效果不再明顯了,盡管谷歌的語料、用戶量和使用量都在日益增多。
在我們運(yùn)營公司的兩年多時(shí)間里,遇到了很多客戶和投資人,他們問的一句話是:“你們機(jī)器翻譯能達(dá)到什么樣的準(zhǔn)確度?”這個(gè)問題意味深長,我一般只能回答說:“在某些垂直領(lǐng)域,我們比谷歌翻譯要好?!边@句帶有挑釁意味的話讓聽者將信將疑卻無從反駁,因?yàn)門a從未得到過無瑕的機(jī)器翻譯體驗(yàn)——像科幻影視文學(xué)、類似《星際迷航》里展現(xiàn)的,那邊阿凡達(dá)星語說出來,這邊火星人聽進(jìn)去,毫無停頓卡帶的痕跡。
行內(nèi)人用專業(yè)尺度評價(jià)機(jī)器翻譯的現(xiàn)實(shí)是這樣:美國商務(wù)部下屬的國家標(biāo)準(zhǔn)與技術(shù)研究所NIST舉辦的一項(xiàng)機(jī)器翻譯研究水平評測,采用BLEU(Bilingual Evaluation Understudy)標(biāo)準(zhǔn)。 其原理是比較機(jī)譯結(jié)果和人譯結(jié)果的相似度,完全一致得分為1(當(dāng)然不同的人的翻譯很難“完全一致”,所以得分1為理想值)。2008年NIST的英文-中文的機(jī)器翻譯評測結(jié)果,谷歌翻譯得分0.4142,微軟亞洲研究院提交的測評是0.4099,廈門大學(xué)得分0.2502;谷歌和微軟亞洲的中文-英文機(jī)翻得分分別是0.2999和0.2901,中科院自動化所的得分是0.2407。
2015年9月第十一屆全國機(jī)器翻譯研討會(CWMT 2015)上,中國超過10所科研所和大學(xué)參加了機(jī)器翻譯的評測。同樣以BLEU值為標(biāo)準(zhǔn),英漢新聞平均得分接近0.35,漢英新聞則接近0.25,日漢新聞質(zhì)量很好——高分超過0.5;英漢科技則普遍超過0.35,高分0.43。國內(nèi)語種的機(jī)翻效果更好,藏漢政府文獻(xiàn)的很高分0.61,維漢新聞的很高分0.54。
囿于測試所選文檔和評測方法,該數(shù)值結(jié)果和普通人閱讀體驗(yàn)有可能偏差很大。權(quán)當(dāng)參考:機(jī)器翻譯中有40%左右的結(jié)果,用戶可以較為容易理解使用。和阿凡達(dá)電影場景的效果,和此時(shí)此刻用戶/投資人對人工智能產(chǎn)業(yè)的期待相比,還是弱爆了。不過,2013年谷歌翻譯每天的用戶量超過2億人、翻譯10億次,每天翻譯的文字相當(dāng)于100萬冊圖書,超過全球?qū)I(yè)翻譯一年的工作量,他們用的就是BLEU值40%左右的機(jī)器翻譯。
“人工智能領(lǐng)域沒有取得任何進(jìn)展,”英國理論物理學(xué)家戴維·多伊奇在其著作《無窮的開始》里說:“因?yàn)樵谄浜诵睦镉幸粋€(gè)懸而未決的哲學(xué)問題:我們還不了解創(chuàng)造性如何運(yùn)作。一旦解決了這個(gè)問題,編程實(shí)現(xiàn)人工智能將不是難事。圖靈發(fā)明了圖靈測試,希望繞開這個(gè)哲學(xué)問題。換句話說,他希望在解釋這項(xiàng)功能之前就實(shí)現(xiàn)這項(xiàng)功能。不幸的是,類似這樣的情形極為罕見?!保▓D靈測試由計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)阿蘭·圖靈于1950年設(shè)計(jì):如果電腦能在5分鐘內(nèi)回答由人類測試者提出的一系列問題,且其超過30%的回答讓測試者誤認(rèn)為是人類所答,則電腦通過測試,它被認(rèn)為具有智能。)
“現(xiàn)在我們談的比較多的是人機(jī)鏈接,就是把大腦和計(jì)算機(jī)相連,用機(jī)器擴(kuò)展人類的思維能力。我覺得這一點(diǎn)利用目前的老式計(jì)算機(jī)是無法實(shí)現(xiàn)的,因?yàn)槿四X在我看來更接近于量子計(jì)算機(jī),我們?nèi)祟惻c電腦的區(qū)別在于,電腦你輸入什么,它輸出什么,先進(jìn)的例外是它死機(jī)了。而輸入相同的信息,人類的輸出是不可預(yù)知的,這就是人類的自由意志。我認(rèn)為人類的自由意志是以量子計(jì)算為基礎(chǔ),是一種模糊的計(jì)算而不是邏輯計(jì)算?!敝猩酱髮W(xué)天文與空間科學(xué)研究院院長李淼說。
按照中國人工智能泰斗、中科院院士張鈸教授的分析,人工制造的智能機(jī)器即使有了自主意識,也是機(jī)器的意識,比如“有一個(gè)機(jī)器人會做勺子,而且它像人一樣‘有意識’自主工作,這個(gè)機(jī)器人可能耗盡地球的資源來生產(chǎn)勺子,因而對人類產(chǎn)生威脅”。
雖然數(shù)據(jù)在增加,但是主要基于統(tǒng)計(jì)計(jì)算的人工智能不能滿足人的意志和情緒需求。至少在基于邏輯計(jì)算的機(jī)器翻譯領(lǐng)域,語料數(shù)據(jù)的增長與翻譯準(zhǔn)確度不再成正比,讓機(jī)器理解人的努力嘗試卡在半山腰。
在用戶和投資人對人工智能有愛有期待的時(shí)候,這個(gè)夢醒得有點(diǎn)殘酷。不管所謂機(jī)器智能是否是真正的智能,在某些場景下,它已經(jīng)開始發(fā)揮價(jià)值。我的一個(gè)朋友、中科院自動化所的博士生黃國平講的話很有力量:“即使是現(xiàn)在的機(jī)器翻譯,用好了照樣震爆世界?!彼囊馑际牵簷C(jī)器已經(jīng)做了40%、垂直領(lǐng)域的引擎能提供超過50%的有效結(jié)果,理論上很好的翻譯項(xiàng)目能提高50%的效率,機(jī)器的生產(chǎn)能力同樣令人乍舌。
可預(yù)見的時(shí)間里,機(jī)器翻譯一直都會不完美有遺憾。其實(shí)這也是一個(gè)好消息,它給人留了尊嚴(yán)和安全感,保留了翻譯職業(yè),甚至為譯員提供了更多的商業(yè)需求和更多的工作崗位。
不人性的一面
我在翻譯生產(chǎn)中遇到了三個(gè)譯員(以下用化名),三個(gè)案例和機(jī)器翻譯的關(guān)系層次分野清晰。
23歲天秤座張林林姑娘,南京某大學(xué)英語系大四學(xué)生,參加譯后編輯(基于機(jī)器翻譯結(jié)果作人工優(yōu)化)培訓(xùn)2個(gè)月,她的感受是“譯后編輯很大程度上提高了翻譯的效率,但是會對譯者的翻譯的風(fēng)格和思維有一定影響和改變”,工作效率從初每小時(shí)完成2件任務(wù)提高到了3-4件,兼職月收入達(dá)到了3500元。
24歲水瓶座孫青青姑娘,河北某大學(xué)商務(wù)日語系畢業(yè),對譯后編輯的感受是“比如有些句子比較難懂,句子結(jié)構(gòu)組織起來比較困難,機(jī)器譯文起到了好的提示作用”,培訓(xùn)半年后轉(zhuǎn)為全職譯員,一小時(shí)穩(wěn)定完成4件,月收入超過1萬。
第三位是25歲的白羊座小伙子小韓,大連外語大學(xué)日語畢業(yè)生,他說“有的機(jī)器翻譯只需調(diào)整語序即可,跟純手動翻譯相比,極大地提高了翻譯效率和準(zhǔn)確性”。他的效率是一小時(shí)完成5件,兼職做翻譯月收入9千元。
從受機(jī)翻結(jié)果影響,逐漸到以機(jī)翻結(jié)果為主做優(yōu)化,譯后編輯的譯員的工作方式和傳統(tǒng)人腦翻譯、詞典輔助的模式有很大區(qū)別。他們的工作流程發(fā)生了明顯變化,從90%的時(shí)間進(jìn)行逐字逐句翻譯,轉(zhuǎn)變?yōu)槌^一半的時(shí)間來理解術(shù)語和機(jī)翻結(jié)果,真正動手“翻譯”句子段落的時(shí)間僅為過去的小一半。結(jié)果是“翻譯”時(shí)間越少的譯員,效率很高,收入也很高。
2015年第四季度,麥肯錫全球研究院發(fā)表報(bào)告《如何利用AI重新定義工作》,開篇的一句話就是“隨著體力工作和知識工作自動化的進(jìn)步,許多工作至少在短期內(nèi),會被重新定義而不是被消除”。我們在譯后編輯譯員身上看到的是機(jī)器翻譯并沒有改變翻譯職業(yè),但是新的流程卻改變了譯員。譯員在工作中術(shù)語的選擇、詞句段落編排等過程在系統(tǒng)中都被記錄下來供機(jī)器學(xué)習(xí),譯員是語言數(shù)據(jù)和系統(tǒng)的使用者,也是數(shù)據(jù)生產(chǎn)者。有效的狀況可以被描述為:譯員是機(jī)器翻譯的研發(fā)和生產(chǎn)的延伸,其思維和行為被技術(shù)化了。
好的一面,麥肯錫的報(bào)告說“到2025年將有50萬億美元的價(jià)值會被人工智能和機(jī)器人創(chuàng)造出來”,壞的一面則是有些譯員會覺得不適,不適應(yīng)的結(jié)果是拿不到好工資甚至新的翻譯工作不需要Ta,可能被批評為反人性。我自己倒是覺得不能說帶個(gè)大頭盔看VR的技術(shù)是人們喜聞樂見,而改變思維、工作習(xí)慣的譯后編輯是不人道的,就像上個(gè)世紀(jì)初把走路變成踩油門、把方向盤的開汽車一樣?!叭藱C(jī)鏈接”無法實(shí)現(xiàn)的時(shí)候,“人機(jī)結(jié)合”是人與機(jī)器之間有效的合作方式,也是一個(gè)更準(zhǔn)確、讓大眾更安心的用詞。
與譯后編輯類似的場景,出現(xiàn)在醫(yī)療大數(shù)據(jù)的應(yīng)用里。醫(yī)生診斷時(shí),能看到的是機(jī)器給出來類似的病例和對應(yīng)的診斷匯總,也許還給出狀況接近案例的診斷處方推薦。機(jī)器不會直接給人看病,醫(yī)生和譯后編輯譯員一樣選取Ta中意的參考再給出診斷。不過人們對此的擔(dān)心少很多,“醫(yī)生為自己的診斷書負(fù)責(zé)嘛,機(jī)器干不了這個(gè)事。”
億級需求
新的互聯(lián)網(wǎng)翻譯還有一條路徑是屬于共享經(jīng)濟(jì)的社會化生產(chǎn),國內(nèi)外的翻譯行業(yè)誕生了很多眾包翻譯服務(wù)平臺,但是效果堪堪,一直沒有實(shí)現(xiàn)期待中的結(jié)果。原因是眾包平臺為需求匹配到合適譯員的成本,高于網(wǎng)絡(luò)眾包生產(chǎn)的效率收益,生產(chǎn)過程和結(jié)果的非標(biāo)準(zhǔn)化帶來的工程管理成本更高了。
就在為眾包困局很困擾的時(shí)候,我與中國很大的非標(biāo)服務(wù)眾包平臺豬八戒網(wǎng)的朋友有過幾次深入的交流,雙方達(dá)成的共識很特別:服務(wù)眾包的核心在于供應(yīng)端,而不是互聯(lián)網(wǎng)經(jīng)濟(jì)的主流思維“客戶一、需求至上”。豬八戒網(wǎng)的一個(gè)主要品類“建筑設(shè)計(jì)”,包括供應(yīng)商的招募、生產(chǎn)和質(zhì)量、客服等的運(yùn)營管理交給了豬八戒與設(shè)計(jì)行業(yè)某上市公司的合資公司來打理。
翻譯也是一樣,個(gè)人、企業(yè)和機(jī)構(gòu)的需求時(shí)刻都存在,但是中國超過3萬家提供“翻譯”服務(wù)的公司,很大的年收入只有3億元,規(guī)模狹小甚至還不夠成為一個(gè)行業(yè),而大部分的需求沒有被好好滿足,譯員該掙的錢掙不到。行業(yè)短板非常明顯:小規(guī)模、幾個(gè)兼職譯員的公司用師傅帶徒弟的作坊生產(chǎn)方式,能提供的服務(wù)能力有限,更談不上質(zhì)量、客服標(biāo)準(zhǔn)化。
由機(jī)器來統(tǒng)一基本勞作規(guī)范,完成部分翻譯量,組合大量譯員完成剩余優(yōu)化任務(wù)的模式,有望推進(jìn)輾轉(zhuǎn)不前的眾包翻譯來完成行業(yè)的跳躍發(fā)展。發(fā)展動力的基礎(chǔ)是機(jī)器翻譯,其實(shí)更主動的是人(譯員)。譯員在理解和使用機(jī)器翻譯輔助軟件,改變翻譯習(xí)慣以更好使用機(jī)翻結(jié)果,不同學(xué)生的可塑性不一樣,導(dǎo)致工作效率和收入的差異。因此翻譯的人機(jī)結(jié)合催生了一個(gè)重要的學(xué)習(xí)培訓(xùn)需求,其教學(xué)過程甚至是重新探索了譯后編輯這個(gè)職業(yè)的從業(yè)標(biāo)準(zhǔn)。
翻譯服務(wù)能否從小作坊升級到互聯(lián)網(wǎng)上的富士康? 我看不出不能的障礙在哪里。計(jì)算機(jī)技術(shù)工具&大數(shù)據(jù)學(xué)習(xí),基于互聯(lián)網(wǎng)平臺管理、培訓(xùn)和生產(chǎn),以及中國少有的全語種外語教育體制和數(shù)量一的外語人才儲備,地利和人和都在了,下面看看市場需求的天時(shí)到?jīng)]?
全球化的深入不再是只有部分人出國觀光,從吃買玩,到投資學(xué)習(xí)工作,乃至生老病死都不會是局限在出生國家的事情。圣經(jīng)里上帝讓各族人說不同語言的設(shè)計(jì)制造了天成的剛需,多語言交流需求不是敢不敢想,而是能不能做的問題。它意味著產(chǎn)能巨大、穩(wěn)定和低成本的翻譯服務(wù),滿足這一需求的新翻譯生產(chǎn)方式,一定是包含了機(jī)器翻譯軟件、基于互聯(lián)網(wǎng)的供需眾包和協(xié)作生產(chǎn)、以及譯員用以學(xué)習(xí)、分享的互聯(lián)網(wǎng)社區(qū)培訓(xùn)平臺。
能不能讓淘寶、亞馬遜的商品全部被不同國家的顧客直接看懂,讓中國的股民了解所有紐交所、納斯達(dá)克股票交易的信息和后面的公司行業(yè)資訊,讓國內(nèi)外新發(fā)表的論文文獻(xiàn)同步多語言出版,讓美國很大的醫(yī)訊網(wǎng)站整站的優(yōu)質(zhì)內(nèi)容占領(lǐng)目前被莆田醫(yī)生籠罩的中文網(wǎng)絡(luò)?使用谷歌、有道免費(fèi)翻譯工具自助閱讀的人越來越多,這顯然不會是互聯(lián)網(wǎng)社會大規(guī)模多語言交流的先進(jìn)方式——如上面所說,缺點(diǎn)太明顯,對用戶的知識、技能挑戰(zhàn)過高,只是因?yàn)槊赓M(fèi)才可以容忍。
擁有行業(yè)和外語知識人士提供的專業(yè)翻譯服務(wù)的需求會更旺盛——只要價(jià)錢合適;更重要的是合格的翻譯能力才能對接有質(zhì)量要求的商業(yè)內(nèi)容,促成有利潤的商業(yè)項(xiàng)目。翻譯服務(wù)體量從每單幾百元、上千元,提升到每單幾千萬、上億元,成本則下降40%-80%。二十年的互聯(lián)網(wǎng)經(jīng)驗(yàn)告訴我,一個(gè)互聯(lián)網(wǎng)項(xiàng)目億元的運(yùn)營成本不可怕,投資人和運(yùn)營人擔(dān)心的是每年數(shù)億元的投入能否帶來倍增的收益。翻譯僅僅是打破語言障礙的一步,進(jìn)一步的知識管理和服務(wù),是信息里蘊(yùn)藏的更大金庫。
從這個(gè)邏輯來說,人機(jī)結(jié)合的翻譯花得起億級的錢,也掙得到10倍以上的收入和可觀的利潤,它在抄過來的路上。
本文轉(zhuǎn)自:英國《金融時(shí)報(bào)》中文網(wǎng)“商業(yè)”專欄,作者系商鵲網(wǎng)聯(lián)合創(chuàng)始人、首席執(zhí)行官鄒劍宇 。本文僅代表作者觀點(diǎn)。