新用戶登錄后自動(dòng)創(chuàng)建賬號(hào)
登錄近日,“2018全球人工智能產(chǎn)品應(yīng)用博覽會(huì)”在蘇州國(guó)際博覽中心舉辦,來(lái)自10個(gè)國(guó)家200多家企業(yè)和人工智能機(jī)構(gòu)展示1000多種全球最新的人工智能產(chǎn)品,100多位專家、學(xué)者主導(dǎo)25場(chǎng)關(guān)于人工智能細(xì)分應(yīng)用的分論壇。
“上海交通大學(xué)蘇州人工智能研究院分論壇”上,分音塔科技CEO關(guān)磊現(xiàn)場(chǎng)分享了人工智能在翻譯機(jī)場(chǎng)景的應(yīng)用。
清華大學(xué)團(tuán)隊(duì)分音塔科技自主研發(fā)的準(zhǔn)兒翻譯機(jī),是全球首款帶屏的人工智能翻譯機(jī),也是中國(guó)首款人工智能口語(yǔ)翻譯機(jī),并且是中國(guó)首家攻克日語(yǔ)離線語(yǔ)音識(shí)別技術(shù),目前同品類中支持語(yǔ)言和口音數(shù)量遙遙領(lǐng)先的翻譯機(jī)。
在分享中,關(guān)磊談到了分音塔團(tuán)隊(duì)的研發(fā)歷程與細(xì)節(jié),為人工智能同行提供了一份實(shí)戰(zhàn)性的借鑒。
不一樣的C端產(chǎn)品
分音塔科技專注于AI和C端結(jié)合的產(chǎn)品,是中國(guó)人工智能翻譯的創(chuàng)建者,2016年發(fā)明了中國(guó)第一款人工智能翻譯機(jī),目前在行業(yè)占有主流位置。
翻譯機(jī)作為C端產(chǎn)品,其實(shí)和傳統(tǒng)C端產(chǎn)品的差別很大。比如機(jī)器人、智能音響這些傳統(tǒng)的C端產(chǎn)品,本質(zhì)是人機(jī)交互,使用場(chǎng)景是家庭里面,場(chǎng)景比較單一。但是翻譯機(jī)的本質(zhì)是人和人交互,它是翻譯溝通的媒介,用戶說(shuō)的語(yǔ)言、使用的場(chǎng)景和人機(jī)交互的場(chǎng)景都不太一樣。
所以分音塔在做準(zhǔn)兒翻譯機(jī)的時(shí)候,遇到的問(wèn)題復(fù)雜得多。比如用戶使用不在中國(guó),使用的場(chǎng)景在全世界,可能在美國(guó)、日本、塞班、馬爾代夫,也可能在餐廳、酒店、酒吧、街頭,用戶使用場(chǎng)景極其復(fù)雜。
去年準(zhǔn)兒翻譯機(jī)上市以后,研發(fā)團(tuán)隊(duì)就發(fā)現(xiàn)市場(chǎng)需求比想象的更廣泛,商旅用戶、旅行用戶甚至公安局出入境這些都是用戶。這就是做C端產(chǎn)品和B端產(chǎn)品不一樣的地方。
從旅游市場(chǎng)切入
當(dāng)前AI比較熱門(mén),但是技術(shù)只有解決用戶在實(shí)際場(chǎng)景的需求才更有價(jià)值,在應(yīng)用上選擇什么領(lǐng)域非常重要。
分音塔當(dāng)時(shí)做翻譯機(jī),選定了出境游市場(chǎng)。第一,中國(guó)人出境去年達(dá)到了1.29億人次,而且還在快速的增長(zhǎng),市場(chǎng)很大;第二,中國(guó)經(jīng)濟(jì)十幾年的發(fā)展,人們的消費(fèi)隨之升級(jí),出境游也從大眾化的跟團(tuán)旅游發(fā)展到深度游,80、90后更愿意背著包自由行走,追求深度體驗(yàn)。這些都會(huì)使人們出境游時(shí),語(yǔ)言溝通不暢這一痛點(diǎn),需求解決更為迫切。
聚焦出境游應(yīng)用,也避免了通用型的翻譯語(yǔ)言在個(gè)性化的應(yīng)用場(chǎng)景中“失真”,翻譯準(zhǔn)確率也會(huì)更高。
譯得準(zhǔn),從語(yǔ)義識(shí)別著手
人工智能翻譯技術(shù)涉及的技術(shù)很多,主要技術(shù)有語(yǔ)音識(shí)別、語(yǔ)義識(shí)別、機(jī)器翻譯、語(yǔ)音合成等。語(yǔ)音識(shí)別解決聽(tīng)得到、聽(tīng)得清的問(wèn)題,語(yǔ)義識(shí)別則是解決聽(tīng)得懂的問(wèn)題。
同一種語(yǔ)系中,語(yǔ)義識(shí)別相對(duì)容易,比如拉丁語(yǔ)系很多單詞都差不多,翻譯準(zhǔn)確率就高。但不同的語(yǔ)系,由于文化習(xí)性差異大,語(yǔ)義識(shí)別難度就大。東方語(yǔ)系本來(lái)就語(yǔ)義復(fù)雜,比如漢語(yǔ)中的一句話,放不同的場(chǎng)景都能表達(dá)不同的意思。
分音塔做翻譯機(jī),是中國(guó)人在外國(guó)使用,所以必須解決東西方語(yǔ)系下的語(yǔ)義識(shí)別問(wèn)題。沒(méi)有現(xiàn)成的語(yǔ)言模型,自己從零開(kāi)始做語(yǔ)料庫(kù)。國(guó)外很多地方都譯不準(zhǔn),很多專有名詞要根據(jù)國(guó)外的場(chǎng)景優(yōu)化,只能建自己的語(yǔ)料庫(kù)。比如和日本人聊到料理,日本當(dāng)?shù)氐牡孛?、菜名都需要重新做語(yǔ)料。
人類的語(yǔ)言表達(dá)很復(fù)雜,比如口頭禪,還有表達(dá)時(shí)該停頓的時(shí)候沒(méi)有停頓,都要通過(guò)語(yǔ)義識(shí)別來(lái)斷句。
LBS(基于位置的服務(wù))是輔助語(yǔ)義識(shí)別的有效途徑。比如檢測(cè)到用戶在日本,那么后臺(tái)會(huì)根據(jù)用戶所在的地方進(jìn)行一些精準(zhǔn)的匹配,比如日本的專業(yè)名詞,同音詞的理解和翻譯上。
當(dāng)然,人工智能翻譯機(jī)最難的機(jī)器翻譯,也是分音塔科技最核心的技術(shù)優(yōu)勢(shì)。
直面實(shí)際應(yīng)用
語(yǔ)音識(shí)別其實(shí)在實(shí)地使用中面臨很大的挑戰(zhàn)。
某友商曾號(hào)稱自己的產(chǎn)品語(yǔ)音識(shí)別準(zhǔn)確率達(dá)96.7%,但測(cè)后發(fā)現(xiàn)還不到91%。原來(lái)該友商的檢測(cè)條件有三個(gè):第一密閉安靜的環(huán)境,第二國(guó)家普通話二級(jí)水平,第三常用的語(yǔ)言。如果在實(shí)際應(yīng)用場(chǎng)景,這三個(gè)條件也許就變成了噪音、方言口音、非常用語(yǔ)。
分音塔研發(fā)團(tuán)隊(duì)從降噪抓起。
在特別嘈雜的場(chǎng)景,差距30公分語(yǔ)音識(shí)別效率會(huì)大幅度下降。傳統(tǒng)音響考慮的是3到5米范圍內(nèi)的降噪,最后分音塔團(tuán)隊(duì)逼自己開(kāi)發(fā)適合0.5米到1.5的降噪技術(shù),使用起來(lái)效果非常好。
中國(guó)口音博大精深,外國(guó)也一樣。分音塔做出第一代翻譯機(jī)后,發(fā)現(xiàn)外國(guó)人也有口音,英語(yǔ)有美式、英式、加拿大、南非等很多口音,美式英語(yǔ)的口音識(shí)別很差。后來(lái)又改進(jìn),從最早上線支持四種語(yǔ)音,到目前支持39種語(yǔ)言、52種口音,成為支持語(yǔ)言、口音最多的翻譯機(jī)。它可以根據(jù)LBS場(chǎng)景來(lái)實(shí)時(shí)選擇當(dāng)?shù)厮枰目谝簦瑥亩嵘Z(yǔ)音識(shí)別準(zhǔn)確率。
配屏是準(zhǔn)兒翻譯機(jī)的行業(yè)首創(chuàng)。人和人溝通,7%的信息傳遞是通過(guò)語(yǔ)言,38%是通過(guò)語(yǔ)調(diào)和語(yǔ)速,55%是通過(guò)表情和動(dòng)作。為了增強(qiáng)人機(jī)交互,分音塔團(tuán)隊(duì)堅(jiān)定給準(zhǔn)兒翻譯機(jī)加了一塊屏,由此通過(guò)視覺(jué)來(lái)彌補(bǔ)聽(tīng)覺(jué)的不足。
用戶在使用中還會(huì)面臨網(wǎng)絡(luò)環(huán)境的問(wèn)題,比如中國(guó)、韓國(guó)、日本有全世界最好的網(wǎng)絡(luò),但到歐洲城郊幾乎就沒(méi)網(wǎng),加拿大、澳大利亞玩也這樣。這逼著分音塔團(tuán)隊(duì)開(kāi)發(fā)一些離線語(yǔ)音識(shí)別技術(shù)。目前,分音塔團(tuán)隊(duì)與清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)研究中心聯(lián)手攻克了中、日、英三種語(yǔ)言的離線語(yǔ)音識(shí)別技術(shù),其中日語(yǔ)離線語(yǔ)音識(shí)別技術(shù)是國(guó)內(nèi)零突破。
找回密碼
注冊(cè)賬號(hào)