語音播報
簡單問題需要復(fù)雜處理
汪昆先描摹了機器人參加高考的情境:在讀文字、聽聽力、識圖的過程中,機器人首先要把人類的語言、圖形“映射”為計算機能夠處理的形式語言,再進(jìn)行分析、理解和處理,最后以人類能夠理解的方式呈現(xiàn)答案。
“這個過程會涉及語音識別、自然語言處理、自動問答和自然語言生成等諸多環(huán)節(jié)?!蓖衾フf。假如,我們給機器人出道題——姚明的身高是多少?對于這句話,機器人首先并不清楚哪幾個字是一個詞,它就要先做中文分詞,然后進(jìn)行具體命名實體識別,把這個句子里關(guān)鍵的人物、地點等信息識別出來,接著進(jìn)行句法和語義分析,最終理解問題后,再在相應(yīng)的知識庫去搜索答案,然后以人類的方式給出回答。
機器人知識庫的形成可以通過人工總結(jié),也可以通過在互聯(lián)網(wǎng)大數(shù)據(jù)庫中自動挖掘?!跋啾戎?,人工總結(jié)的方法成本較大,可靠性比較有保證。而網(wǎng)絡(luò)數(shù)據(jù)量大、時效性強,但有時受網(wǎng)絡(luò)資源本身的限制,有可能會產(chǎn)生一些誤差甚至錯誤。”汪昆說。
“推理”讓機器人“頭大”
姚明身高的問題可能還相對簡單,如果換成“姚明老婆的身高是多少”,機器人的“大腦”可就得多轉(zhuǎn)幾圈了?!耙驗檫@涉及知識推理?!蓖衾ソ忉屨f。機器人要把“姚明老婆”的表述準(zhǔn)確轉(zhuǎn)化為“葉莉”,再到有關(guān)葉莉的知識庫里去搜尋答案。如果一個表達(dá)涉及多層的語義轉(zhuǎn)化和推理,對機器人來說就比較難了。
目前,“機器人高考”的每一個技術(shù)層面都有需要進(jìn)一步攻克的難點。比如,自然語言處理目前在中文分詞和實體識別上的準(zhǔn)確率是95%以上,而對于更難的句法和語義分析,仍有待提高。對于比較復(fù)雜的知識推理,機器人處理起來會覺得很“頭大”。
汪昆介紹說,相比中文,英文更容易被機器人理解。一方面由于英文的相關(guān)技術(shù)研發(fā)起步早、發(fā)展快,另一方面因為英文本身語言上的特點,便于機器人進(jìn)行判斷。
據(jù)了解,目前我國在機器人自然語言處理及機器翻譯上的技術(shù)水平已經(jīng)達(dá)到國際領(lǐng)先,跟歐洲的技術(shù)水平不相上下,而跟該領(lǐng)域的強國——美國相比,差距也在逐漸縮小。但是,無論是哪一個國家,要實現(xiàn)機器人的自然語言處理水平跟人類一樣,還有很遠(yuǎn)的路要走。
多國競技“高考”機器人
可見,以目前機器人的“智力”來說,要在高考中拿滿分,成為真“學(xué)霸”還是很難的?!艾F(xiàn)在如果讓機器人參加高考,可能英語的分?jǐn)?shù)會相對高些,因為比起語文、數(shù)學(xué)等,推理的難度相對小一點。”汪昆說。我國目前也有一批科研團隊在專門研究“高考機器人”,目的就是通過“高考”這個應(yīng)用場景以點帶面,不斷攻關(guān)難題,帶來相關(guān)技術(shù)的突破,拓展機器人應(yīng)用。
實際上,其他國家也在“高考”機器人方面展開了競技。日本國立信息學(xué)研究所等機構(gòu)在2011年啟動“東Robo君”人工智能開發(fā)項目,目的是讓機器人“東Robo君”在2021年前通過東京大學(xué)入學(xué)考試。盡管它近幾年的考試成績跟東京大學(xué)的分?jǐn)?shù)線還相差較遠(yuǎn),但每一年都會有進(jìn)步。IBM的機器人Watson曾在知識答題節(jié)目中擊敗兩位人類選手,如今還在不斷進(jìn)行金融服務(wù)、零售、醫(yī)療等方面的深度學(xué)習(xí),創(chuàng)造力不斷提升,甚至能自己設(shè)計菜譜。
汪昆對我國未來自然語言處理技術(shù)的發(fā)展很有信心。他認(rèn)為,做針對中文的機器人自然語言處理研究,我國科研人員更有優(yōu)勢。“這是母語,而且現(xiàn)在我國一大批互聯(lián)網(wǎng)公司興起,互聯(lián)網(wǎng)+氛圍濃厚,很多創(chuàng)新創(chuàng)業(yè)都會涉及自然語言處理的相關(guān)技術(shù)。由于國家支持,很多公司愿意投入,這樣就會有更多的人才進(jìn)入這個領(lǐng)域,很多學(xué)生也愿意從事相關(guān)方面的學(xué)習(xí)和技能培訓(xùn),一個良性發(fā)展的創(chuàng)新圈已經(jīng)形成?!?/p>
?。ㄔd于《經(jīng)濟日報》 2015-06-18 15版)
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn