語音播報
在主持界,新員工剛一上崗就播報全國兩會是一件可遇不可求的事,但新華社的“新小萌”做到了。在去年的全國兩會上,“新小萌”向全世界報道中國兩會盛況。其中,她播報的一條某人大代表的議案新聞,幾小時內在新華社客戶端的瀏覽量就超過百萬。
“新小萌”是誰?你可能已經猜到了,她并不是真人,而是模仿真人的虛擬主播。
這樣的虛擬主播正陸續(xù)走進人們的視野,但在科學家看來,它們還不夠完美?!半S著應用場景的不斷豐富,一個優(yōu)秀的虛擬主播需要‘多才多藝’?!敝锌圃鹤詣踊芯克J阶R別國家重點實驗室研究員赫然告訴《中國科學報》,“多才多藝”依賴于音視頻生成技術的不斷發(fā)展。
優(yōu)秀虛擬主播的特質
赫然在接受《中國科學報》采訪時表示,一位“多才多藝”的虛擬主播不僅可以語音播報,還要實現(xiàn)自然交互,以滿足線上人工服務和線下智能終端產品需求,成為可視化客服產品。
一般而言,當虛擬主播播報時,我們都會關注它的口型是否準確,表情、動作等肢體表達是否自然。對于科學家來說,除了這些直觀感受外,他們還非常關注視頻的清晰度以及連貫程度等。
目前,國內常見的虛擬主播主要有卡通形象和“真人”形象兩種。由于卡通形象的虛擬主播定制化程度較高,實現(xiàn)方式相對簡單,所以比較常見。從2018年至今,國內部分電視臺主推這種類型的虛擬主播。
顯然,卡通形象在真實感上遜色于真人形象的虛擬主播。于是,新華社的“新小萌”、人民日報社的“果果”等虛擬主播出現(xiàn)了。
但到底怎樣才算真實?目前并沒有統(tǒng)一標準。在哈爾濱工業(yè)大學計算機科學與技術學院教授左旺孟看來,虛擬主播的真實性主要體現(xiàn)生成人臉的逼真度、人物的差異性、視頻的幀間一致性、音視頻的跨模態(tài)一致性等方面。
這些都依賴于音視頻生成技術,即一種輸入音頻—輸出相應視頻時常使用的數(shù)據生成技術。
中科院自動化所模式識別國家重點實驗室博士李祎向《中國科學報》介紹,2017年前后出現(xiàn)的早期音視頻生成方法僅適用于特定的單一人物。例如,如果想得到某個真人形象的虛擬主播,那么首先需要采集大量數(shù)據,然后經過數(shù)據清洗、數(shù)據處理、網絡訓練、性能調優(yōu)等一套流程,耗時、耗力。而目前視頻生成技術主要運用三維模型渲染或者生成對抗網絡,其基本程序是首先建立一個頭部的三維模型,之后通過頭部三維模型的控制器來控制虛擬主播的口型和動作,但這種方法一般需要較長時間進行模型渲染。
也就是說,當前的視頻生成技術還無法實現(xiàn)任意人物協(xié)同生成,這也導致虛擬主播可能會出現(xiàn)嘴型不合理、逼真程度低等問題。
赫然也提出,目前真人形象的虛擬主播的發(fā)展仍面臨著定制難度大、成本高等問題。如此,科研人員就有了新任務,即降低制作成本,為不同用戶推出因人而異的真人虛擬主播形象。
任意人物協(xié)同生成是關鍵
近日,中科院自動化所智能感知與計算研究中心提出了一種新穎的音視頻協(xié)同計算方法,并重點解決了此前難以實現(xiàn)的任意人物協(xié)同問題。據悉,該研究論文已被2020國際人工智能聯(lián)合會議接收。
相比于以往大多數(shù)音視頻生成方法將重點放在音頻或視頻模態(tài)內部,該方法則將注意力放在音視頻模態(tài)之間最重要的問題上,即如何將音頻信息高效充分嵌入視頻信息,同時考慮如何突出不同人物的差異。
在赫然看來,如果希望基于一段音頻與視頻生成自然、連貫、準確的虛擬主播視頻,那么音頻在向視頻轉換的過程中的損耗應該盡可能小、轉換的映射應該盡可能準確,模型對不同人物說話方式也應該具有一定的想象力。
為此,科研人員精心設計了非對稱式互信息估計器,以構建音視頻模態(tài)間的約束。
隨著深度學習和生成模型的發(fā)展,圖像合成方面的研究也開始逐漸轉向視頻合成和多模態(tài)協(xié)同計算。然而,以虛擬主播為例,音視頻模態(tài)之間的差異性等問題已成為限制其走向應用的關鍵。
“因此,我們團隊借助于非對稱式互信息估計器,以最大化音視頻之間的跨模態(tài)一致性,較好地克服了這一問題,不僅能夠實現(xiàn)不同人臉的跨性別合成,而且使生成的口型更加準確、自然?!弊笸细嬖V《中國科學報》。
廣闊的市場前景
虛擬主播并不是新鮮事物。早在2001年,英國一家網絡公司就推出世界上第一個電視節(jié)目虛擬女主播阿娜諾娃,她可以24小時持續(xù)播報。隨后,日本、中國、美國等也出現(xiàn)虛擬主播。但由于技術不成熟和市場需求不強烈等,虛擬主播熱并沒有持續(xù)下去。
從2017年開始,我國再度出現(xiàn)虛擬主播的身影,近兩年也呈現(xiàn)了較好的發(fā)展態(tài)勢。如今,在國內部分網站上活躍的虛擬主播粉絲數(shù)量已達到幾十萬甚至百萬。
在左旺孟看來,隨著網絡教育、日常工作和生活中對視頻內容的需求提升,虛擬主播技術有望成為未來音視頻生成領域的研究熱點之一。
中科院自動化所模式識別國家重點實驗室博士宋林森告訴《中國科學報》,除了應用較多的娛樂場景,虛擬主播技術也可以在其他領域實現(xiàn)應用,如電影配音、抖音對口型、虛擬客戶服務、虛擬形象視頻會議等。
相關論文信息:https://arxiv.org/abs/1812.06589v1
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有
京ICP備05002857號-1
京公網安備110402500047號
網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn