●香港科大郭毅可教授表示,已成功建立一個包含50萬小時高質(zhì)量粵語、普通話和英語錄音的大規(guī)模多語種音頻語料庫。 香港文匯報實習(xí)記者黃安琪 攝

香港文匯報訊(記者 曾業(yè)俊)「香港音頻基礎(chǔ)模型」是參與數(shù)碼港「人工智能資助計劃」的獲批項目之一。該項目旨在建設(shè)「多語種音頻語料庫」,現(xiàn)已成功建立一個包含50萬小時高質(zhì)量粵語、普通話和英語錄音的大規(guī)模多語種音頻語料庫,覆蓋香港獨特三語環(huán)境中的各種口音,支持自動語音識別(ASR)、文本轉(zhuǎn)語音(TTS)和對話系統(tǒng)的精準訓(xùn)練與微調(diào)。同時,項目開發(fā)了「HKMeeting港會通系統(tǒng)」,是專門應(yīng)付香港會議場景的解決方案,能自動將會議語音內(nèi)容轉(zhuǎn)換為文字紀錄,輸出高度提煉總結(jié),並生成會議紀要。

負責(zé)上述項目的香港科技大學(xué)首席副校長、香港生成式人工智能研發(fā)中心主任郭毅可教授昨日表示,該研發(fā)項目需要訓(xùn)練AI模型,為其他模型提供數(shù)據(jù),因此「算得多、算得快」是最重要,並「需要很多機器提供算力」,而資助計劃及超算中心正正為項目提供最重要的算力。假如沒有資助項目,相信研發(fā)進度可能會延遲至少3個月到半年。

政府採「港會通」開會 研增安全性

對於研發(fā)項目的成效,郭毅可透露,目前項目語音系統(tǒng)的準確率取決於應(yīng)用場景,一般大概在88%至95%之間,應(yīng)用於會議綽綽有餘。目前已有政府部門正在使用「港會通系統(tǒng)」,研發(fā)團隊未來會持續(xù)提升系統(tǒng)安全性。面對同類的AI語音翻譯系統(tǒng)競爭,郭毅可指出香港的語言場景特色是經(jīng)常「雙語混雜」,港人對話時雖然主要使用粵語,但經(jīng)常突然冒出幾句英文,有時更會有粵語、普通話、英文三語混雜,而他團隊研發(fā)的系統(tǒng)在這方面做得比同業(yè)優(yōu)勝。他們的模型訓(xùn)練主要採用香港數(shù)據(jù),收集大量專業(yè)名詞,在翻譯專業(yè)知識方面會比同類系統(tǒng)更為準確。研發(fā)團隊未來會繼續(xù)為系統(tǒng)注入香港特色,會做得更深入,包括增添更多專有名詞和字詞的特殊用法,作為系統(tǒng)長項。