科大訊飛獲國家科學(xué)技術(shù)進步獎一等獎

時間：2024-06-25 17:21:06 發(fā)布：tgy 來源：科大訊飛第一對焦：科大訊飛

　　【ZiDongHua 之品牌自定位收錄關(guān)鍵詞：科大訊飛人工智能智能制造機器人服務(wù)機器人】

　　科大訊飛獲國家科學(xué)技術(shù)進步獎一等獎

　　6月24日，2023年度國家科學(xué)技術(shù)獎勵大會在京召開，科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目獲得國家科學(xué)技術(shù)進步獎一等獎。這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來，過去十年人工智能領(lǐng)域首個國家科學(xué)技術(shù)進步獎一等獎。這也是科大訊飛繼2002年和2011年分別獲得國家科學(xué)技術(shù)進步獎二等獎之后，首次獲得國家科學(xué)技術(shù)進步獎一等獎。

　　國家科學(xué)技術(shù)進步獎創(chuàng)辦于1984年9月，是國務(wù)院設(shè)立的國家科學(xué)技術(shù)獎5大獎項（國家最高科學(xué)技術(shù)獎、國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進步獎、中華人民共和國國際科學(xué)技術(shù)合作獎）之一。因2021年、2022年國家科技獎暫停的緣故，2023年度國家科技獎積累了大量的優(yōu)秀成果，競爭激烈。

　　關(guān)鍵技術(shù)取得四大突破

　　達到國際領(lǐng)先水平

　　語音是人類最自然便捷的溝通方式，是智能設(shè)備人機交互的關(guān)鍵入口，也是諸多敏感信息的重要載體，還是民族團結(jié)和國際合作的基礎(chǔ)。多語種智能語音技術(shù)對于支撐人機交互、人類語言互通及國家安全等需求具有重大戰(zhàn)略意義，具有十分廣闊的產(chǎn)業(yè)前景，是當(dāng)前國際科技競爭核心焦點之一。

　　持續(xù)攻關(guān)多年，科大訊飛攻克了多個技術(shù)難題，并打破技術(shù)封鎖，提出了四個方面的技術(shù)創(chuàng)新。

　　創(chuàng)新點一，復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)突破。

　　語音識別研究中最具挑戰(zhàn)的是遠場、噪聲、多人語音混疊等現(xiàn)象導(dǎo)致的“雞尾酒會”效應(yīng)典型難題。

　　科大訊飛提出了多通道語音信號時空分離建模方法和多維度語音屬性解耦表征方法，實現(xiàn)語音信號中內(nèi)容、噪聲等高度耦合的多維屬性特征解耦，解決了“雞尾酒會”的難題，使得復(fù)雜場景下語音識別準(zhǔn)確率得到重大突破。

　　在這些技術(shù)的支撐下，科大訊飛連續(xù)4屆獲得國際多通道語音分離和識別比賽CHIME冠軍；連續(xù)8屆獲得國際語音合成大賽Blizzard Challenge冠軍。2015年，相關(guān)技術(shù)首次在大會演講場景實現(xiàn)語音轉(zhuǎn)寫超過人類速記員水平；2019年起連續(xù)六年服務(wù)全國兩會；個性化語音合成首次應(yīng)用于中央電視臺節(jié)目配音（《創(chuàng)新中國》），并在新華社、人民日報、學(xué)習(xí)強國等廣泛應(yīng)用。

　　創(chuàng)新點二，多語種共享建模關(guān)鍵技術(shù)突破。

　　為了應(yīng)對多語種技術(shù)“卡脖子”問題，必須解決小語種智能語音系統(tǒng)構(gòu)建所面臨的知識匱乏、訓(xùn)練數(shù)據(jù)稀缺等難題。

　　科大訊飛設(shè)計了全新的多語種通用音素體系和基本語言單元，實現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建，又通過基于元學(xué)習(xí)的多語種預(yù)訓(xùn)練和基于語族分組的多語種共享建模——通俗地說，就是將不同的小語種進行分類，找到同類語種的共同規(guī)律，進行分析建模和訓(xùn)練——最終，顯著提升了小語種語音系統(tǒng)性能。

　　相關(guān)技術(shù)在2021年國際低資源多語種語音識別競賽OpenASR中獲得15個語種受限賽道和7個語種非受限賽道的冠軍。2024年，結(jié)合語音屬性解耦表征、多語種多任務(wù)共享建模等關(guān)鍵技術(shù)成果發(fā)布星火語音大模型，首批37個主流語種的語音識別效果超過OpenAI Whisper V3。

　　在奇瑞、一汽等的交互評測中，科大訊飛的技術(shù)效果全面領(lǐng)先國際車載語音技術(shù)競品賽倫思（原Nuance車載公司），在華為的評測中也領(lǐng)先谷歌。

　　創(chuàng)新點三，語音語義聯(lián)合建模關(guān)鍵技術(shù)突破。

　　復(fù)雜應(yīng)用場景下語音交互、語音翻譯面臨著深層次語義理解困難、專業(yè)性不足等問題。

　　科大訊飛提出語音語義互增強的魯棒口語理解技術(shù)，有效提升語音交互、語音翻譯等復(fù)雜場景的語義理解準(zhǔn)確率；提出多源知識增強的可信文本生成技術(shù)，提升專有詞匯及領(lǐng)域知識引用的準(zhǔn)確率。

　　相關(guān)技術(shù)于2018年在業(yè)內(nèi)首次達到CATTI考試英語二級《口譯實務(wù)(交替?zhèn)髯g類)》合格標(biāo)準(zhǔn)；并在2021-2023年連續(xù)三屆獲得國際權(quán)威機器口語翻譯評測比賽IWSLT冠軍，覆蓋同傳、離線、方言翻譯等多類任務(wù)。

　　技術(shù)成果應(yīng)用在多個方面：如英語口語評測首次達到人類專家水平，是滿足高考應(yīng)用要求的技術(shù)，累計服務(wù)超1.3億考生；智能客服系統(tǒng)規(guī)模應(yīng)用，累計服務(wù)超8億人，多行業(yè)對話成功率超90%。

　　創(chuàng)新點四，國產(chǎn)異構(gòu)硬件平臺訓(xùn)練及推理加速關(guān)鍵技術(shù)突破。

　　使用國產(chǎn)芯片開展智能語音算法模型訓(xùn)練和推理面臨性能低、適配難等問題。

　　科大訊飛提出硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù)，通過軟硬件協(xié)同優(yōu)化的動態(tài)張量算子自動融合方法，實現(xiàn)對語音等變長輸入的訓(xùn)練性能優(yōu)化達到國際主流芯片同等水平；通過多硬件聯(lián)合的量化計算模擬，達到模型單次訓(xùn)練后可在不同硬件平臺上一鍵部署，解決了智能語音技術(shù)硬件平臺的“卡脖子”問題。

　　目前，已建成5個國產(chǎn)化集群，語音合成、識別、翻譯、交互等國產(chǎn)化能力日服務(wù)8.73億次。2023年，科大訊飛與華為聯(lián)合攻關(guān)大模型國產(chǎn)化算力底座核心難題，建設(shè)首個萬卡全國產(chǎn)算力平臺“飛星一號”，填補了國產(chǎn)超大模型訓(xùn)練平臺空白。

　　基于這些關(guān)鍵技術(shù)的持續(xù)攻關(guān)和突破，該項目獲批牽頭建設(shè)4個國家級創(chuàng)新平臺：語音產(chǎn)業(yè)界唯一的國家級研究開放平臺語音及語言信息處理國家工程研究中心，智能語音國家新一代人工智能開放創(chuàng)新平臺，首批20家標(biāo)桿全國重點實驗室之一的認知智能全國重點實驗室，智能語音領(lǐng)域唯一的國家技術(shù)標(biāo)準(zhǔn)創(chuàng)新基地；并主導(dǎo)編制11項國際和國家標(biāo)準(zhǔn)，獲授權(quán)發(fā)明專利257項；近五年累計獲得國際權(quán)威評測冠軍20余項，持續(xù)保持技術(shù)引領(lǐng)。

　　實現(xiàn)規(guī)?；a(chǎn)業(yè)立地

　　有效支撐國家戰(zhàn)略

　　科大訊飛一直堅持“技術(shù)頂天、應(yīng)用立地”的戰(zhàn)略，圍繞多語種智能語音技術(shù)構(gòu)建了自主可控的產(chǎn)業(yè)生態(tài)。

　　第一，語音是萬物互聯(lián)時代人機交互的關(guān)鍵入口，項目開創(chuàng)引領(lǐng)我國語音產(chǎn)業(yè)，支撐智能制造產(chǎn)業(yè)升級和出海。

　　智能手機方面，項目支持各主流手機廠商累計激活設(shè)備超10億臺，有效解決華為等廠商出海的多語種“卡脖子”問題；智能汽車方面，車載智能化產(chǎn)品累計前裝超5300萬套，支持奇瑞、一汽、長安等車企超200萬套訂單出海；智能軟硬件方面，開創(chuàng)智能翻譯機、智能辦公本、智能錄音筆等智能硬件新品類，連續(xù)三年獲得京東&天貓雙平臺銷售冠軍，其中，訊飛翻譯機目前能支持85個語種的翻譯，覆蓋全球200多個國家和地區(qū)，連續(xù)8年獲得京東618、連續(xù)7年獲得天貓雙11銷售冠軍；在會議、辦公等場景，訊飛聽見系列產(chǎn)品服務(wù)遍及全球50多個國家和地區(qū)，支持了超過40萬場會議，觸及超過4億觀眾；面向更多用戶，訊飛輸入法月活躍用戶超1.4億人，日語音交互次數(shù)超10億次；聯(lián)合中國移動電視語音遙控服務(wù)超1億家庭。

　　第二，項目助力民族團結(jié)，促進全球語言互通和“一帶一路”建設(shè)。

　　發(fā)布“多語種語音云”平臺，月服務(wù)超過5.46億人次；每年提供翻譯服務(wù)51.5億次，語音同傳服務(wù)全球50余個國家超4億觀眾；多語種技術(shù)有效服務(wù)北京冬奧會和冬殘奧會、中國國際進口博覽會、博鰲論壇等國家重大活動。

　　第三，項目還構(gòu)建了自主可控的多語種智能語音技術(shù)及全球產(chǎn)業(yè)生態(tài)。

　　2017年開始承建的智能語音國家新一代人工智能開放創(chuàng)新平臺，已聚集平臺開發(fā)者數(shù)700.7萬，終端設(shè)備數(shù)40.5億；構(gòu)建全球多語種技術(shù)生態(tài)，目前平臺聚集海外開發(fā)者數(shù)超過40萬。

　　第四，讓科技更有溫度，項目持續(xù)助力公益，關(guān)愛弱勢群體和特殊人群。

　　“聽見AI的聲音”公益行動，為聽力障礙人士提供免費的實時語音轉(zhuǎn)文字服務(wù)、捐贈免費時長，截至2024年6月，累計捐贈時長超一億分鐘；發(fā)起“三聲有幸”項目，累計服務(wù)1368萬人，助力公益團隊創(chuàng)建無障礙應(yīng)用超3萬個；進行推普脫貧攻堅，累計助力超115萬少數(shù)民族群眾，成為《國家通用語言文字法》施行22年來首次表彰活動中的企業(yè)先進集體。

　　項目產(chǎn)業(yè)生態(tài)繁榮、成效顯著。近三年，多語種智能語音技術(shù)產(chǎn)業(yè)化項目累計實現(xiàn)直接經(jīng)濟效益521.28億元，并帶動由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展，并上升為中部崛起的國家戰(zhàn)略。

　　未來：智能語音+認知大模型

　　用人工智能建設(shè)美好世界

　　十年磨一劍，科大訊飛創(chuàng)業(yè)25年來第三次獲得國家科技進步獎，對于科大訊飛而言，是一個總結(jié)，也是新開始！

　　通用人工智能時代，科大訊飛多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)相互補充、相互促進。

　　語音屬性解耦、語音信號時空分離等技術(shù)突破，可以將語音信號經(jīng)過編碼后輸入到大語言模型，顯著提升語音大模型的效果。2024年1月30日，科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語音大模型，顯著超過了OpenAI的Whisper v3的語音大模型能力，Whisper v3的24個主要語種的平均識別率為82%，而星火語音大模型達到了90%。4月26日，科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力，使機器具備更加豐富的超擬人情緒感知和表達。

　　大模型技術(shù)可以在復(fù)雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果，同時基于其強大的語義理解、知識問答、多輪對話、多模態(tài)建模能力，也能進一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價值，支撐實現(xiàn)語音同傳、自動客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機器人、服務(wù)機器人等未來智能產(chǎn)品創(chuàng)新，帶來巨大產(chǎn)業(yè)機會，加速通用人工智能時代的到來。

　　6月27日，訊飛星火V4.0也將正式發(fā)布，底座能力全面對標(biāo)GPT-4 Turbo，語音大模型也將迎來全新升級。

　　未來，在科大訊飛國際領(lǐng)先的智能語音技術(shù)基礎(chǔ)之上，訊飛星火將進一步向著“解放生產(chǎn)力、釋放想象力，為每個企業(yè)和每個人打造專屬AI助手”的更大愿景，持續(xù)攀登、持續(xù)進步，用人工智能建設(shè)美好世界！

　　訊飛星火大模型V4.0發(fā)布會

　　倒計時3天