2023-06-24 00:55:15來源:InfoQ
Meta 發(fā)布語音生成 AI 模型 Voicebox
【資料圖】
近日,Meta AI 宣布在生成式 AI 語音模型領(lǐng)域取得了突破:開發(fā)出了首個(gè)可泛化至多種語音生成任務(wù)的模型 Voicebox,無需專門訓(xùn)練即可達(dá)成頂尖性能表現(xiàn)。Meta AI 研究人員分享了多段音頻樣本和一篇研究論文,其中詳細(xì)介紹了他們采用的方法和取得的成果。
與圖像及文本類生成系統(tǒng)一樣,Voicebox 能夠創(chuàng)建多種樣式的輸出,包括從零開始創(chuàng)建輸出、修改給定樣本等。但與以往不同的是,Voicebox 并非簡單創(chuàng)建圖片或一段文字,而是直接生成高質(zhì)量的音頻片段。該模型能夠?yàn)槔ㄓ⒄Z、法語、西班牙語、德語、波蘭語和葡萄牙語在內(nèi)的六種語言合成語音,同時(shí)執(zhí)行噪聲去除、內(nèi)容編輯、風(fēng)格轉(zhuǎn)換和多樣化樣本生成等任務(wù)。
在 Voicebox 出現(xiàn)之前,生成式 AI 語音模型需要配合精心準(zhǔn)備的訓(xùn)練數(shù)據(jù),就各項(xiàng)任務(wù)接受特定訓(xùn)練。Voicebox 使用一種新的方法,可直接從原始音頻和隨附的轉(zhuǎn)錄結(jié)果中學(xué)習(xí)。與只能根據(jù)給定音頻片段續(xù)寫結(jié)尾的自回歸模型不同,Voicebox 能夠修改給定樣本中的任意部分。
據(jù)了解,Voicebox 能夠出色執(zhí)行各種任務(wù),具體包括:
結(jié)合上下文的文本到語音合成:使用長度僅為兩秒的輸入音頻樣本,Voicebox 即可匹配樣本的音頻風(fēng)格并據(jù)此進(jìn)行文本到語音生成。后續(xù)項(xiàng)目有望為無法說話的人士提供語音支持,或者為游戲 NPC 及虛擬助手快速生成對(duì)話語音。
跨語言風(fēng)格轉(zhuǎn)換:給定一段語音樣本,外加一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox 即可生成對(duì)應(yīng)的朗讀音頻。這種能力訟人興奮,未來可以幫助使用不同母語的人們通過自然且真實(shí)的方式開展交流。
語音降噪與編輯:Voicebox 的上下文學(xué)習(xí)為其賦予了強(qiáng)大的語音生成能力,可無縫編輯音頻中的片段。它能重新合成被暫時(shí)噪聲干擾的語音部分,或者替換掉說錯(cuò)的詞,而無需重新錄制整段語音。用戶可以找到語音中被噪聲(如狗叫聲)干擾的原始片段,剪切出來并指示模型重新生成。有朝一日,這種能力還可用于清洗和編輯音頻,且使用過程與目前流行的圖像編輯工具一樣輕松便捷。
多樣化語音采樣:利用多樣化的真實(shí)數(shù)據(jù)完成學(xué)習(xí)后,Voicebox 將可生成與人們的現(xiàn)實(shí)對(duì)話高度吻合的以上六種語言對(duì)話音頻。未來,此功能可用于生成合成數(shù)據(jù),協(xié)助提升語音助手模型的訓(xùn)練效果。研究結(jié)果表明,基于 Voicebox 生成的合成語音訓(xùn)練出的語音識(shí)別模型,在性能上幾乎與使用真實(shí)語音的模型相當(dāng),錯(cuò)誤率降低了 1%;與以往同類文本到語音模型相比,合成語音數(shù)據(jù)訓(xùn)練結(jié)果的錯(cuò)誤率更是大幅降低 45%至 70%。
Voicebox 的誕生,標(biāo)志著生成式 AI 研究又向前邁出了重要一步。在文本、圖像和視頻生成等方面,具備任務(wù)泛化能力的可擴(kuò)展生成式 AI 模型已經(jīng)激發(fā)了人們對(duì)于跨任務(wù)潛在應(yīng)用的濃厚興趣。Meta AI 希望音頻領(lǐng)域未來也能掀起同樣的潮流,同時(shí)繼續(xù)保持深耕和探索,關(guān)注其他研究人員如何在 Voicebox 的基礎(chǔ)之上尋求新的突破。
Voicebox 背后的 Flow Matching 技術(shù)
現(xiàn)有語音合成工具的主要局限之一,在于只能就專門的任務(wù)配合準(zhǔn)備好的數(shù)據(jù)接受訓(xùn)練。這些單調(diào)而干凈的輸入數(shù)據(jù)相對(duì)有限且難以收集,因此也導(dǎo)致輸出結(jié)果變得同樣單調(diào)。
Meta AI 的研究人員基于“流匹配”(Flow Matching)技術(shù)構(gòu)建了 Voicebox,這項(xiàng)技術(shù)是 Meta 在非自回歸生成模型領(lǐng)域的最新進(jìn)展,能夠掌握文本到語音之間高度不確定的映射。非確定性映射非常重要,它使得 Voicebox 能夠從不同的語音數(shù)據(jù)中學(xué)習(xí),且無需對(duì)各種變化要素做詳盡標(biāo)注。也就是說,Voicebox 能夠在多樣性更強(qiáng)、規(guī)模更大的數(shù)據(jù)之上進(jìn)行訓(xùn)練。
與當(dāng)前最先進(jìn)的英語模型 VALL-E 相比,Voicebox 在可懂度(即單詞錯(cuò)誤率,前者為 5.9%,Voicebox 為 1.9%)和音頻相似度(0.580 對(duì) 0.681)方面均更加強(qiáng)大,且速度要快 20 倍。在跨語言風(fēng)格遷移方面,Voicebox 也優(yōu)于領(lǐng)先模型 YourTTS,能夠?qū)⑵骄鶈卧~錯(cuò)誤率從 10.9%降低至 5.2%,并將音頻相似度從 0.335 提高至 0.481。
Voicebox取得新的先進(jìn)結(jié)果,在單詞錯(cuò)誤率方面優(yōu)于Vall-E和YourTTS。
Voicebox還分別在英語和多語言基準(zhǔn)測(cè)試中的音頻風(fēng)格相似性方面,達(dá)成了新的頂尖成績。
研究人員使用超過 5 萬小時(shí)的語音錄音,和來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉(zhuǎn)錄對(duì) Voicebox 進(jìn)行訓(xùn)練。經(jīng)過訓(xùn)練后,Voicebox 能夠在給定前后語音和片段轉(zhuǎn)錄數(shù)據(jù)時(shí)預(yù)測(cè)出語音片段。它還能學(xué)會(huì)根據(jù)上下文補(bǔ)全語音,從而被應(yīng)用于其他語音生成任務(wù),包括在無需重建整個(gè)輸入的前提下生成音頻的中間部分。
“AI 孫燕姿”爆火后,再看語音生成濫用風(fēng)險(xiǎn)
Voicebox 擁有眾多令人興奮的用例,但 Meta 也承認(rèn)其存在潛在的濫用風(fēng)險(xiǎn),所以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平臺(tái)上公開表示:“與其他強(qiáng)大的人工智能創(chuàng)新技術(shù)一樣,我們認(rèn)為這項(xiàng)技術(shù)也可能會(huì)被濫用,造成意外傷害。”
事實(shí)上,語音生成引發(fā)的濫用風(fēng)險(xiǎn)并不少見。以華語樂壇最近爆火的“AI 孫燕姿”為例,AI 讓孫燕姿翻紅的同時(shí),也讓背后的風(fēng)險(xiǎn)顯露出來。一方面,AI 合成聲音可能涉及侵權(quán)問題,另一方面,也可能帶來一系列倫理和法律的風(fēng)險(xiǎn)。
我國《民法典》第 1023 條第二款規(guī)定,對(duì)自然人聲音的保護(hù),參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。第 1019 條第一款規(guī)定,任何組織或者個(gè)人不得以丑化、污損,或者利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)。未經(jīng)肖像權(quán)人同意,不得制作、使用、公開肖像權(quán)人的肖像。由此可見,比照對(duì)肖像的人格權(quán)保護(hù),未經(jīng)權(quán)利人的同意,也不得制作、使用、公開利用權(quán)利人的聲音。
此外,語音生成也會(huì)成為電信詐騙的利器。前段時(shí)間,美國和加拿大各地使用 AI 合成語音進(jìn)行電信詐騙的案例多發(fā),不少老年上當(dāng)受騙。加拿大警方稱,最近加拿大各地都有不少類似案件發(fā)生,涉案金額已達(dá)數(shù)百萬加元。有受害者表示,犯罪分子使用的聲音和她兒子的聲音簡直一模一樣。在美國,類似的詐騙案件近期也呈上升趨勢(shì)。
作為首個(gè)能夠成功執(zhí)行任務(wù)的多功能、高效泛化模型,Meta AI 堅(jiān)信 Voicebox 即將開創(chuàng)生成式 AI 語音模型的新時(shí)代,但與其他強(qiáng)大的 AI 創(chuàng)新成果一樣,這項(xiàng)技術(shù)同樣可能因誤用引發(fā)意外危害。對(duì)于語音生成帶來的濫用風(fēng)險(xiǎn),Meta 也想好了對(duì)策——構(gòu)建一款高效分類器,用以區(qū)分由 Voicebox 生成的音頻和真實(shí)語音,借此緩解未來可能出現(xiàn)的種種風(fēng)險(xiǎn)。
在論文(https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)中,Meta AI 研究人員還具體講解了如何構(gòu)建一款高效分類器,用以區(qū)分真實(shí)語音和 Voicebox 生成的音頻。
參考鏈接:
https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
http://www.xinhuanet.com/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/c.html
本文轉(zhuǎn)載來源:
https://www.infoq.cn/news/YF1LRfH3Ttt7eZ0mBPjQ
關(guān)鍵詞:
責(zé)任編輯:個(gè)人信息被他人冒用,一夜之間成為某公司股東,被冒名者不但不能從股東
Meta發(fā)布語音生成AI模型Voicebox近日,MetaAI宣布在生成式AI語音模型領(lǐng)
記者徐潤杰6月21日,“賽輪杯”2023年全國橋牌大師賽在青島西海岸新區(qū)
綻放的玉蕊花。楊艷攝星羅棋布的玉蕊花。楊艷攝人民網(wǎng)儋州6月23日電(記
“老師,這是我的民族!”一名藏族學(xué)生指著畫中藏族的人物說道。6月20
直播吧6月23日訊北京時(shí)間6月23日19:30,足協(xié)杯第3輪,中國足協(xié)杯第三輪
個(gè)人信息被他人冒用,一夜之間成為某公司股東,被冒名者不但不能從股東
6月19日,據(jù)國家金融監(jiān)督管理總局消息,河南監(jiān)管局連發(fā)三則批復(fù),同意
從大廠潮白新城到地鐵燕郊站,騎行需要多久?實(shí)測(cè)! 燕郊站 燕郊 大廠
每經(jīng)AI快訊,天地?cái)?shù)碼(SZ300743,收盤價(jià):15 39元)6月21日晚間發(fā)布公
為認(rèn)真貫徹落實(shí)黨的二十大精神,傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化,展示新時(shí)
Meta發(fā)布語音生成AI模型Voicebox近日,MetaAI宣布在生成式AI語音模型領(lǐng)
為做好端午假期北京南站的軌道交通運(yùn)輸接駁,保障晚間抵京旅客順利出行
八大處徐家杰怎么樣一、八大處徐家杰怎么樣?徐家杰醫(yī)生是八大處的一位
央視網(wǎng)消息:端午節(jié)與春節(jié)、清明節(jié)、中秋節(jié)并稱為中國四大傳統(tǒng)節(jié)日,也
周三歐市盤中,歐元兌美元交投于1 0919,漲幅為0 00%。歐元基本面分析
今天晚上,河南一線隊(duì)與河南U21青年隊(duì)在航海體育場(chǎng)進(jìn)行了公開訓(xùn)練賽,
青年相聲演員李超因肺癌晚期醫(yī)治無效,于6月18日21點(diǎn)35分在北京去世,
期間重倉股調(diào)倉次數(shù)共有26次,其中盈利次數(shù)為11次,勝率為42 31%;翻倍
水墨端午|跨越千年的詩畫風(fēng)物之旅詳情請(qǐng)見:https: content-static cc
格隆匯6月21日丨雪峰科技(603227 SH)公布,公司將實(shí)施2022年年度權(quán)益分
“梁文錦,今天向你送達(dá)民事裁定,依照《深圳經(jīng)濟(jì)特區(qū)個(gè)人破產(chǎn)條例》的
而今天午后,華北一帶的地表氣溫也普遍超過了60℃,截至15時(shí),北京南郊
在本文中制作嬉皮背心正在尋找完美的萬圣節(jié)服裝嗎?無論您是在計(jì)劃
據(jù)??松梨谥袊?,6月20日,??松梨谂c阿里云簽署戰(zhàn)略合作升級(jí)
會(huì)議現(xiàn)場(chǎng)。攝影 凌雨晴6月21日下午,湘潭市委書記劉志仁主持召開市委全
生肖屬兔的人在事業(yè)上有新的機(jī)會(huì),明天開始未來的一星期,他們的財(cái)富會(huì)
該消息一出,讓一些新買了特斯拉ModelS和ModelX、智己LS7的車主憂心忡
廈門企業(yè)職工的退休養(yǎng)老金,是根據(jù)有關(guān)法規(guī)計(jì)算的。按照該方案,企業(yè)職
2023年6月是第22個(gè)“安全生產(chǎn)月”。為營造濃厚的“安全生產(chǎn)月”活動(dòng)氛
記者徐潤杰6月21日,“賽輪杯”2023年全國橋牌大師賽在青島西海岸新區(qū)
人民網(wǎng)首爾6月23日電(記者馬菲)中日韓合作秘書處主辦的中日韓《區(qū)域
綻放的玉蕊花。楊艷攝星羅棋布的玉蕊花。楊艷攝人民網(wǎng)儋州6月23日電(記
1、家里不能養(yǎng)殖柏樹,是因?yàn)榘貥涫窍碴栔参铮抑晷洼^大,會(huì)占據(jù)過多
據(jù)農(nóng)業(yè)農(nóng)村部官網(wǎng)21日消息,6月中下旬以來,南方早稻陸續(xù)進(jìn)入抽穗揚(yáng)花
24小時(shí)財(cái)經(jīng)資訊平臺(tái),依托新銳財(cái)經(jīng)日?qǐng)?bào)《每日經(jīng)濟(jì)新聞》(NationalBusin
近日,南通中集太平洋海洋工程有限公司(以下簡稱“中集太平洋海工”)
自助存包丟失商場(chǎng)是否應(yīng)當(dāng)賠償對(duì)于超市存包柜丟失物品在我國并不少見,
1、dvd光驅(qū)不讀盤需要進(jìn)行如下修復(fù)。2、了解光盤所支付的數(shù)據(jù)類型。通
1、DVD要想在電腦上播放的話,必須同時(shí)具備軟件和硬件兩個(gè)方面的條件。
韓國最大在野黨共同民主黨21日在國會(huì)舉行了紀(jì)念“反對(duì)日本福島核電站核
1、單位法人代碼是國家統(tǒng)一標(biāo)識(shí)代碼,是由政府職能部門給每一個(gè)單位頒
新海南客戶端、南海網(wǎng)6月21日消息(記者王小暢通訊員周鳳陽)隨著端午
對(duì)于很多溫州人來說,夏天就是從吃第一顆“茶山梅”開始的。酸甜可口的
高考的余溫剛剛散去中考的腳步緊跟而來遵義市2023年中考將于6月24日—
用“換氣”代替“補(bǔ)氣”,航天科技集團(tuán)六院801所實(shí)現(xiàn)了電推進(jìn)推進(jìn)劑替
2023年5月12日,六安市公安局交通警察支隊(duì)發(fā)布《六安市城區(qū)智能交通項(xiàng)
你可知道,餐桌上的一碗飯,是如何來到你的面前的?從實(shí)驗(yàn)室里千挑萬選
1、生活,一半是回憶,一半是繼續(xù),把所有的不快給昨天,把所有的希望
1、這個(gè)不清楚,沒有新聞爆料。2、小此世么哥,原名張勇,肥城安站人,
視頻加載中 6月22日,云南紅河邊境管理支隊(duì)對(duì)外通報(bào)稱,近日,該支隊(duì)
▼▼▼今天是2023年6月23日星期五(農(nóng)歷五月初六)關(guān)注小布不信謠,不
印尼一架飛機(jī)墜毀,機(jī)上4名乘客失蹤。據(jù)印尼媒體消息,當(dāng)?shù)貢r(shí)間6月23日
大家好,今日關(guān)于【拆二代遇房企爆雷:房沒了錢也沒了】迅速上了的熱搜
近日,一組美歐科學(xué)家稱,外星人或正在利用地球附近的一顆超新星爆炸作
1、五人墓碑記①五人者,蓋當(dāng)蓼洲周公之被逮②,激于義而死焉者也。2、
【28天過會(huì)A股近13年最大IPO來了先正達(dá)千億商譽(yù)何解?】28天閃電過會(huì)!
今年的“618”促銷活動(dòng)和端午節(jié)假期相連,網(wǎng)絡(luò)購物、節(jié)日消費(fèi)和饋贈(zèng)親
全國中成藥采購聯(lián)盟集中帶量采購擬中選結(jié)果出爐。6月23日,北京商報(bào)記
1、一、鯽的讀音是jì。2、二、釋義:魚類。3、體側(cè)扁,背脊隆起,長可
多處涉及能源相關(guān)!商務(wù)部印發(fā)《自貿(mào)試驗(yàn)區(qū)重點(diǎn)工作清單(2023—2025年
你干嘛?富保羅早已警告雄鹿卻用最后一個(gè)簽摘走利文斯頓,雄鹿隊(duì),克里斯
我們從“至理數(shù)據(jù)”海南房地產(chǎn)數(shù)據(jù)線上大數(shù)據(jù)平臺(tái)了解到,6月截止21日
百菲乳業(yè)發(fā)現(xiàn)隨著人們對(duì)健康和營養(yǎng)的關(guān)注不斷增加,水牛奶作為一種營養(yǎng)
俗話說“入夏三分虛”,夏天來臨,食欲不振加上大量出汗,導(dǎo)致人體內(nèi)營
這個(gè)端午,故宮跟拍有多瘋狂?
通訊員汪易易為深入營造“存保為民儲(chǔ)戶放心”的社會(huì)安全預(yù)期,在存款保
石榴云 新疆日?qǐng)?bào)訊(記者李莉報(bào)道)國風(fēng)傳承,絲路戲韻。6月22日晚,為
男子這邊,排名前十的選手變化并不大,因?yàn)榇蟛糠侄嘉磪⒓颖荣?,中國?duì)
小口腔,大健康。近年來,廣西柳州市人民醫(yī)院口腔科根據(jù)口腔門診醫(yī)療服
1、一、徐工集團(tuán)成立于1989年3月,25年來始終保持中國工程機(jī)械行業(yè)排頭
“同學(xué)們,馬上要過端午節(jié)了,今天,我們教同學(xué)們制作‘祛病花’插花。
色車牌,黑色車牌是什么意思這個(gè)問題很多朋友還不知道,來為大家解答以
今天我將為大家解答小金魚的飲食需求問題。小金魚是很多人養(yǎng)殖的寵物,
江西:南昌GDP排名第一,其他城市的經(jīng)濟(jì)表現(xiàn)如何?,南昌,贛州,九江,江
不知道大家還記不記得一個(gè)視頻,在2011年的時(shí)候,馬斯克接受媒體的一段
公共場(chǎng)所英文標(biāo)識(shí)出現(xiàn)謬誤?廣大市民都可以來“糾錯(cuò)”!記者從廣州市人
杞福天下,共享健康。6月22日至24日,第6屆枸杞產(chǎn)業(yè)博覽會(huì)將在我縣舉行
在當(dāng)下市場(chǎng)中,年輕消費(fèi)者更加追求個(gè)性化、年輕化、有設(shè)計(jì)感的產(chǎn)品。作
南都訊記者葉孜文通訊員岳青6月21日,共青團(tuán)廣東省委員會(huì)、廣東省青年
消息稱松下將中高端空調(diào)生產(chǎn)撤回日本,此前曾與小米達(dá)成戰(zhàn)略合作,日本,
智通財(cái)經(jīng)APP訊匯思太平洋60109908147公布周創(chuàng)強(qiáng)由于決定投放更多時(shí)間于
氣象臺(tái)6月22日16時(shí)發(fā)布未來72小時(shí)天氣預(yù)報(bào):貴陽:今天夜間到明天白天
田徑大本營??2023 6 23????非常感謝Mr LEE???奧林匹克日快樂2
導(dǎo)讀1、“海南第一泉”海口浮栗泉神州第一泉三亞南田溫泉。本文到此分
hello大家好,我是城鄉(xiāng)經(jīng)濟(jì)網(wǎng)小晟來為大家解答以上問題,無間道最后結(jié)
1、第一部:《虹貓藍(lán)兔七俠傳》外傳之一:《虹貓藍(lán)兔阿木星》第二部:
百菲酪水牛奶是一種風(fēng)味非常豐富的奶制品,并且比一般的牛奶更容易消化
提到帆船,人們自然就會(huì)聯(lián)想到在大海中遨游,如今在北京,帆船愛好者一
本文來源:時(shí)代周報(bào)作者:鄭琳7個(gè)交易日大漲近60%,在危險(xiǎn)邊緣的賽力斯
2023年1-5月,中國外匯市場(chǎng)累計(jì)成交101 87萬億元人民幣(等值14 79萬億美元)。
一、上證狀態(tài):(圖片來自經(jīng)傳多贏股票)麻了麻了,跌麻了呀,在昨日美
1、宋曉露,女,湖北電視綜合頻道主持人,一級(jí)播音員。2、現(xiàn)主持《幫女
為進(jìn)一步弘揚(yáng)志愿服務(wù)精神、服務(wù)社會(huì)所需,為廣大中考學(xué)子營造一個(gè)文明
周五(6月23日),美元 日元上漲,暫報(bào)143 217,漲幅0 07%。市場(chǎng)基本面
1、平民:祝福無形彗星1段+極限一閃八卦+驚雷3件套1段、黑龍手鐲、任意
1、用料主料糯米500克輔料香蔥2個(gè)黑芝麻50克油5勺鹽適量糯米糍粑的做法
1、神奇寶貝記憶激活碼萬能百科:。本文[高級(jí)偽原創(chuàng)標(biāo)題]到此分享完畢
6月21日,威士頓(301315)新股發(fā)行上市儀式成功舉行,全景路演對(duì)上市
6月22日,遠(yuǎn)景乳山零碳產(chǎn)業(yè)園內(nèi)一片繁忙,海上風(fēng)電主機(jī)陸續(xù)走下生產(chǎn)線
每經(jīng)AI快訊,綠康生化(SZ002868,收盤價(jià):35 17元)6月21日晚間發(fā)布公
大家好,我是房覓覓,便宜好房,輕松尋覓!近日,柳先生通過法拍網(wǎng)以49
由鎮(zhèn)統(tǒng)一組織在高鐵兩側(cè)的村和鐵路道口等人群集中的地方懸掛宣傳橫幅,
文 羊城晚報(bào)全媒體記者莫謹(jǐn)榕實(shí)習(xí)生鄒濱燕圖 受訪者提供6月21日,“價(jià)