AI音為虛擬人注入靈魂 時域科技要打造音頻技術生態來源:億邦動力 作者:翟更章 2022-05-31 |
很多歌迷都不得不面對一個苦澀現實,一些喜歡的歌手十年都出不了一張新專輯。背后的原因可能是歌手的發展規劃限制、能力高峰期已過,甚至歌手本人已經離世。 如果有一個AI可以完全還原idol聲音演唱任何歌曲,是不是就能完成大家隨時隨地聽偶像新歌的愿望? 實際上這已不再是夢想。隨著人工智能技術的發展,相比十年前虛擬歌手生硬的合成音,當下的技術已經能夠準確還原一個人的聲音并以此合成歌曲。 “其實還原人聲對我們來講已經是非?;A的事了,我們現在做的事不僅是合成像人一樣自然(life-like)的歌聲、說話聲。同時,要讓AI的聲音具備極高的情感表現力(rich-emotion),比如讓AI可以達到甚至超過專業歌手的演唱表達,從而為人類提供情感價值?!睍r域科技創始人兼CEO郭靖告訴億邦動力,公司正在基于這個能力,為虛擬偶像、數字人提供聲音技術支持。 時域科技是一家專注于AI領域的科技公司,致力于讓虛擬人滿足人類的情感需求,通過“富情感”人聲合成技術,賦予虛擬人表現情感的能力。其創始團隊由來自騰訊、字節等互聯網大廠的產品技術人員以及華納、傳媒大學等藝術背景的人員組成。 時代科技旗下產品ACE Studio能夠快速生成媲美錄音室錄制的人聲和歌曲。 作為一家要為虛擬人“注入靈魂”的公司,成立僅3年的時域科技已經拿下了五源資本、順為資本、知春資本、萬物資本的投資,其中五源資本連續加碼四輪,包括種子輪、天使輪、preA輪、A輪。 時域科技與國內頂級虛擬歌姬洛天依制作了AI聲音建模,為騰訊旗下的虛擬偶像“外來人員·童和光”提供的AI聲音模型登上了央視1套的五四特別晚會,在聲音合成領域技術能力排名世界前列。 有感情的聲音也能量產 “AI音”為虛擬人注入“靈魂” 當下個人PC已經發展超過40年,智能手機也已經普及到全球大眾手中,從文字到圖片再到當下的視頻都已經產生了大量的計算機框架和建模,完成了智能化改造,但有一個領域始終未能被計算機智能化,這就是聲音。 做為能夠觸達人類靈魂深處的交流媒介,聲音的信息傳達過程和形式極為復雜,從復雜的語言體系到豐富的演唱技巧再到所有能發出聲音的器具。聲音的互聯網化,截至目前也僅產生了語音通話、語音播客、音樂、提示音效、合成器等少數幾種。 “聲音內容的制作周期長、成本高,其中人聲應用范圍最廣,但好的人聲可遇不可求。有辨識度的人聲想合作排隊都排不上?!惫父嬖V億邦動力,市場缺少低成本有辨識度的人聲,既有優質人聲的合作周期和產量都無法滿足市場需求,這是阻礙聲音市場發展的核心原因?!熬涂匆魳肥袌?,一首歌想要走紅,有作詞作曲還不夠,有一把好嗓子唱出來才行?!? 人聲通過AI技術建模制作成AI合成聲,可以解決人聲內容的產量問題,這一技術近些年已經應用于AI智能外呼領域。但怎樣批量生產在各種情緒下都具有統一辨識度的AI合成人聲,并建立起海量的AI合成人聲建模? 這在技術之上,還需要大量工作。 郭靖表示:“我們可以去找有特色的人聲買斷版權、進行建模,這種方法適合企業打造自己的聲音IP。相對于這種挖掘全新優質人聲的方法,我們現在在做的是通過AI技術合成新的‘人聲’,我們叫做AI音。這種聲音既像人聲一樣順滑完美,又有著高辨識度讓人喜歡?!? 時域科技在服務洛天依等客戶的同時,已經將這一套技術產品化,現已推出聲音合成系統ACE Studio,用于虛擬演唱,可以幫助創作人在灌入詞曲的10分鐘內甚至數秒間,生成比肩專業錄音室制作的完整歌曲。 “使用一臺普通配置電腦,單人半日就能將一首歌制作好?!惫笍娬{。這將大幅縮短音樂的制作流程,創作歌曲不再需要大量專業設備專業人員配合,徹底改造音樂產業。 相比于容易陷入版權糾紛的人聲,時域科技正在投入大量技術力量在遷移學習技術領域,以期批量制作出具有高辨識度的AI聲。遷移技術的核心就是通過AI技術學習具有辨識度人聲的聲音特征,然后以此為標準合成新的高辨識度AI聲。 “利用AI技術合成的聲音,已經可以接近甚至超過人類的情感表現力?!惫笍娬{到。而帶有情感的聲音相當于虛擬人的靈魂,能夠幫助虛擬人快速觸達用戶的情感,能夠一定程度彌補AI智能服務中理解能力的不足,讓用戶更自然接受有缺陷的人工智能。 億級市場空間 所有應用都可以用AI音再做一遍 當合成人聲以低成本在市場高質高量的落地應用之后,整體市場將會迎來一輪新的改造,互聯網將是第一波迎來改造。 自從進入互聯網時代,圖文視頻形態快速衍生出的海量產品形態及商業模式,在互聯網告訴發展的30年里,音頻相關產品及商業模式卻停滯不前,甚至受困于互聯網免費模式,原有的音頻市場快速萎縮崩塌。當下的市場里,音頻相關的內容產品既不豐富,門檻又高,商業化與用戶需求不相匹配。 高質高量低價的合成人聲將改變這一局面。 “現在國內每年僅游戲行業的配音市場在10億左右,配音率在15%,游戲里大量場景和NPC角色都是沒有配音的。利用合成人聲技術配音率可以無限提高,配音率提高之后,對于聲音市場來說是一個非常大的增量空間;另一方面能還提高游戲的體驗,增強游戲的故事性、沉浸感,延長其生命周期?!惫赶騼|邦動力舉了一個可以明確市場空間的案例。 而時域科技當下服務的虛擬偶像行業,更是想象力巨大的潛力市場。 “為每個虛擬偶像、數字人都賦予獨特而高情感表現力的AI聲音,可以不僅在虛擬偶像、虛擬歌手、數字人領域發揮重要價值,更可以改變游戲、社交、電商領域的格局,讓AI更好的服務于人,為人類提供情感價值。而我們的技術在打造這樣的AI聲音基礎設施,是具有很低的邊際成本的?!惫父嬖V 虛擬偶像背后IP價值是難以想象的金礦,而AI音也帶來了超越傳統音樂工業的商業模式。對比真人偶像低產量和不確定性,以AI音為基礎的虛擬偶像就相當于一個個平臺,創作人可以隨時創作歌曲并使用工具讓虛擬偶像演唱出來。AI音合成工具直接將音樂創作人從冗長的行業運作機制中解放出來,隨時隨地將自己的創作靈感通過技術和互聯網傳播給全球每一個人。同時,大量具有高辨識度和受人喜愛的AI音,提高了新歌的打爆幾率,擴大了創作人的商業價值。 這也僅僅是音樂市場的變化。面向教育、心理健康、陪伴、游戲和影視等對聲音有著高要求的市場,使用AI音將能研發出更多專業應用。例如:影視行業可以大幅減少配音演員,縮短工作流程;游戲行業可以通過大幅增加NPC角色配音,來豐富游戲的故事性;即便是當下火熱的網文小說領域為了獲得更大的用戶群,還需要找專業配音團隊進行音頻化,而在AI音技術下,網文小說作家可以省去所有中間步驟,從一開始就是基于音頻合成軟件創作聲音劇?;诼曇魟?,動漫創作者、演員可以自發的進行二次創作,低成本實現影視劇體驗。 郭靖表示,時域科技正在研發多語言版本的AI音合成器。 “Yamaha Vocaloid當年做虛擬歌手的初心,是提供標準的音源工具賦能創作者,節約錄音的成本和人力的不確定性。但由于當時的技術局限,合成音比較機械,雖然誕生了初音未來、洛天依等優秀的虛擬歌手。但成為標準音源工具的初心并沒有實現。而今天的技術做出的AI聲音,可以重新拾起Vocaloid當年的議題,讓AI聲音成為歌曲、游戲、影視等有聲內容創作中的標準生產力工具?!? 以聲音為核心的交互模式,能用更低的軟硬件成本為用戶提供服務,畢竟智能音箱價格早已降到百元以下。而結合AI音技術能將更精確的情緒傳達給用戶,相比各種屏幕中的圖形交互界面,也是一種更自然更健康的互聯網體驗。 接下來的AI音的應用生態會是什么樣?郭靖表示:“所有跟聲音有關的媒介,未來都會有大量AI音的存在?!? 直達心智的AI營銷來了?虛擬人唱跳帶貨將近 打造專業的應用服務永遠是最難的,而基于現有技術帶來的高質高量低成本特性,來為商家品牌做商業化服務,則有更多簡單路徑。 時域科技一邊在研發更先進的技術模型以調教出更優秀的AI音,一邊正緊鑼密鼓地推出商業化AI音合成服務ACE Studio,另一邊也在為各種企業定制專屬AI音。 “用戶可以按月按年來訂閱我們的ACE Studio,一年的費用幾千塊,最終價格我們還沒有定。企業定制專屬AI音報價則在10萬到幾十萬不等,因為有些企業只需要將合作的配音老師的聲音做AI建模,有些則會要求重新合成新的聲音,成本是不一樣的?!惫副硎?。 在當下商家品牌在直播短視頻中投放日益增高的背景下,擁有一個優質的能夠代表企業形象且能保持高質高量低成本生產的聲音,對于企業來說將是一筆恒定的品牌IP資產。AI音的出現既能保證企業視頻內容中高信息量地輸出企業宣傳信息,又能保證視頻制作的質量和數量,對于企業來說,將成為必不可少的運營工具。 實際上不止如此。 去年蜜雪冰城靠著一首洗腦歌曲成功在全網刷屏,從而成功破圈,成為國內知名品牌。這是國內大部分品牌尚未嘗試過的音樂營銷方法。相比當下流行的圖文視頻廣告形式,音樂營銷更容易觸達用戶心智,在潛意識里形成長久的記憶點。這種優質的營銷媒介,因為成本和爆款幾率問題,在國內鮮有嘗試。蜜雪冰城也是靠著龐大的線下店面體量,才得以進行實踐。 而在AI音合成技術的支持下,音樂營銷的可能性被大大提高。 “基于我們的工具的話,制作一首專業歌曲只需要半人日,成本可以壓到很低。這個品質是跟錄音棚的效果是一樣的,當然這個是不考慮創作全新詞曲這種不確定周期的?!惫副硎?。 而實際上當下市場中存在大量公共版權曲譜,蜜雪冰城的洗腦歌曲即是采用公共版權的美國民謠《Oh!Suzanna》,公共版權的好處就是無論用于何種用途都無需支付版權費用,且可隨意二次加工。 利用公共版權曲譜,商家品牌足以在直播短視頻平臺做好音樂營銷。而已有公共版權的曲譜,運營只需填詞就可直接合成歌曲。時域科技目前推出的C端APP ACE虛擬歌姬,就可以在現有歌曲中以簡單填詞的玩法十分鐘內做出一首全新歌曲。 這種模式配合虛擬人唱跳玩法制作視頻內容,將進一步提升商業價值。而與虛擬人直播帶貨模式結合之后,則可以以唱跳的形式回答用戶提問,宣傳產品特色,形如2021年爆火的美少女蹦迪帶貨。 當下虛擬演唱會市場正在快速成熟,虛擬人唱跳帶貨結合主題虛擬演唱會,距離落地并不遙遠。 針對接下來的市場發展,郭靖表示:“以富情感的AI聲音合成為切入,我們會不斷探索AI滿足人類情感需求的應用場景,最終成為虛擬人與人類社交必不可少的基礎設施,推動AI與人類共生的時代到來?!? |
|