96SAO精品视频免费观看,国产老熟女狂叫对白,久久青青草原综合久久一品道

首頁 > 科技 > 正文

從Sora到Suno，解鎖多模態(tài)大模型的可能性

2024-03-26 19:56:36 21世紀經(jīng)濟報道 21財經(jīng)APP 董靜怡

21世紀經(jīng)濟報道記者董靜怡上海報道

像年初的Sora一樣，這次AI的顛覆性影響傳入了音樂圈。

近日，AI音樂生成軟件Suno發(fā)布V3版本，僅需要簡單的描述，就可以生成2min長度、廣播質量級別的音樂。正如Suno官網(wǎng)所顯示：“無論您是歌手還是排行榜藝術家，我們都會打破您與您夢想創(chuàng)作的歌曲之間的障礙。不需要任何工具，只需要想象力?！?/p>

這為普通人打開了音樂制作的大門。在社交媒體上，眾多網(wǎng)友參與討論，并曬出通過Suno制作的曲目，這些可以稱得上完整且好聽的音樂作品令音樂圈內(nèi)外人感到頗為震撼，當然，更震撼的還是AI生成能力的迭代速度。

在文生文模型的熱度逐漸平息之時，文生圖、音頻、視頻等多模態(tài)大模型開始了一輪又一輪的進化。華泰證券的一份研報顯示，海外大模型迭代重視多模態(tài)能力拓展，相較于早期圖像、音頻、視頻模型，基礎模型能力顯著提升。

“大語言模型為AI產(chǎn)業(yè)帶來新的生機，然而語言模型的應用場景有限。要全面打開生成式AI的想象力，還是要依托多模態(tài)大模型?！盜DC中國研究總監(jiān)盧言霞向21世紀經(jīng)濟報道記者表示。

她曾預測，未來5年，生成式AI生成的文本類文件、圖像類文件、視頻類文件、軟件代碼類文件數(shù)量將會越來越平均。而這其中，與圖像文件相關的數(shù)據(jù)量可能是文本文件的100倍，視頻文件是圖像文件的10倍。

當見識過這些模型的能力后，生成式AI的想象空間已經(jīng)被全面打開。盡管目前很多應用尚未正式對外開放使用，也無法了解到更多技術細節(jié)，但可以確定的是，這一波技術迭代將為AI行業(yè)參與者帶來可觀的機遇。

音樂圈的ChatGPT時刻

曾有業(yè)內(nèi)專家認為，考慮到成品的復雜性，可能需要數(shù)年時間才能出現(xiàn)一種通過簡單的文本描述制作歌曲的工具。但位于馬薩諸塞州劍橋市的一家成立兩年的初創(chuàng)公司Suno已經(jīng)成功實現(xiàn)了這一目標。

近日，Suno V3音樂生成模型發(fā)布，面向所有用戶開放。Suno通過其先進的AI算法，能夠理解和分析用戶的輸入，然后生成與之相匹配的音樂。這意味著用戶只需要提供一些簡短的歌詞或者描述，Suno就能根據(jù)這些信息創(chuàng)作出一首歌曲。

隨著新版本的推出，Suno還引入了AI音樂水印系統(tǒng)，每段由平臺生成的音樂都添加了人聲無法識別的水印，旨在保護用戶的創(chuàng)作，防止抄襲和濫用。

“相比起之前的版本，或是此前其他AI生成音樂的工具，V3生成的曲目是令人驚艷的?！庇幸魳凡┲髟谏缃幻襟w上發(fā)出贊嘆，“它已經(jīng)不再是一小段不成熟的東西，而是有歌詞、前奏、間奏、副歌的完整歌曲?！?/p>

在V3版本中，音質、咬字和節(jié)奏編排上都有了顯著提升，是Suno AI首次能夠生產(chǎn)出廣播質量的音樂的模型，它能夠在幾秒鐘內(nèi)創(chuàng)作出完整的兩分鐘歌曲，就在半年前，這個時長還僅有30秒。

為了激發(fā)人們的創(chuàng)作靈感，Suno V3還增加了更多音樂風格和流派的選項，包括古典音樂、爵士樂、Hiphop、電子等新潮曲風。同時，V3版本對于用戶輸入的提示詞，理解和響應更加準確，減少了“幻覺”現(xiàn)象，使得歌曲的結尾更加自然和高質量。

“我認為完成度很高，在樂器編排、風格把控、歌詞與旋律的匹配度等等方面都做得不錯，甚至還有樂器solo。”某獨立樂隊成員向21世紀經(jīng)濟報道記者表示，“尤其對沒有專業(yè)制作班底的獨立樂隊而言，提供了很好的編曲靈感。”

官方宣稱，不少知名的藝術家已經(jīng)在使用Suno，但其核心用戶群依然還是沒有任何音樂制作經(jīng)驗的普通人。在互聯(lián)網(wǎng)上，越來越多的網(wǎng)友曬出了自己通過Suno生成的作品，其中不乏中文歌曲，如基于古詩詞的古韻歌曲《水調(diào)歌頭（明月幾時有）》、中文硬搖滾《We Go!》，甚至還有以菜譜作為歌詞的《宮保雞丁》等。

“這與AI繪畫給人的感覺是類似的，”有使用者向記者表示，“做不到特別好，但可以達到平均水平，甚至要更高。”

針對于其應用場景，業(yè)內(nèi)普遍認為，作為廣告、短視頻等背景音樂的“功能性音樂”，Suno生成的音頻有著很大的應用前景，再往前發(fā)展，個性化定制音樂也會成為一種普遍的現(xiàn)象。

不過，談AI替代人力還是為時過早。上述獨立樂隊樂手向記者表示，作品雖然有完成度，但結構呆板，編排還是粗糙的、模塊化的，對于主流的音樂產(chǎn)業(yè)還構不成威脅，“它確實降低了音樂制作的門檻，但還遠沒有突破其天花板?！?/p>

Suno官方則表示，目前Suno模型仍處于早期階段，未來還將沿著質量、可控和速度方向進行改進，并透露V4已經(jīng)在開發(fā)中。

多模態(tài)仍在發(fā)展初期

事實上，去年下半年以來，由各類多模態(tài)大模型生成的作品已經(jīng)一次又一次帶來令人驚艷的效果，AI生成語音、圖片、視頻的進程似乎比預想中走得更快。

去年年底，谷歌上線了文生圖模型Imagen 2，在圖像的真實性和語言理解的深度上取得了前所未有的成就，能夠生成高度逼真且與文本提示一致的高分辨率圖像，尤其在處理復雜細節(jié)如皮膚質感和頭發(fā)方面表現(xiàn)出色，被稱為DALL?E 3和Midjourney的最強競品。

年初，OpenAI的Sora模型帶來更大的震撼，它能夠根據(jù)文本描述生成長達60秒的視頻，在此之前，同類產(chǎn)品生成的時長只有幾秒鐘。同時，它還具有精細復雜的場景、生動的角色表情以及復雜的鏡頭運動，使得Sora生成的視頻在視覺效果上更為連貫和逼真，與之前AI視頻生成模型產(chǎn)生的抖動和失真的視頻效果形成了鮮明對比。

再加上近期Suno的火爆，各個領域都在迎來自己的ChatGPT時刻。業(yè)內(nèi)人士認為，這類多模態(tài)大模型將最先應用于短視頻、廣告、互娛、影視、媒體等領域。在這些領域采用多模態(tài)大模型能力，既可以提高生產(chǎn)速度又可以提高生產(chǎn)數(shù)量，還可以創(chuàng)造全新的視聽感受，能夠幫助企業(yè)真正實現(xiàn)降本增效、提升用戶體驗。

從更長遠的角度來看，多模態(tài)最接近于人對自然界的感知，智譜AI CEO張鵬在此前接受21世紀經(jīng)濟報道記者采訪時表示，多模態(tài)是走向通用人工智能（AGI）的起點。

“人大腦一定是各種感官融合到一起的，所以人的智力一定是多模態(tài)的?！睆堸i向記者表示，“多模態(tài)不僅是文到圖、圖到文這么一件事情，它更多的是探究人的認知能力和各種感官之間的相互作用?！?/p>

東方證券的一份研報指出，多模態(tài)大模型一方面有利于形成圖片、視頻等更加生動活潑、更具交互性的應用，從而有助于C端爆款的誕生；另一方面，多模態(tài)大模型能真正打通物理世界和數(shù)字世界的障壁，實現(xiàn)與物理世界最自然的交互，從而對自動駕駛、人形機器人等具身智能領域的突破提供有力支撐。

但從技術角度來看，多模態(tài)大模型仍面臨著多重挑戰(zhàn)。

多模態(tài)模型的技術難度主要在于如何有效地整合和處理不同類型的數(shù)據(jù)，圖像、視覺和音頻等領域的數(shù)據(jù)具有更高的維度和更復雜的結構?！芭cNLP相比，圖像、視覺、音頻的數(shù)據(jù)量更大，對算力的要求也更高，計算的速度、性能要求都會更高。”盧言霞向21世紀經(jīng)濟報道記者表示。

她認為，盡管在NLP領域取得了一定的進展，但在圖像、視覺和音頻等其他模態(tài)上，大模型的發(fā)展仍然處于起步階段。

“很多應用表面上看上去驚艷，但是如果我們按需按場景去使用，能滿足需求的時候仍是少數(shù)?！北R言霞向記者表示，真正的成熟需要至少多個場景都能有效使用，目前很明顯達不到這一點。

而人們對于多模態(tài)大模型的期望顯然不只限于單一的非文本模態(tài)。未來的多模態(tài)模型可能會朝著更加集成和協(xié)同的方向發(fā)展，不僅能夠處理單一模態(tài)的數(shù)據(jù)，還能夠在多個模態(tài)之間進行有效的信息融合和轉換。

但當前一體化多模態(tài)大模型仍存在局限。復旦大學計算機科學技術學院教授邱錫鵬向21世紀經(jīng)濟報道記者表示，目前的多模態(tài)大模型通常以語言模型為中心，通過將其他模態(tài)的數(shù)據(jù)映射到語言模型的語義空間中來實現(xiàn)多模態(tài)理解，生成時則需要調(diào)用外部的插件或系統(tǒng)。這限制了模型的應用場景和靈活性。

他認為，新一代大模型的交互將實現(xiàn)任意模態(tài)到任意模態(tài)的內(nèi)生轉化，這將與更多實際生活場景相結合，賦能應用場景和生產(chǎn)力變革。

目前來看，多模態(tài)整體的研究框架仍是非常開放的，它并沒有一個非常清晰的、收斂的路線，這對于開發(fā)者而言是巨大的挑戰(zhàn)，但與此同時，也意味著很多的可能性。

從Sora到Suno，解鎖多模態(tài)大模型的可能性

音樂圈的ChatGPT時刻

多模態(tài)仍在發(fā)展初期

從Sora到Suno，解鎖多模態(tài)大模型的可能性