風(fēng)起大模型:國內(nèi)大廠“應(yīng)戰(zhàn)”Sora
2024年,Sora為AI視頻賽道打響了“發(fā)令槍”。
珠玉在前,國內(nèi)誰能最先做出“國產(chǎn)版Sora”,又或者另辟蹊徑,走出AI視頻的新路子?到底是會(huì)被全盤碾壓,還是各自找到合適的生態(tài)位?Sora的陰影之下,國內(nèi)大廠同類產(chǎn)品還會(huì)有生存余地嗎?
縱觀國內(nèi)大廠,尚未出現(xiàn)產(chǎn)品能與Sora匹敵的跡象。但應(yīng)用并非軌道,而是曠野。
近日,阿里巴巴集團(tuán)智能計(jì)算研究所推出了EMO(Emote Portrait Alive)——一款由音頻驅(qū)動(dòng)的肖像—視頻生成框架。在這個(gè)應(yīng)用中,奧黛麗·赫本開始“唱歌”,蒙娜麗莎會(huì)“說話”了。
而在Sora發(fā)布以前,字節(jié)跳動(dòng)曾低調(diào)推出了視頻模型Boximator,但堅(jiān)決否認(rèn)這是“中文版Sora”;再往前看,百度也曾推出過“度加”創(chuàng)作工具,以AI輔助人工進(jìn)行視頻制作。
另一方面,Sora也托起了國內(nèi)相關(guān)概念股,如萬興科技、因賽集團(tuán)等,在Sora發(fā)布后,相關(guān)股票迎來了明顯上漲,這些公司的著力點(diǎn)落在泛娛樂、泛營銷等領(lǐng)域。
國內(nèi)針對(duì)Sora評(píng)論最為活躍的企業(yè)家是360創(chuàng)始人周鴻祎,他認(rèn)為,Sora的誕生意味著AGI(通用人工智能)實(shí)現(xiàn)可能從十年縮短至一兩年,國內(nèi)相似AI產(chǎn)品的差距還在繼續(xù)拉大。
一位深度跟蹤AI產(chǎn)業(yè)的投資人看法,或許帶來了新的思考方向。他認(rèn)為:“其他公司不要跟巨頭在同一條道上競(jìng)速,肯定是跑不過的,要尋找更多可能性?!?/p>
從“動(dòng)起來”到“會(huì)說話”
Sora問世之后,公眾試圖從國內(nèi)大廠的產(chǎn)品中尋找“宛宛類卿”的身影。字節(jié)跳動(dòng)發(fā)布的一款視頻模型技術(shù),就曾被冠上“中文版Sora”的名頭。
但字節(jié)跳動(dòng)隨后就做出了回應(yīng),稱Boximator是視頻生成領(lǐng)域控制對(duì)象運(yùn)動(dòng)的技術(shù)方法研究項(xiàng)目,目前還無法作為完善的產(chǎn)品落地,“而且距離國外領(lǐng)先的視頻生成模型,在畫面質(zhì)量、保真率、視頻時(shí)長(zhǎng)等方面還有很大差距。”
具體來看,Boximator可以通過文本控制生成視頻中人物或物體的動(dòng)作,但并非直接根據(jù)輸入的文本生成視頻,而是按照文字提示將靜態(tài)圖片動(dòng)態(tài)化。
如果說字節(jié)的Boximator使目標(biāo)主題的“運(yùn)動(dòng)”更加合理流暢,那么阿里的EMO就是讓圖片學(xué)會(huì)“說話”。
在arXiv的官網(wǎng)上可以看到,距離Sora推出后兩周不到,阿里團(tuán)隊(duì)即發(fā)布了肖像-視頻大模型EMO的論文。研究所表示,此項(xiàng)研究解決了人物說話時(shí)頭部視頻生成的真實(shí)感和表現(xiàn)力不足的問題。EMO重點(diǎn)關(guān)注音頻線索和面部運(yùn)動(dòng)之間的動(dòng)態(tài)和細(xì)微關(guān)系,利用直接的音頻到視頻的合成方法,繞過中間的3D模型或面部地標(biāo)的需要,可以確保無縫的幀轉(zhuǎn)換,使該人物形象能在整個(gè)視頻中完整一致,從而產(chǎn)生極具表現(xiàn)力和逼真的動(dòng)畫。
據(jù)不完全統(tǒng)計(jì),截至目前,國內(nèi)已有超15家企業(yè)推出了視頻生成工具,以字節(jié)、阿里為代表的大廠和以愛詩科技、生數(shù)科技為代表的創(chuàng)企們,推出的視頻生成工具在語義理解、運(yùn)動(dòng)流暢度、成像質(zhì)量等方面各有千秋。
Sora的推出可謂是“一石激起千層浪”,從“更好地動(dòng)起來”到“會(huì)說話唱歌”,國內(nèi)大廠和各家創(chuàng)企后續(xù) “應(yīng)戰(zhàn)”難度無疑被大幅拉升。
大廠的“危機(jī)”
擁有抖音的字節(jié)跳動(dòng),在文生視頻大模型訓(xùn)練上有天然的數(shù)據(jù)優(yōu)勢(shì)。但與此同時(shí),Sora的出現(xiàn),正在給字節(jié)跳動(dòng)帶來巨大的“未知”,無論是抖音還是剪映,在短視頻領(lǐng)域都無法忽視Sora所帶來的顛覆性影響。
驚艷的官宣之后,Sora新視頻還在TikTok上持續(xù)推出,且TikTok是獨(dú)家放送渠道。逼真的動(dòng)畫效果,讓網(wǎng)友驚呼“根本想象不到剛剛滑過去的視頻是AI生成的”。
不可否認(rèn),Sora對(duì)短視頻行業(yè)產(chǎn)生的沖擊,不只包括為短視頻平臺(tái)提供更加豐富的供給,也包括增加短視頻平臺(tái)治理難度,識(shí)別深度偽造、版權(quán)糾紛的難度將被加大。
而在視頻AI輔助工具方面,Sora將拉低普通人創(chuàng)作視頻的門檻。當(dāng)更多人傾向于選擇門檻更低,但效果更好的平臺(tái)時(shí),目前市面上的AI視頻工具可能會(huì)被淘汰,比如,剪映、快影的用戶,將可能被搶走。
字節(jié)對(duì)AI事業(yè)是有焦慮的。今年1月30日,字節(jié)跳動(dòng)CEO梁汝波在公司年度全員會(huì)直言,公司直到2023年才開始討論GPT,而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司都是在2018年至2021年創(chuàng)立的,并多次強(qiáng)調(diào)“危機(jī)感”。
字節(jié)跳動(dòng)從去年開始布局AI,2023年11月成立專注于AI創(chuàng)新業(yè)務(wù)的新部門Flow。據(jù)悉,F(xiàn)low部門技術(shù)負(fù)責(zé)人為字節(jié)跳動(dòng)技術(shù)副總裁洪定坤。而字節(jié)跳動(dòng)創(chuàng)始人張一鳴親自牽頭,將去年一年的時(shí)間幾乎全都花在了AI上,從其精力分配上也可以看到字節(jié)跳動(dòng)對(duì)AI業(yè)務(wù)的重視程度。
巧合的是,在Sora問世一周前,字節(jié)跳動(dòng)宣布了一項(xiàng)人事變動(dòng):原抖音集團(tuán)CEO張楠辭去集團(tuán)CEO一職,未來將把精力聚焦在剪映的發(fā)展上。從抖音轉(zhuǎn)到剪映,字節(jié)不愿錯(cuò)過AI視頻的關(guān)鍵風(fēng)口。據(jù)悉,張楠正親自帶隊(duì)尋求在AI輔助創(chuàng)作上有所突破,并計(jì)劃推出一個(gè)AI生成和視頻的產(chǎn)品,但字節(jié)對(duì)此未做更多披露。
張一鳴在2023年公開信中提到,字節(jié)跳動(dòng)無法錯(cuò)過AGI(通用人工智能),并表示AGI可以解決字節(jié)跳動(dòng)的第二曲線增長(zhǎng)困境。字節(jié)在GPT的賽道上已經(jīng)稍顯落后,這次在AI文生視頻領(lǐng)域能否抓住機(jī)遇、“釜底抽薪”實(shí)現(xiàn)自身短視頻業(yè)務(wù)的創(chuàng)新和再次增長(zhǎng),仍需觀望。
阿里近期也是動(dòng)作不斷,短短4個(gè)月內(nèi)連發(fā)6個(gè)新項(xiàng)目,持續(xù)探索AI視頻領(lǐng)域。2023年11月,開源了依據(jù)圖像和文字生成高質(zhì)量視頻的I2VGen-XL,同月發(fā)布了能讓圖中角色跳舞的AnimateAnyone;2023年12月9日發(fā)布了能夠讓圖中角色在任意地點(diǎn)跳舞的DreaMoving,同月與清華大學(xué)、華中科技大學(xué)等聯(lián)合發(fā)布了生成富有表現(xiàn)力頭像的DreamTalk,此外還發(fā)布了使用無文本視頻學(xué)習(xí)的TF-T2V;今年1月,阿里發(fā)布了使用3D模型替換視頻角色的Motionshop。其中,DreamTalk可以被視為EMO的前身。
阿里的模型和Sora相比,更加注重視頻生成模型在具體行業(yè)的應(yīng)用,其重點(diǎn)關(guān)注人物神態(tài)、跳舞等運(yùn)動(dòng)的細(xì)節(jié),在影視、游戲等領(lǐng)域有廣泛的應(yīng)用前景。但正因此,涉及肖像侵權(quán)、被使用在不法路徑的風(fēng)險(xiǎn)也會(huì)加大。
除字節(jié)和阿里外,百度在AI視頻領(lǐng)域也有自己的規(guī)劃部署。去年百度推出過文生視頻工具“度加剪輯”,主要功能包括AI文案、AI提詞、智能字幕,快速剪輯、AI數(shù)字人等,主要是以AI輔助視頻剪輯,為創(chuàng)作者提供便利,在導(dǎo)入素材后提高視頻剪輯效率和觀賞度,并不能直接根據(jù)文本生成視頻。
和度加剪輯相搭配,百度還推出了“度加創(chuàng)作工具”,和剪映的“圖文成片”類似,可以自己直接通過AI生成文案,或者自己撰寫文章,度加提供“AI潤(rùn)色”和“AI擴(kuò)寫”功能,語言較流暢,多采用“三段論”結(jié)構(gòu)。之后平臺(tái)會(huì)直接識(shí)別文字、提供可選擇的視頻素材,以靜態(tài)圖片變換為主。在百度搜索引擎的加持下,AI匹配的素材較豐富。但據(jù)部分使用者體驗(yàn),度加在素材和文案的貼合度上還需提高。
點(diǎn)擊“一鍵成片”之后會(huì)自動(dòng)生成視頻。在視頻編輯頁面,度加會(huì)智能推薦新的素材,同時(shí)素材庫有視頻片段可以替換,比較便捷。視頻生成之后,只能發(fā)布于百家號(hào)。
對(duì)于Sora此次的“來勢(shì)洶洶”,類似于其他大廠,百度未公開發(fā)聲。
不過,百度聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏近日在財(cái)報(bào)電話會(huì)上曾對(duì)AI領(lǐng)域話題有過回應(yīng),他表示,包括文本、音頻和視頻類的多模態(tài)大模型,是未來基礎(chǔ)模型開發(fā)的重要方向,也是AGI的必經(jīng)之路,百度已經(jīng)在這一領(lǐng)域進(jìn)行了投資,并將在未來持續(xù)投入。
“大語言模型的市場(chǎng)是巨大的,而且現(xiàn)在還處于非常早期的階段,即便是最強(qiáng)大的語言模型,對(duì)許多應(yīng)用程序來說,依然不夠好,還有很大的創(chuàng)新空間。”李彥宏說,百度致力于讓更多企業(yè)更容易地獲得大模型服務(wù),以解決各種場(chǎng)景中的現(xiàn)實(shí)問題。
他還特別強(qiáng)調(diào)了自動(dòng)駕駛是視覺大模型重要的應(yīng)用領(lǐng)域,百度一直在訓(xùn)練自動(dòng)駕駛系統(tǒng)的視頻生成模型,從而產(chǎn)生更智能、適應(yīng)性更強(qiáng)、更安全的自動(dòng)駕駛技術(shù)。
21世紀(jì)經(jīng)濟(jì)報(bào)道記者注意到,百度在AI領(lǐng)域的業(yè)務(wù)動(dòng)作,更注重AI工具與實(shí)際應(yīng)用的結(jié)合,關(guān)注AI工具的實(shí)際落地,“希望AI技術(shù)是人人可用的”。
Sora的發(fā)布,無疑給國內(nèi)大廠造成了不小的壓力,但換個(gè)角度想,或許也為各公司提供了一個(gè)行之有效的解題方向。
“我們可能也高估了Sora的泛化能力,到底怎么落到應(yīng)用中去,還不明確?!币晃籄I視頻創(chuàng)業(yè)人士認(rèn)為,國內(nèi)大廠在AI工具的應(yīng)用上,還有作業(yè)空間。
概念股“乘風(fēng)而起”
隨“Sora風(fēng)”而動(dòng)的,還有搭上了Sora概念的A股上市公司。
近來,包括萬興科技、博匯科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信等10 余家A 股上市公司,都曾披露過公司涉足視頻生成模型領(lǐng)域的業(yè)務(wù)情況。
華策影視透露,公司的技術(shù)儲(chǔ)備已可實(shí)現(xiàn)4秒時(shí)長(zhǎng)的文生視頻,自研的編劇助手、劇本評(píng)估、視頻檢索、AI劇照等功能已在內(nèi)部應(yīng)用或內(nèi)測(cè)。與Sora目前60s的文生視頻時(shí)長(zhǎng)相比,華策影視現(xiàn)有技術(shù)還存在差距。
連拉三個(gè)漲停板的因賽集團(tuán)向投資者給出了“公司對(duì)于Sora的看法”等問題的答復(fù)。因賽集團(tuán)表示,公司自研的Insight GPT屬于營銷行業(yè)應(yīng)用層垂類模型,與Sora這類底層通用大模型并不屬于直接競(jìng)爭(zhēng)關(guān)系,反而可以結(jié)合Sora等通用大模型豐富自身視頻素材庫以及提升視頻生成效率和品質(zhì),對(duì)于Sora的出現(xiàn)持樂觀態(tài)度。
但也有多家上市公司公告澄清,并無Sora相關(guān)業(yè)務(wù)布局。睿能科技、國脈文化、華揚(yáng)聯(lián)眾、維海德等多家公司均發(fā)布股票交易異常波動(dòng)公告。其中,睿能科技稱,公司核心技術(shù)和產(chǎn)品不涉及SRAM芯片、Sora等熱點(diǎn)概念;國脈文化、華揚(yáng)聯(lián)眾表示,公司主營業(yè)務(wù)中暫未涉及Sora業(yè)務(wù);維海德稱,公司不涉及文生視頻技術(shù)和產(chǎn)品,近期也沒有從事AI大模型業(yè)務(wù)的布局。
另有上市公司因涉嫌蹭“Sora概念”被交易所問詢。中科金財(cái)借與微軟的合作,聲稱“可率先申請(qǐng)并獲得Sora API訂閱資格”,并由此收獲了漲停板。對(duì)此,深交所要求該公司說明是否存在蹭熱點(diǎn)概念股炒作股價(jià)的情況。中科金財(cái)回復(fù)稱,公司與微軟中國的合作系非獨(dú)家合作,未來能否快速發(fā)展并取得預(yù)期的收入存在較大不確定性。
截至3月8日,涉及Sora概念的公司,多在Sora發(fā)布的一周內(nèi)收獲了不錯(cuò)的股價(jià)漲幅,并在后續(xù)有所回調(diào)。值得注意的是,今年的“Sora概念股”所涉上市公司,部分也在去年因ChatGPT有過一輪股價(jià)上漲,并在去年年中回落。
今年開年,“大模型技術(shù)提振二級(jí)市場(chǎng)表現(xiàn)”的場(chǎng)景重現(xiàn),不知后續(xù)是否會(huì)重演相關(guān)概念股股價(jià)下跌情形。有從業(yè)人士感慨,如果相關(guān)公司在技術(shù)上沒有實(shí)質(zhì)性突破,股價(jià)漲跌也只是一陣“風(fēng)”。
IDC中國研究總監(jiān)盧言霞認(rèn)為,Sora在文生視頻領(lǐng)域真正邁出了第一步,真正做到生成式AI驅(qū)動(dòng)生成短視頻。接下來也將刺激其他科技巨頭加快在該領(lǐng)域的技術(shù)攻關(guān)力度以及產(chǎn)品發(fā)布速度。要全面打開生成式AI的想象力,還是要依托多模態(tài)大模型。Sora的發(fā)布,以及后續(xù)科技巨頭的跟進(jìn),有望對(duì)AI產(chǎn)業(yè)帶來再一輪爆發(fā)式的增長(zhǎng)。
AI視頻賽道是極具未來意義的,AI對(duì)行業(yè)的顛覆性意義正在時(shí)間推進(jìn)中被驗(yàn)證。
不過,產(chǎn)業(yè)鏈足夠長(zhǎng),上下游的機(jī)會(huì)也依然廣。
前述投資人士表示:“AI視頻領(lǐng)域還有很多產(chǎn)業(yè)機(jī)會(huì),視頻的后處理也有一番天地。比如剪映,隨著前面生產(chǎn)的AI內(nèi)容產(chǎn)生量變,剪輯工具的作用也會(huì)變得重要起來?!?/p>
如周鴻祎所言,Sora的成功證明了技術(shù)方向的正確性,OpenAI走對(duì)了方向,一旦方向感確定,國內(nèi)公司會(huì)快速迎頭趕上。
“但是做AI大模型,極其燒錢?!绷碛蠥I創(chuàng)業(yè)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者感慨:“資金和算力,在制約著國內(nèi)公司的腳步?!?/p>