无码人妻久久一区二区三区99灬,天堂在线最新版资源www中文,国产目拍亚洲精品99

首頁 > 科技 > 正文

MiniMax挑戰(zhàn)Transformer架構(gòu)，要做AI agent時代的新基建？業(yè)內(nèi)稱沒有改變本質(zhì)，尚需應(yīng)用共識

2025-01-17 09:00:20 21世紀(jì)經(jīng)濟報道 21財經(jīng)APP 鄧浩

21世紀(jì)經(jīng)濟報道記者鄧浩上海報道

近期基礎(chǔ)大模型領(lǐng)域熱點不斷，先是量化巨頭幻方上線全新系列模型DeepSeek-V3首個版本上線并同步開源，以極低訓(xùn)練成本引發(fā)海內(nèi)外對大模型經(jīng)濟性的廣泛討論。

1月15日，本土“大模型六小龍”之一的MiniMax發(fā)布并開源了MiniMax-01全新系列模型，第一次大規(guī)模實現(xiàn)線性注意力機制，直接挑戰(zhàn)傳統(tǒng)的Transformer架構(gòu)，再一次在行業(yè)掀起巨浪。

某大模型領(lǐng)域?qū)＜覍τ浾呓忉?，“傳統(tǒng)的Transformer的注意力機制的計算復(fù)雜度隨著序列長度的增加而呈二次增長，所以做長文本效率很低。MiniMax一直在做’線性注意力機制’這一套，做了比較大的改進，從而可以做到400萬token的超長上下文?！?/p>

也有不少業(yè)內(nèi)人士對記者表示，MiniMax的創(chuàng)新可以增強現(xiàn)有方法的效率，但沒有改變本質(zhì)。實際效果還需要應(yīng)用的驗證和共識。

創(chuàng)新大模型增強效率

此前，MiniMax一直選擇閉源，外界對其技術(shù)細節(jié)知之甚少，沒想到這一次上手即是“王炸”。

不僅采用全新架構(gòu)，而且實現(xiàn)綜合性能比肩海外頂尖模型。據(jù)MiniMax透露，該模型的參數(shù)量高達4560億個，其中單次激活459億個。能夠高效處理全球最長400萬token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

為什么需要這么大的窗口處理能力？

事實上，在處理長文本內(nèi)容、復(fù)雜任務(wù)的高效執(zhí)行以及應(yīng)對多模態(tài)\跨模態(tài)任務(wù)等情況時，越高的信息處理能力越能讓模型充分理解需求，從而得到更優(yōu)的結(jié)果。

雪浪云高級副總裁、雪浪工業(yè)軟件研究院副院長郭翹就對記者表示，“我們已經(jīng)積累了不少工業(yè)語料，相當(dāng)于工業(yè)場景數(shù)據(jù)，可以很快測試一些基礎(chǔ)大模型的能力，而上下文的長度是非常重要的指標(biāo)?！?/p>

為什么可以做到？關(guān)鍵在于其使用了基于線性注意力機制的新架構(gòu)，其中每8層中有7個是基于Lightning Attention的線性注意力，有1層是傳統(tǒng)的SoftMax注意力。

用個通俗的比喻，假如我們需要在一個裝滿卷軸的藏寶箱，找出一個與寶藏位置最相關(guān)的卷軸。傳統(tǒng)的注意力機制類似于一群賞金獵人，每一個獵人會把手里的每一個卷軸都與其他所有卷軸依次做比較，隨著卷軸書數(shù)量的增多，工作量會呈平方級增長。

而線性注意力機制相當(dāng)于一位聰明的考古學(xué)家，他用一套相對簡單的辦法，依次對這些卷軸進行檢閱，不斷記錄并累計對線索的理解，最后得出綜合判斷。這個工作量是隨著卷軸增加而線性增長的，相對更高效。

MiniMax稱，主要“受益于我們的架構(gòu)創(chuàng)新，我們的模型在處理長輸入的時候有非常高的效率，接近線性復(fù)雜度?！倍?，MiniMax還在技術(shù)論文中透露，“我們正在研究更高效的架構(gòu)，以期完全摒棄softmax注意力機制，從而有可能實現(xiàn)無計算負擔(dān)的無限上下文窗口?！?/p>

況客科技（北京）有限公司管理合伙人安嘉晨對記者表示，“（MiniMax的影響）現(xiàn)在談可能還為之過早，之前很多類似的其實最終沒有成功證明自己比transformer好，這個需要應(yīng)用的驗證和共識?！?/p>

某硅谷技術(shù)專家也對記者分析，“從去年開始，硅谷一直在詬病Transformer架構(gòu)，認(rèn)為沒辦法商用，成本消耗太大。Minimax的模型本質(zhì)是對現(xiàn)有方法效率的增強，但是沒有改變本質(zhì)?！?/p>

對于MiniMax來說，花費巨大精力和成本構(gòu)建這個全新的架構(gòu)，有著更大的野心。

MiniMax直言，“我們相信2025年會是Agent高速發(fā)展的一年，不管是單Agent的系統(tǒng)需要持續(xù)的記憶，還是多Agent的系統(tǒng)中Agent之間大量的相互通信，都需要越來越長的上下文。在這個模型中，我們走出了第一步，并希望使用這個架構(gòu)持續(xù)建立復(fù)雜Agent所需的基礎(chǔ)能力。”

不過，上述硅谷技術(shù)專家表示并不太認(rèn)可這個說法，其認(rèn)為“就單純AI agent來說，其實用不了太多的token，幾千個足夠了。多模態(tài)會需要，但技術(shù)還沒到這個點上?！?/p>

安嘉晨則坦言，“MiniMax的應(yīng)用很成功，星野之類的APP，但是（Agent）用模型的話，我覺得競爭還是很激烈的，現(xiàn)在很難說誰比誰明顯領(lǐng)先多少?！?/p>

開源、口碑與性價比

其實，在基礎(chǔ)大模型領(lǐng)域，自從OpenAI推出O1和O3模型之后，產(chǎn)業(yè)界和投資界都逐漸形成新的共識，Scaling Law已經(jīng)趨緩，預(yù)訓(xùn)練模型熱度開始轉(zhuǎn)向推理模型。

前述硅谷技術(shù)專家稱，“預(yù)訓(xùn)練大模型，現(xiàn)在大家有一個統(tǒng)一的共識，還沒辦法轉(zhuǎn)化成真實的生產(chǎn)力，性價比極不合適。投資人也有點慌，因為不知道要燒（錢）到什么時候?！?/p>

最近的案例是李開復(fù)的零一萬物，李開復(fù)公開表態(tài)，只有大廠能燒超大的模型，“我們覺得要和一個燒得起大模型的大廠合作，以后超大的模型由阿里訓(xùn)練，我們就可以用小而精的團隊來做小而便宜的模型，擁抱應(yīng)用的爆發(fā)?！?/p>

實際上，商業(yè)化是擺在現(xiàn)在大模型初創(chuàng)公司面前的一條必答題。

除了零一萬物，月之暗面、百川智能、智譜AI等也在加速探索B端業(yè)務(wù)的變現(xiàn)，而MiniMax相對比較另類，2023年6月和9月，其相繼在海外和國內(nèi)上線AI陪伴產(chǎn)品“Talkie”、“星野”。2024年5月上線C端產(chǎn)品“海螺AI”，作為生產(chǎn)力助手。此前有媒體預(yù)測，MiniMax2024年收入預(yù)計達到7000萬美元，而大部分收入來自Talkie的廣告。

該硅谷技術(shù)專家透露，“Minimax在國內(nèi)比較猶豫，但在海外愿意花錢去租GPU，可以側(cè)面印證海外收入還不錯?！?/p>

實際上，某熟悉MiniMax的業(yè)內(nèi)人士曾對記者表示，由于MiniMax創(chuàng)始團隊出身傳統(tǒng)AI四小龍，吃過不少B端的“虧”，比如項目制開發(fā)，無法規(guī)?；龃?，利潤微薄，因此其在大模型領(lǐng)域創(chuàng)業(yè)時特別注重商業(yè)變現(xiàn)。

可是，現(xiàn)在價格內(nèi)卷也開始在預(yù)訓(xùn)練模型不斷蔓延，如何在白菜價中實現(xiàn)規(guī)模盈利，仍將繼續(xù)考驗入局的玩家。

MiniMax稱，“受益于架構(gòu)的創(chuàng)新、效率的優(yōu)化、集群訓(xùn)推一體的設(shè)計以及我們內(nèi)部大量并發(fā)算力復(fù)用，我們得以用業(yè)內(nèi)最低的價格區(qū)間提供文本和多模態(tài)理解的API，標(biāo)準(zhǔn)定價是輸入token 1元/百萬token，輸出token 8元/百萬token?！?/p>

對于業(yè)內(nèi)比較關(guān)心的開源問題，MiniMax解釋，“選擇開源，一是因為我們認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用，從而更快促進Agent時代的到來，二是開源也能促使我們努力做更多創(chuàng)新，更高質(zhì)量地開展后續(xù)的模型研發(fā)工作?！?/p>

前述硅谷技術(shù)專家對此表示，“我覺得大模型開源，主要還是做口碑。特別是在中國，一旦開源，客戶的選擇成本會很低。而且后續(xù)也可以有延伸的增值服務(wù)?！?/p>

安嘉晨也認(rèn)為，“閉源模型要盈利，就只能卷性能，但卷性能和盈利這兩者幾乎很難平衡，也許只有少數(shù)的一兩個才能堅持閉源且盈利；開源的話，卷性能的需求下降了，自然成本壓力也能緩釋，還有可能占個生態(tài)位，未來還有建立商業(yè)模式的可能性?！?/p>

郭翹則對記者分析，“我們只關(guān)注開源模型，為什么不用閉源（模型）？因為制造業(yè)的客戶更關(guān)心數(shù)據(jù)安全，必須要保證私有化部署，而閉源模型通常是提供網(wǎng)絡(luò)接口，通過公有云服務(wù)，這是B端客戶不太容易接受的?！?/p>

MiniMax挑戰(zhàn)Transformer架構(gòu)，要做AI agent時代的新基建？業(yè)內(nèi)稱沒有改變本質(zhì)，尚需應(yīng)用共識

MiniMax挑戰(zhàn)Transformer架構(gòu)，要做AI agent時代的新基建？業(yè)內(nèi)稱沒有改變本質(zhì)，尚需應(yīng)用共識