MiniMax M3 architektūros atomizavimas: kaip drastiškai išaugęs greitis keičia multimodalinių modelių rinką
Kinijos dirbtinio intelekto bendrovė „MiniMax“ oficialiai atvėrė savo naujausio flagmano kodą, o šis žingsnis atvirojo kodo bendruomenėje sukėlė tikrą cunamį. Naujasis „MiniMax M3“ modelis, pasižymintis milžiniška 428 milijardų parametrų Mixture-of-Experts (MoE) struktūra, demonstruoja ne šiaip evoliucinį žingsnį į priekį, o tikrą inžinerinį proveržį, tiesiogiai sprendžiantį didžiausią ilgų kontekstų problemą – varginantį latentiškumą. Vystytojai visame pasaulyje gavo įrankį, kuris geba ne tik suprasti iki 1 milijono leksemų (tokens) apimties informaciją, bet ir daro tai stulbinančiu greičiu, keisdamas taisykles multimodaliniame duomenų apdorojime.
Didžiausia šios architektūros paslaptis slypi visiškai naujame, autoriniame „MiniMax Sparse Attention“ (MSA) mechanizme. Kaip savo techninėje analizėje pastebi AtlasCloud-AI, užuot naudojęs standartinį kvadratinį dėmesio algoritmą, kuris tiesiog užspringsta esant dideliems duomenų kiekiams, M3 įdiegė dviejų etapų sistemą su pigiu pirminiu filtravimu. Šis indeksavimo procesas akimirksniu atrenka tik svarbiausius konteksto blokus ir nukreipia skaičiavimus būtent ten, išlaikydamas visišką tikslumą ir nespausdamas Key-Value (KV) atminties. Kas dar svarbiau, multimodališkumas čia nėra priklijuotas vėliau, kaip dažnai būna su kitais modeliais – tekstas, vaizdai ir vaizdo įrašai buvo kartu apmokomi nuo pat nulio naudojant daugiau nei 100 trilijonų persipynusių leksemų duomenų bazę.
Šie architektūriniai sprendimai tiesiogiai konvertuojasi į fantastiškus našumo skaičius. Remiantis oficialia projekto GitHub dokumentacija, esant maksimaliam 1 milijono leksemų kontekstui, per vieną žetoną sunaudojami skaičiavimo resursai susitraukė net iki 1/20, lyginant su ankstesne karta. Praktikoje tai reiškia 9,7 karto spartesnį užklausos apdorojimą (prefill) ir net 15,6 karto greitesnį atsakymo generavimą (decode). Toks spartos šuolis leidžia autonominiams agentams atlikti sudėtingas užduotis be jokių strigimų. Pavyzdžiui, programavimo testuose „SWE-Bench Pro“ modelis pasiekė 59 % rezultatą, o autonominio naršymo benchmarke „BrowseComp“ surinko 83,5 balo, aplenkdamas net ir kai kuriuos uždaro kodo komercinius titanus.
Kodėl tai keičia žaidimo taisykles
Iki šiol programuotojai, norintys dirbti su ištisomis kodų bazėmis ar analizuoti ilgus vaizdo įrašus vienu metu, turėjo rinktis brangius, uždarus API sprendimus. „MiniMax M3“ pasirodymas atviro kodo erdvėje šį barjerą visiškai griauna, nes leidžia „Nvidia Blackwell“ ar „AMD Instinct“ infrastruktūrose sukti sprendimus, kurie realiu laiku, be varginančio laukimo, geba manipuliuoti gigantiškais duomenų kiekiais.
Užkulisių inžinerija: Giliau pasinėrus į „MiniMax M3“ sistemos lygmens optimizavimą, išryškėja stulbinanti aparatinės įrangos ir programinio kodo sinergija. Modelio autoriai atsisakė tradicinio požiūrio į Mixture-of-Experts, kur ekspertai tiesiog aktyvuojami dinamiškai. Vietoj to jie pritaikė specializuotą topologiją su 128 ekspertais, iš kurių kiekvienai leksemai suaktyvinami tik 4. Toks granuliuotas paskirstymas leido inžinieriams suprogramuoti itin efektyvius nestandartinius „CUDA“ branduolius (kernels), kurie optimizuoja atminties pralaidumą ir iki minimumo sumažina laukimo laiką perjungiant skaičiavimo srautus.
Sistemų inžinieriams didžiausią įspūdį daro tai, kaip modelis susidoroja su komunikacijos viršvalandžiais (communication overhead), kurie dažniausiai tampa pagrindiniu MoE architektūrų butelio kakleliu paskirstytose sistemose. „MiniMax M3“ realizuoja pažangų skaičiavimų ir duomenų perdavimo persidengimą, žinomą kaip „All-to-All“ komunikacijos slėpimas. Kol vienas GPU klasterio mazgas dar baigia skaičiuoti esamo sluoksnio eksperto išvestį, kito sluoksnio svoriai jau yra siunčiami per didelės spartos „NVLink“ sąsają, todėl skaičiavimo branduoliai praktiškai niekada nelieka prastovos būsenoje.
Atminties valdymas ir dinaminis kvantavimas
Dirbant su milijono leksemų kontekstu, tradicinis Key-Value (KV) atminties podėlis (cache) išsipučia iki dešimčių ar net šimtų gigabaitų, o tai greitai užpildo net ir galingiausių akceleratorių VRAM. Kad išspręstų šią problemą, inžinieriai įdiegė dinaminį FP8 kvantavimą tiesiai į dėmesio mechanizmo konvejerį. Duomenys yra suglaudinami skrydyje, o tai leidžia sutaupyti iki 75 % atminties vietos neprarandant skaičiavimų tikslumo ir išvengiant brangių konvertavimo operacijų pagrindiniame procesoriaus cikle.
Kitas esminis elementas – pažangus užklausų grupavimas, veikiantis kartu su „FlashAttention“ modifikacijomis. Kai sistema vienu metu apdoroja skirtingo ilgio multimedijos užklausas, pavyzdžiui, tekstinį kodą ir didelės raiškos vaizdo įrašus, „MiniMax M3“ sugeba jas dinamiškai apjungti į vientisus atminties blokus be papildomo užpildymo nuliniais žetonais (padding). Tai eliminuoja tuščius skaičiavimo ciklus, o bendras aparatinės įrangos naudingumo koeficientas (MFU) išauga iki vystytojams nematytų aukštumų.
Galiausiai, multimodalinių duomenų apdorojimas buvo optimizuotas per specialius tiesinės algebros operatorius, kurie sulieja vaizdo ir teksto reprezentacijas dar prieš patenkant į pagrindinius transformerių blokus. Toks ankstyvas sensorinės informacijos hibridizavimas leido atsisakyti atskirų didelių kodavimo modulių, o tai reiškia mažesnį modelio svorį atmintyje ir tiesioginį greičio prieaugį vykdant užklausas gamybinėje aplinkoje.
Žvelgiant giliau į fasadą: Nors „MiniMax M3“ techniniai rodikliai ir įspūdingas atsako greitis žavi atvirojo kodo entuziastus, patyrę sistemų architektai į šią euforiją žiūri su tam tikra doze sveiko skepticizmo. Realybė tokia, kad 428 milijardų parametrų modelis, net ir su itin efektyvia MoE struktūra, kelia milžiniškų iššūkių infrastruktūrai. Teiginys apie „atvirąjį kodą“ tampa labai sąlyginis, kai supranti, jog tokio masto sistemos paleidimui ir sklandžiam veikimui gamybinėje aplinkoje vis tiek reikalingas pramoninio lygio GPU klasteris, o tai automatiškai atkerta smulkiuosius vystytojus bei nepriklausomus tyrėjus.
Kitas svarbus aspektas yra susijęs su paties multimodalinių duomenų apdorojimo kokybe. Spartos padidinimas iki 15 kartų dekodavimo etape yra neabejotinas inžinerinis laimėjimas, tačiau kyla natūralus klausimas, kokią kainą modelis sumoka už šį greitį sudėtingose semantinėse užduotyse. „MiniMax Sparse Attention“ mechanizmas, kuris pirminiame etape agresyviai atmeta „mažiau svarbius“ konteksto blokus, rizikuoja praleisti subtilias, bet kritiškai svarbias detales teisiniuose dokumentuose ar ilgose programinio kodo bazėse, kur viena neteisinga eilutė keičia visos sistemos logiką.
Geopolitiniai ir praktiniai barjerai
Negalima ignoruoti ir geopolitinio konteksto bei techninės dokumentacijos prieinamumo niuansų. Nors pirminiai rezultatai tokiuose testuose kaip „SWE-Bench Pro“ atrodo solidžiai, nepriklausomas šių skaičių patvirtinimas vakarų šalių laboratorijose vis dar yra ankstyvoje stadijoje. Dažnai Azijos technologijų milžinų atverti modeliai kenčia nuo nepakankamos angliškos dokumentacijos ar specifinių pritaikymo apribojimų, todėl globali bendruomenė susiduria su integracijos barjerais, kurių vien tik skambiais pranešimais spaudai neperžengsi.
Be to, masinis perėjimas prie tokių gigantiškų modelių kuria paradoksalią situaciją rinkoje. Kol pramonė garsiai kalba apie energetinį efektyvumą ir mažesnių, specializuotų modelių (SLM) naudą, „MiniMax M3“ demonstruoja, kad norint pasiekti tikrą multimodalinį universalumą, vis dar tenka pasikliauti monstriško dydžio sistemomis. Tai rodo, kad dirbtinio intelekto pasaulis tebėra priklausomas nuo brutualios skaičiavimo galios, o architektūriniai optimizavimai kol kas tik bando sušvelninti šią fundamentalią problemą.
„Atvirojo kodo bendruomenė gavo dar vieną nuostabų Ferrari variklį, tik vargu ar kas nors pasakė, kad norint jį užvesti, teks nusipirkti visą degalinę.“
Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.
Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per
Komentarai