„Google DeepMind“ peržengė standartus: „DiffusionGemma“ modelis tekstą generuoja net 4 kartus greičiau

Artūras Malašauskas 2026-06-11 4 min skaitymui

„Google DeepMind“ pristatė eksperimentinį modelį „DiffusionGemma“, kuris atsisako tradicinių taisyklių ir tekstą vietiniuose kompiuteriuose generuoja net keturis kartus greičiau. Šis proveržis pasiektas pritaikiant vaizdų generatorių difuzijos principus, tačiau kūrėjams teks susitaikyti su pastebimais kokybės kompromisais.

Dirbtinio intelekto pasaulyje vėl keičiasi žaidimo taisyklės, o pokyčių smaigalyje šįkart atsidūrė lokalus teksto generavimo greitis. Technologijų milžinė „Google“ kartu su savo elitiniu padaliniu „Google DeepMind“ oficialiai pristatė eksperimentinį, atvirojo kodo dirbtinio intelekto modelį „DiffusionGemma“. Šis įrankis, platinamas su itin lanksčia „Apache 2.0“ licencija, siūlo iki keturių kartų spartesnį teksto generavimą, palyginti su standartiniais sprendimais, ir yra specialiai subalansuotas kūrėjams bei tyrėjams, norintiems maksimalaus našumo savo vietinėse darbo stotyse.

Šis proveržis pasiektas atsisakiant tradicinio autoregresyvinio metodo, kai tekstas kuriamas nuosekliai, žodis po žodžio iš kairės į dešinę. Vietoj to, naujasis modelis pritaiko difuzijos principus – metodiką, kurią dažniausiai matome vaizdų generatoriuose, kur pradinis triukšmas palaipsniui paverčiamas aiškiu paveikslėliu. Kaip savo oficialioje apžvalgoje paaiškina Google Blog, modelis vienu metu generuoja ir sinchroniškai šlifuoja ištisus 256 žetonų (angl. tokens) tekstinius blokus. Toks lygiagretus procesas leidžia pasiekti stulbinamą daugiau nei 1000 žetonų per sekundę greitį naudojant „NVIDIA H100“ vaizdo plokštę.

Techninė architektūra ir vietinio skaičiavimo galia

„DiffusionGemma“ yra sukurta remiantis neseniai išleistos „Gemma 4“ šeimos pamatu ir pažangiais „Gemini Diffusion“ tyrimais. Architektūriniu požiūriu tai yra 26 milijardų parametrų mišri ekspertų (MoE) sistema. Vis dėlto, vykdant užklausas, modelis aktyvuoja tik 3,8 milijardo parametrų, o tai drastiškai sumažina reikalingus techninės įrangos išteklius. Kūrėjams iš NVIDIA glaudžiai bendradarbiaujant su „Google“, modelis buvo optimizuotas taip, kad suvartotų vos apie 18 GB vaizdo atminties (VRAM) po kvantavimo – tai reiškia, kad jį be jokių problemų galima paleisti aukščiausios klasės vartotojų kompiuteriuose su „GeForce RTX 5090“ ar RTX 4090 vaizdo plokštėmis.

Kadangi difuzijos technologija perkels pagrindinį našumo butelio kakliuką nuo atminties pralaidumo link grynosios procesoriaus skaičiuojamosios galios, vaizdo plokštės pagaliau išnaudojamos maksimaliai. Dar viena įspūdinga savybė – dvikryptis dėmesys (angl. bi-directional attention). Tai leidžia modeliui teksto tikslinimo metu analizuoti visą bloką iškart, realiuoju laiku taisyti savo paties klaidas ir idealiai užbaigti sudėtingus kodo ar „Markdown“ formatavimo elementus.

Greičio kaina: kompromisas, kurį verta žinoti

Kaip pastebi technologijų leidinio Ars Technica ekspertai, šis milžiniškas greičio šuolis turi savo kainą. „Google“ neslepia, kad „DiffusionGemma“ pagal bendrą generuojamo teksto kokybę ir loginius gebėjimus kol kas nusileidžia standartiniams „Gemma 4“ modeliams. Todėl gamybinėms aplinkoms, kur kritiškai svarbus kiekvienas faktas ir loginė seka, vis dar rekomenduojama rinktis tradicinius autoregresyvinius modelius.

Šis įrankis pirmiausia skirtas tiems scenarijams, kur greita interakcija yra svarbesnė už absoliutų protingumą: tiesioginiam kodo papildymui, greitam turinio iteravimui ar nestruktūrizuotų tekstų redagavimui lokaliose sistemose. Modelio svoriai jau dabar yra laisvai prieinami populiariose platformose, įskaitant „Hugging Face“, taip pat yra palaikomi populiarių variklių, tokių kaip „vLLM“, „MLX“ bei „Unsloth“, leidžiančių entuziastams iškart išbandyti šią naujos kartos technologiją savo kailiu.

Nematoma techninė revoliucija: už skambių antraščių apie keturiskart išaugusį greitį slepiasi kur kas gilesnis tektoninis lūžis, kuris gali visiškai pakeisti asmeninių kompiuterių ir dirbtinio intelekto sąveiką. Iki šiol visi populiarūs didieji kalbos modeliai (LLM) veikė tarsi senoviniai metraštininkai – jie skaitė ir rašė tekstą po vieną simbolį ar žodžio dalį, nesugebėdami matyti ateities tekstinio konteksto. „Google DeepMind“ inžinieriai, pritaikydami vaizdų generavime ištobulintą difuzijos metodą tekstui, iš esmės sugriovė šią dešimtmečius gyvavusią paradigmą. Tai eksperimentas, kurio sėkme ilgą laiką abejojo didelė dalis akademinės bendruomenės, mat tekstas, kitaip nei skaitmeniniai pikseliai, yra diskretus ir netoleruoja net smulkiausių semantinių klaidų.

Šis pokytis iš esmės keičia kompiuterių geležies apkrovos pobūdį, o tai sukelia didžiulį entuziazmą puslaidininkių pramonėje. Įprasti autoregresyviniai modeliai yra stabdomi ne procesoriaus spartos, o atminties pralaidumo (angl. memory bandwidth) apribojimų – vaizdo plokštė turi nuolat iš naujo nuskaityti visus modelio svorius iš atminties vien tam, kad sugeneruotų vieną vienintelį sekantį žodį. „DiffusionGemma“ šį barjerą apeina, nes vienu ypu apdoroja milžiniškus duomenų masyvus. NVIDIA inžinieriai jau dabar pastebi, kad atvėrus šį technologinį kelią, šiuolaikiniai grafiniai procesoriai pagaliau galės dirbti maksimaliu pajėgumu, užuot pusę laiko praleidę „bado režime“, laukdami duomenų iš atminties mikroschemų.

Atvirojo kodo bendruomenės reakcija ir lokalumo filosofija

Nepriklausomi programinės įrangos kūrėjai ir „Hugging Face“ ekosistemos entuziastai šį žingsnį vertina kaip tiesioginį „Google“ atsakymą į stiprėjančią „Meta“ poziciją atvirojo kodo erdvėje. Suteikdama visišką laisvę eksperimentuoti su modelio architektūra per „Apache 2.0“ licenciją, bendrovė siekia, kad būtent jos ekosistemoje gimtų nauji optimizavimo algoritmai. Istorija rodo, kad bendruomenė sugeba per kelias savaites pritaikyti ir patobulinti modelius taip, kaip didžiosios korporacijos nespėja per kelis mėnesius, ypač kai kalbama apie modelių pritaikymą veikti silpnesnėje aparatinėje įrangoje.

Kita vertus, ši technologinė kryptis stiprina vadinamąjį „lokalaus AI“ judėjimą, kurio šalininkai reikalauja visiško privatumo ir nepriklausomybės nuo debesų serverių. Galimybė generuoti tūkstančius žodžių per sekundę nesiunčiant jokių duomenų į išorinius serverius yra kritinis veiksnys finansų, teisės ir medicinos sektoriuose. Teisininkai ar programuotojai gali analizuoti konfidencialius dokumentus ar patentuotą kodą tiesiai savo nešiojamuosiuose kompiuteriuose, visiškai nerizikuodami informacijos nutekėjimu, o tai sukuria precedentą visiškai naujai programinės įrangos klasei.

Vis dėlto, entuziazmą šiek tiek slopina kokybės kompromisai, kuriuos dabar bando išspręsti „DeepMind“ tyrėjai. Kadangi modelis generuoja tekstą blokais ir vėliau jį tikslina, jis kartais praranda ilgalaikę pasakojimo giją arba daro logines klaidas sudėtingose argumentacijos grandinėse. Tai rodo, kad difuzijos technologija teksto srityje dar tik žengia pirmuosius žingsnius. Šis modelis nėra galutinis produktas masiniam vartotojui, o veikiau veikiantis koncepcijos įrodymas, nubrėžiantis gaires ateities tyrimams, kur greitis ir intelektas galiausiai ras idealią pusiausvyrą.

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

„Google DeepMind“ peržengė standartus: „DiffusionGemma“ modelis tekstą generuoja net 4 kartus greičiau

Techninė architektūra ir vietinio skaičiavimo galia

Greičio kaina: kompromisas, kurį verta žinoti

Atvirojo kodo bendruomenės reakcija ir lokalumo filosofija

Komentarai