Google pristatė „DiffusionGemma“: dirbtinio intelekto modelis, atsisakantis tradicinio tekstų rašymo principo

Artūras Malašauskas 2026-06-13 5 min skaitymui

„Google DeepMind“ meta iššūkį dešimtmečius gyvavusiems AI standartams ir pristato „DiffusionGemma“ modelį, kuris tekstą kuria nebe po vieną žodį, o žaibiškais blokais. Šis eksperimentinis atvirojo kodo kūrinys pasiekia stulbinantį greitį, tačiau inžinieriams teks gerokai pasukti galvas, kaip paaukota teksto kokybė neatbaidytų realaus verslo investicijų.

Kompanijos „Google DeepMind“ mokslininkai žengė ambicingą žingsnį į priekį, oficialiai pristatydami eksperimentinį atvirojo kodo modelį „DiffusionGemma“, kuris iš esmės keičia dešimtmečius gyvavusį generatyvinio dirbtinio intelekto standartą. Jei įprasti didieji kalbos modeliai tekstą dėlioja nuosekliai – žodis po žodžio, lyg nematoma rašomoji mašinėlė – tai šis naujas technologinis kūrinys informaciją apdoroja visiškai kitaip. Jis vienu metu kuria ištisus teksto blokus, pasitelkdamas difuzijos metodus, panašiai kaip vaizdų generatoriai kuria skaitmenines iliustracijas iš triukšmo.

Šis esminis posūkis buvo paskelbtas oficialiame Google Blog pranešime. Modelis sukonstruotas remiantis „Gemma 4“ architektūra ir pasiekia iki 4 kartų spartesnį teksto generavimo greitį dedikuotose vaizdo plokštėse (GPU). Inžinierių bendruomenei tai reiškia milžinišką kokybinį šuolį, ypač optimizuojant vietines (angl. local workflows) užduotis be papildomos delsos, kuri dažnai lydi debesų kompiuterijos sprendimus.

Technologinis proveržis: kaip veikia nenuoseklusis apdorojimas

Tradiciškai tekstiniai modeliai kenčia nuo atminties pralaidumo ribojimų, nes kiekvieno naujo žodžio numatymui vaizdo plokštė turi iš naujo nuskaityti modelio svorius. „DiffusionGemma“ šį procesą perkelia į pačių skaičiavimo branduolių (angl. compute-bound) lygmenį. Modelis sugeneruoja 256 žetonų (angl. tokens) dydžio „drobę“ ir ją iteratyviai tobulina per kelis praėjimus, vienu metu analizuodamas kontekstą abiem kryptimis.

Dviejų krypčių dėmesio (angl. bidirectional attention) mechanizmas leidžia modeliui matyti ne tik tai, kas parašyta prieš tai, bet ir numatyti būsimą tekstą. Tokiu būdu dirbtinis intelektas įgyja unikalią savikorekcijos savybę: pastebėjęs loginiame bloke klaidą, jis gali grįžti ir ją ištaisyti dar prieš pateikdamas galutinį rezultatą vartotojui.

Greitis prieš kokybę: aiškūs kompromisai

Pasak kūrėjų išplatintos techninės dokumentacijos, pasiekiami greičio rezultatai išties įspūdingi. Naudojant vieną „Nvidia H100“ vaizdo akceleratorių, modelis sugeba generuoti daugiau nei 1000 žetonų per sekundę, o vartotojų klasės „RTX 5090“ plokštėje greitis viršija 700 žetonų per sekundę. Tai atveria duris žaibiškam kodo pildymui ar interaktyviam tekstų redagavimui realiuoju laiku.

Vis dėlto, „Google“ atvirai pripažįsta, kad už šį neįtikėtiną greitį tenka susimokėti kokybės kaina. Standartiniuose testuose „DiffusionGemma“ kol kas nusileidžia tradiciniam „Gemma 4“ modeliui, todėl kritinėms gamybinėms aplinkoms, kur tikslumas yra svarbesnis už milisekundes, vis dar rekomenduojami klasikiniai nuoseklūs modeliai. Produktas platinamas pagal laisvą „Apache 2.0“ licenciją, tad tyrėjai ir programuotojai visame pasaulyje jau dabar gali nemokamai eksperimentuoti su šia nauja architektūros atmaina.

Giliau į užkulisius: tikroji priežastis, kodėl „Google“ ryžosi šiam radikaliam eksperimentui, slypi ne tik noru pasiekti naują greičio rekordą, bet ir varginančioje kovoje su fizikos dėsniais. Dešimtmetį dirbtinio intelekto pasaulyje dominavusi „Transformer“ architektūra pasiekė savotišką efektyvumo aklavietę. Kiekvieną kartą, kai dabartiniai pokalbių robotai generuoja po vieną raidę ar žodį, milžiniški duomenų masyvai turi būti vėl ir vėl pervaromi per vaizdo plokštės atmintį, o tai sukelia vadinamąjį „atminties pralaidumo butelio kakliuką“. Švystelėdama tekstą ištisais blokais, „DiffusionGemma“ iš esmės keičia kompiuterio išteklių naudojimo logiką.

Šis pokytis sulaukė itin gyvų diskusijų silicio slėnio inžinierių bendruomenėje. Kol vieni kūrėjai džiūgauja dėl galimybės dramatiškai sumažinti serverių išlaikymo kaštus, skeptikai primena apie ankstesnius bandymus pritaikyti difuzijos modelius kalbos apdorojimui, kurie dažniausiai baigdavosi nesėkme dėl kalbos struktūros sudėtingumo. Vaizdo generavime nedidelis triukšmas ar neryškus pikselis fone yra toleruotinas, tačiau tekste viena neteisinga raidė arba praleistas kablelis gali visiškai pakeisti programinio kodo prasmę arba teisinio dokumento esmę. Būtent todėl „Google DeepMind“ komanda turėjo sukurti visiškai naujus diskrečiosios difuzijos algoritmus, kad suvaldytų šį chaosą.

Istorinis kontekstas ir pramonės pasipriešinimas

Žvelgiant iš istorinės perspektyvos, ši premjera primena ankstyvąsias diskusijas dėl pačių „Transformer“ modelių atsiradimo 2017 metais. Tuomet pramonė taip pat nepatikliai žiūrėjo į idėją atsisakyti pasikartojančių neuroninių tinklų (RNN). Šiandien stebime panašią transformaciją, kurioje „Google“ bando susigrąžinti fundamentaliosios mokslo lyderės statusą, pastaruoju metu kiek užleistą „OpenAI“ ir „Anthropic“ bendrovėms. Strateginis sprendimas išleisti „DiffusionGemma“ su atviruoju kodu rodo siekį sutelkti nepriklausomų tyrėjų pajėgas, kad šie padėtų išspręsti dabartines modelio tikslumo problemas.

Didžiausias iššūkis, su kuriuo dabar susiduria technologijos autoriai, yra vadinamasis semantinis nenuoseklumas ilguose tekstuose. Kadangi modelis vienu metu priima sprendimus dėl kelių šimtų žodžių ateities, teksto pradžia kartais logiškai nedera su pabaiga, jei konteksto langas tampa per didelis. Nepaisant to, didieji techninės įrangos gamintojai jau dabar optimizuoja savo būsimų mikroschemų architektūras būtent tokio tipo skaičiavimams, suprasdami, kad ateities dirbtinis intelektas nebegali mąstyti lėtu, linijiniu žmogaus rašymo greičiu.

Žvelgiant giliau į skaičius: nepaisant garsiai skambančių antraščių apie revoliuciją, technologijų pramonė privalo atskirti rinkodaros entuziazmą nuo realios inžinerinės tikrovės. Keturis kartus didesnis greitis popieriuje skamba įspūdingai, tačiau jis atskleidžia fundamentalų prieštaravimą, kurį „Google“ bando užglaistyti. Tradiciniai kalbos modeliai veikia nuosekliai būtent todėl, kad pati žmonių kalba ir mąstymas yra linijiniai procesai. Bandymas priversti algoritmą mąstyti „nenuosekliai“ ir lipdyti pastraipas iš abiejų galų vienu metu yra techniškai žavus triukas, tačiau jis sukuria dirbtinį barjerą ten, kur jo labiausiai nereikia – teksto logikoje.

Šis eksperimentas taip pat išryškina didėjančią takoskyrą tarp akademinių ambicijų ir praktinio pritaikymo versle. Šiuo metu nė viena didelė korporacija nerizikuos integruoti modelio, kuris, nors ir veikia žaibiškai, vis dar linkęs daryti grubias faktines klaidas svarbiose užduotyse. „Google“ strategija pateikti „DiffusionGemma“ kaip atvirąjį kodą iš tikrųjų gali būti ne dosnumo aktas, o subtilus bandymas perkelti brangius modelio tobulinimo ir klaidų taisymo kaštus ant entuziastų bei nepriklausomų tyrėjų pečių, patiems nerizikuojant savo pagrindinių komercinių produktų reputacija.

Algoritmų lenktynės ir ateities scenarijai

Jei ši architektūra ilgainiui nesugebės pasiekti dabartinių „Transformer“ modelių tikslumo lygio, ji rizikuoja tapti dar viena technologine aklaviete, panašiai kaip kai kurie ankstesni neuroninių tinklų eksperimentai. Pramonės stebėtojai pastebi, kad vartotojai yra linkę palaukti kelias sekundes ilgiau, jei rezultatas bus nepriekaištingas, nei gauti akimirksniu sugeneruotą, bet sunkiai suprantamą teksto fragmentą. Vis dėlto, šis bandymas gali duoti postūmį hibridinių sistemų atsiradimui, kur greiti difuzijos modeliai atliks tik pirminį „juodraščio“ eskizavimą, o tradiciniai modeliai jį vėliau nugludins.

Galutinis šio eksperimento vertinimas priklausys nuo to, kaip greitai pavyks sumažinti kokybės atotrūkį. Jei „DeepMind“ komandai pavyks rasti balansą tarp nenuoseklaus apdorojimo greičio ir semantinio tikslumo, mes stebėsime visišką aparatinės įrangos reikalavimų pasikeitimą. Priešingu atveju, „DiffusionGemma“ liks tik įdomiu moksliniu straipsniu ir įrodymu, kad greičiausias kelias ne visada nuveda į tikslą, ypač kai bandoma pergudrauti pačią kalbos logiką.

Galiausiai, „Google“ sukūrė puikų įrankį tiems, kam skubėti yra svarbiau nei pataikyti į temą. Tai idealus sprendimas, jei jūsų tikslas – parašyti visiškai neteisingą ataskaitą, bet padaryti tai keturis kartus greičiau už savo kolegas.

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

Google pristatė „DiffusionGemma“: dirbtinio intelekto modelis, atsisakantis tradicinio tekstų rašymo principo

Technologinis proveržis: kaip veikia nenuoseklusis apdorojimas

Greitis prieš kokybę: aiškūs kompromisai

Istorinis kontekstas ir pramonės pasipriešinimas

Algoritmų lenktynės ir ateities scenarijai

Komentarai