Kaip „xFormers“ technologijos pažaboja didžiųjų kalbų modelių atminties alkį

Artūras Malašauskas 2026-06-17 5 min skaitymui

„Meta“ sukurta „xFormers“ biblioteka skelbia karą didžiųjų kalbų modelių atminties alkiui: tokios inovacijos kaip sujungtos sekos ir GQA leidžia radikaliai sumažinti GPU apkrovą ir išspausti maksimalų žetonų generavimo greitį. Sužinokite, kaip žemo lygio CUDA branduolių optimizavimas paverčia teorinį algoritmų efektyvumą realiu našumo šuoliu gamybinėse sistemose.

Didžiųjų kalbų modelių (LLM) evoliucija mus pastatė prieš paradoksą: norint pasiekti geresnių rezultatų, reikia ilgesnio konteksto ir didesnių parametrų, tačiau tai sukuria milžinišką spaudimą aparatinės įrangos ištekliams. Tradicinė Transformer architektūra kenčia nuo kvadratinio atminties poreikio augimo (O(N²)), priklausomai nuo sekos ilgio. „Meta“ sukurta atvirojo kodo biblioteka xFormers siūlo sprendimus, kurie keičia šią situaciją iš esmės. Tokios inovacijos kaip sujungtos sekos (angl. Packed Sequences) ir grupuoto užklausų dėmesio mechanizmas (angl. Grouped-Query Attention arba GQA) leidžia inžinieriams išspausti maksimalų našumą iš turimų vaizdo plokščių.

Įprastai dirbant su skirtingo ilgio tekstais, trumpesnės sekos dirbtinai papildomos tuščiais žetonais (angl. padding tokens), kad visi duomenų paketai atitiktų maksimalų nustatytą ilgį. Tai ne tik švaisto brangius skaičiavimo resursus, bet ir priverčia modelį apdoroti visiškai nenaudingą informaciją. „xFormers“ šią problemą sprendžia sujungdama kelias trumpas sekas į vieną vientisą srautą (Packed Sequences) ir panaudodama specialią blokų-įstrižainės kaukę (BlockDiagonalMask). Rezultatas stulbinantis – GPU atminties segmentai užpildomi tik realiais duomenimis, visiškai eliminuojant tuščiosios eigos nuostolius.

Efektyvumo inžinerija: nuo dėmesio mechanizmų iki aktyvavimo funkcijų

Kai standartinis kelių galvučių dėmesio mechanizmas (MHA) reikalauja, kad kiekviena užklausos galvutė turėtų atskiras raktų (K) ir reikšmių (V) poras, GQA randa aukso vidurį. Šis metodas sugrupuoja užklausų galvutes ir leidžia joms dalintis bendromis K ir V poromis. Tai radikaliai sumažina KV talpyklos (angl. KV cache) dydį operatyviojoje atmintyje, o tai ypač aktualu vykdant išvadų generavimą realiuoju laiku, kai vienu metu aptarnaujama daug vartotojų užklausų. Mažesnis atminties pralaidumo poreikis tiesiogiai koreliuoja su didesniu žetonų generavimo greičiu.

Architektūrinį efektyvumą dar labiau sustiprina ALiBi (angl. Attention with Linear Biases) pozicijų kodavimas, kuris atsisako tradicinių pozicinių įskiepių. Vietoj to, dėmesio matricai pritaikomas tiesinis poslinkis, proporcingas atstumui tarp žetonų. Tai suteikia modeliui unikalią savybę ekstrapoliuoti – apdoroti ilgesnius tekstus nei tie, su kuriais jis buvo apmokytas, neprarandant konteksto suvokimo kokybės. Kartu su priežastinio dėmesio (angl. Causal Attention) optimizavimu, kuris „xFormers“ bibliotekoje pritaikytas apatinės trikampės matricos principu, skaičiavimai vykdomi tik ateities žetonų prognozavimui, o ne praeities analizei.

Galiausiai, modelio viduje esančios aktyvavimo funkcijos taip pat sulaukė evoliucijos – tradicinius sprendimus pakeitė „SwiGLU“ operatorius. Nors matematiškai ši funkcija reikalauja šiek tiek daugiau parametrų, „xFormers“ bibliotekoje integruoti specializuoti CUDA branduoliai leidžia sujungti (angl. fuse) šias operacijas tiesiogiai aparatinėje įrangoje. Praktiniai testai rodo, kad perėjus nuo standartinės Transformer konfigūracijos prie optimizuoto „xFormers“ paketo, atminties sąnaudos sumažėja nuo kvadratinio iki tiesinio srauto (O(N)), o bendras apmokymo ir išvadų generavimo greitis išauga iki kelių kartų, priklausomai nuo naudojamos GPU architektūros.

Užkulisių inžinerija: Giliausiame techninės įrangos lygmenyje „xFormers“ efektyvumą lemia ne tik matematiniai algoritmai, bet ir preciziškas valdymas, kaip duomenys juda tarp GPU atminties sluoksnių. Tradicinis dėmesio mechanizmas reikalauja tarpinių $Q \times K^T$ matricų įrašymo į globalią vaizdo plokštės atmintį (HBM), o tai sukuria milžinišką pralaidumo badą. „xFormers“ naudoja pažangius CUDA branduolių sujungimus (angl. kernel fusion), kurie leidžia atlikti skaičiavimus vietoje, išnaudojant itin sparčią statinę SRAM atmintį, esančią arčiau skaičiavimo branduolių. Tai reiškia, kad didžioji dalis tarpinių reikšmių yra sunaudojamos ir ištrunka akimirksniu, taip išvengiant brangių skaitymo ir rašymo ciklų į lėtesnę HBM.

Sistemų inžinieriams, optimizuojantiems didelių kalbų modelių infrastruktūrą, didžiausiu galvos skausmu tampa KV talpyklos fragmentacija. Kai sekos yra skirtingo ilgio, dinaminis atminties priskyrimas sukuria „kiaurą“ atminties žemėlapį, panašiai kaip kietojo disko fragmentacija senose operacinėse sistemose. Sujungtų sekų (Packed Sequences) strategija eliminuoja šią problemą iš esmės, nes visi duomenys sugrupuojami į vieną tiesinį masyvą. Kadangi „xFormers“ naudoja pasirinktinius atminties adresavimo rodyklių (angl. pointers) skaičiavimus, modelis tiksliai žino, kur baigiasi vienas sakinys ir prasideda kitas, net jei jie fiziškai dalijasi tuo pačiu atminties bloku.

Gilesnė integracija su aparatinės įrangos registrais

GQA pritaikymas sisteminiame lygmenyje suteikia dar vieną kritinį pranašumą – geresnį Tensor branduolių (angl. Tensor Cores) apkrovimą. Kai naudojamas standartinis Multi-Head Attention, maža paketo dalis (angl. batch size) lemia tai, kad GPU skaičiavimo vienetai dažnai laukia, kol duomenys atkeliaus iš atminties. Grupuojant užklausas, raktų ir reikšmių matricos lieka pastovios kelioms užklausų galvutėms iš eilės, o tai leidžia maksimaliai išnaudoti vaizdo plokštės registrus. Duomenų pakartotinis panaudojimas tiesiogiai registre drastiškai sumažina instrukcijų vėlinimą (angl. latency) ir leidžia pasiekti teorines aparatinės įrangos spartos ribas.

Šis optimizavimo lygis tampa ypač pastebimas kombinuojant „SwiGLU“ aktyvavimo funkcijas su sujungtais CUDA branduoliais. Įprastai šiai funkcijai reikalingi keli nuoseklūs žingsniai: elementų sandauga, sigmoidės skaičiavimas ir papildomas matavimo keitimas. „xFormers“ aplinkoje šios operacijos yra suliejamos į vieną matematinį veiksmą, atliekamą tiesiai registre prieš grąžinant rezultatą į pagrindinę atmintį. Toks sisteminis požiūris paverčia teorinius algoritmų patobulinimus realiu, apčiuopiamu našumo šuoliu, leidžiančiu dramatiškai sumažinti infrastruktūros kaštus palaikant milijonus vartotojų užklausų.

Žvilgsnis už fasado: Nors „xFormers“ siūlomi optimizavimo metodai ant popieriaus atrodo kaip tobula panacėja nuo resursų stygiaus, reali gamybinė aplinka dažnai apnuogina paslėptus inžinerinius kompromisus. Technologijų pramonė yra linkusi pasiduoti aklam entuziazmui dėl tokių architektūrinių sprendimų kaip GQA ar sekų sujungimas, tačiau pamirštama, kad nemokamų pietų nebūna. Sumažintas KV talpyklos dydis ir agresyvus branduolių suliejimas neabejotinai padidina pralaidumą, tačiau tai atliekama modelio išraiškos galios (angl. expressive power) sąskaita. Apribojus raktų ir reikšmių galvučių skaičių, modelis praranda gebėjimą fiksuoti itin subtilius, Tolimojo nuotolio ryšius tarp žetonų, o tai kai kuriais specifiniais kontekstais gali lemti kokybinį regresą.

Kitas prieštaravimas kyla analizuojant „SwiGLU“ ir ALiBi integraciją. Teiginys, kad ALiBi leidžia sėkmingai ekstrapoliuoti kontekstą į begalybę, praktikoje susiduria su griežtomis aparatinės įrangos lubomis. Teoriškai matematinis modelis gali apdoroti dešimteriopai ilgesnę seką, tačiau CUDA branduolių atminties valdymo registrai fiziškai negali išsiplėsti. Kai inžinieriai bando išnaudoti šį lankstumą gamybinėse sistemose, jie dažnai atsitrenkia į netikėtas segmentavimo klaidas (angl. segmentation faults) arba staigų vėlinimo šuolį, nes sujungtų sekų logikai pritrūksta fizinių puslapių SRAM atmintyje. Tai sukuria situaciją, kai programinės įrangos abstrakcija stipriai pralenkia realias silicio galimybes.

Inžinerinio pragmatizmo kaina

Galiausiai, per didelis priklausomumas nuo žemo lygio bibliotekų, tokių kaip „xFormers“, sukuria gilią fragmentaciją pačioje atvirojo kodo bendruomenėje. Kadangi šie CUDA branduoliai yra glaudžiai optimizuoti konkrečioms „Nvidia“ architektūroms (pavyzdžiui, „Hopper“ arba „Blackwell“), kodo perkeliamumas į alternatyvias platformas tampa tikru košmaru. Bandymas paleisti tą pačią sujungtų sekų logiką kitų gamintojų aparatinėje įrangoje dažnai reikalauja visiško žemo lygio kodo perrašymo. Ilgainiui tai gali lemti technologinį aklavietės efektą, kai efektyvumo siekis vardan trumpalaikių tikslų sukuria milžinišką techninę skolą ateičiai.

„Didžiųjų kalbų modelių optimizavimas šiek tiek primena bandymą sutalpinti visą savo gyvenimo mantrą į rankinį bagažą: su xFormers mes idealiai sulankstome marškinius ir išmetame batus, o tada nuoširdžiai stebimės, kodėl susitikime tenka stovėti basomis.“

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

Kaip „xFormers“ technologijos pažaboja didžiųjų kalbų modelių atminties alkį

Efektyvumo inžinerija: nuo dėmesio mechanizmų iki aktyvavimo funkcijų

Gilesnė integracija su aparatinės įrangos registrais

Inžinerinio pragmatizmo kaina

Komentarai