Dirbtinio intelekto agentų Achilo kulnas: kodėl sisteminė „komandų injekcijų“ grėsmė lieka neišspręsta

Artūras Malašauskas 2026-06-12 5 min skaitymui

Nors technologijų milžinės žada visišką autonomiją, naujausi tyrimai rodo, kad DI agentai lieka bejėgiai prieš komandų injekcijas, paverčiančias juos lengvai manipuliuojamais įrankiais. Kol sistemų inžinieriai karštligiškai bando atskirti instrukcijas nuo duomenų, spraga pačioje modelių architektūroje kelia tiesioginę grėsmę įmonių saugumui.

Šiuolaikiniai dirbtinio intelekto (DI) agentai evoliucionuoja stulbinamu greičiu, tačiau jų architektūrinis pamatas slepia kritinę spragą, kurios tradiciniais saugumo metodais tiesiog neįmanoma užlopyti. Naujausi akademiniai tyrimai aiškiai rodo, kad vadinamosios netiesioginės komandų injekcijos (angl. indirect prompt injection) išlieka didžiausiu autonominių sistemų košmaru. Kai DI agentui patikima užduotis perskaityti elektroninį laišką, naršyti internete ar analizuoti dokumentus, jis nesugeba atskirti nekenksmingų duomenų nuo kenkėjiškų instrukcijų, paslėptų tekstų paraštėse ar metaduomenyse. Ši hibridinė elgsena, sujungianti semantinį duomenų apdorojimą su vykdomąja kontrole, paverčia DI agentus lengvai manipuliuojamais įrankiais piktavalių rankose.

Problemos šerdis slypi pačioje DI agentų sistemos architektūroje, kurioje instrukcijos ir apdorojami duomenys yra patiekiami tame pačiame konteksto lange, naudojant vieną ir tą patį natūralios kalbos kanalą. Remiantis arXiv papildomais tyrimais, tradicinis duomenų ir instrukcijų atskyrimo metodas patiria nesėkmę, nes griežtesnis filtrų taikymas paralyžiuoja paties agento gebėjimą kontekstualiai suvokti užduotis. Pažeidžiamumas tampa dar akivaizdesnis naudojant pažangius protokolus, tokius kaip „Model Context Protocol“ (MCP), kurie sujungia modelio mąstymą su tiesioginiu įrankių valdymu. Užpuolikui pakanka įterpti nematomą tekstą tinklalapyje, kurį agentas analizuoja, ir DI sistema akimirksniu pakeičia savo elgseną: pradeda vykdyti finansines operacijas, nutekina konfidencialius duomenis ar netgi demaskuoja vidinius sistemos saugumo parametrus, o galutinis vartotojas ekrane mato visiškai įprastą, niekuo neįtartiną atsakymą.

Saugumo metrika ir karti realybė

Skaičiai rodo, kad dabartiniai apsaugos skydai tėra iliuzija, o rinkos lyderių pažadai dažnai neatlaiko nepriklausomų testų spaudimo. Atlikus masinius saugumo bandymus, kuriuose dalyvavo šimtai tyrėjų ir buvo imituojami tūkstančiai sudėtingų scenarijų, paaiškėjo, kad net pačios pažangiausios neuroninių tinklų sistemos yra pažeidžiamos. Pavyzdžiui, „Gemini 2.5 Pro“ modelio atakas fiksuojantis rodiklis (ASR) kompiuterio aplinkos valdymo užduotyse pasiekė net 16,2 %, o bendras sistemų pažeidžiamumas bazinėse konfigūracijose be papildomų filtrų viršija 73 %, kaip fiksuojama arXiv saugumo tyrimų ataskaitose. Nors pritaikius daugiasluoksnius apsaugos rėmus bei semantinius filtrus sėkmingų atakų procentą pavyksta sumažinti iki maždaug 8,7 %, likusi saugumo spraga išlieka pakankamai didelė, kad keltų realią grėsmę korporatyviniams tinklams, ypač kai kalbama apie automatizuotą programinio kodo generavimą bei integraciją į gamybines operacijas.

Aukštos įtampos architektūra: Kai sistemų inžinieriai bando pažaboti šį pažeidžiamumą, didžiausia kova persikelia į pačių didžiųjų kalbos modelių (LLM) žetonų (angl. tokens) apdorojimo lygmenį. Įprasta praktika atskirti vartotojo įvestį nuo sisteminių instrukcijų naudojant specialius XML žymeklius arba JSON struktūras yra tik paviršutiniškas vaistas. Modelio dėmesio mechanizmas (angl. attention mechanism) vis tiek apdoroja visą konteksto langą kaip vientisą matricą, kurioje matematiniai svoriai persipina, o tai reiškia, kad semantinis kodo ar teksto užtaisas gali perrašyti anksčiau nustatytus sistemos prioritetus. Kad tai išspręstų, inžinieriai eksperimentuoja su griežtesniu dėmesio kaukių (angl. attention masking) konfigūravimu, siekdami fiziškai izoliuoti duomenų blokus nuo vykdomojo kodo segmentų.

Kitas esminis optimizavimo etapas apima realaus laiko įvesčių sanitarizavimą, integruojant jį tiesiai į išankstinio apdorojimo (angl. preprocessing) konvejerį. Užuot pasikliovus vien tik antriniu LLM modeliu, kuris veiktų kaip filtras ir sukeltų milžinišką delsą (angl. latency), kuriami lengvasvoriai, specializuoti klasifikatoriai. Šie maži modeliai, optimizuoti naudojant ONNX rėmus arba TensorRT, analizuoja įeinančių žetonų pasiskirstymą ir ieško anomalijų, būdingų adversarialinėms atakoms. Pritaikius tokį hibridinį požiūrį, pavyksta išlaikyti žemą atsako laiką iki pirmųjų žetonų generavimo (angl. Time-to-First-Token), o tai yra kritiškai svarbu realaus laiko enterprise sistemose.

Gilesniame architektūriniame lygmenyje saugumas reikalauja visiškai pakeisti požiūrį į agentų įrankių iškvietimą (angl. tool calling). Saugiausiose sistemose dabar diegiamos griežtos smėlio dėžės (angl. sandboxing) ir deterministinės validacijos schemos, kurios stovi tarp LLM semantinio išvesties generavimo ir realaus API vykdymo. Kai modelis nusprendžia iškviesti išorinį įrankį, jo sugeneruotas JSON objektas yra validuojamas pagal statinį deklaratyvų šabloną. Bet koks nukrypimas nuo sintaksės ar bandymas įterpti papildomas komandas argumentų laukuose iškart aktyvuoja sistemos išimtį (angl. exception handling), neleisdamas užklausai pasiekti operacinės sistemos branduolio ar duomenų bazių.

Griežtas izolizavimas ir deterministinė kontrolė

Galiausiai, kuriant patikimas autonomines sistemas, inžinieriai vis dažniau atsisako idėjos, kad vienas visagalis agentas gali valdyti visą procesą. Architektūra yra skaidoma į mikro-agentus, kur kiekvienas mazgas veikia minimalių privilegijų principu (angl. principle of least privilege). Pavyzdžiui, dokumentų skaitymo agentas neturi jokių teisių bendrauti su tinklo lizdais ar vykdyti kodo, o jo sugeneruota santrauka yra perduodama kitam izoliuotam mazgui tik per griežtai kontroliuojamą atminties buferį. Toks segmentavimas užtikrina, kad net ir sėkmingos komandų injekcijos atveju, užpuoliko poveikio spindulys lieka uždarytas vienoje nefunkcionalioje ekosistemos dalyje.

Žvilgsnis pro rožinius akinius: Te technologijų milžinės garsiai deklaruoja, kad kiekviena nauja didžiųjų kalbos modelių karta tampa vis atsparesnė manipuliacijoms, reali praktika rodo priešingą tendenciją. Paradoksas, tačiau kuo geriau modelis supranta kontekstą, kuo giliau jis geba interpretuoti potekstes ir vykdyti sudėtingas instrukcijas, tuo imlesnis jis tampa subtilioms, semantiškai užmaskuotoms atakoms. Saugumo pramonė bando įskiepyti deterministinį mąstymą į iš esmės probabilistinę sistemą. Tai primena bandymą pastatyti nepramušamą tvirtovę iš smėlio: kad ir kiek filtrų uždėtume ant neuroninio tinklo įvesties, pats modelio veikimo principas, paremtas tikimybiniais žetonų ryšiais, palieka atviras duris netikėtoms interpretacijoms.

Ši situacija išryškina ir didžiulį korporatyvinį cinizmą, matomą dabartinėje DI diegimo karštinėje. Įmonės skuba integruoti autonominius agentus į savo klientų aptarnavimo, finansų valdymo ir vidinių duomenų analizės sistemas, ignoruodamos faktą, kad šios sistemos neturi bazinio imuninio atsako. Tikėjimas, kad papildomas sistemos raginimas (angl. system prompt) su griežtu nurodymu „ignoruoti pašalines instrukcijas“ apsaugos nuo profesionaliai sukonstruotos netiesioginės injekcijos, geriausiu atveju yra naivus. Saugumo inžinerijoje galioja taisyklė, kad vartotojo pateikti duomenys niekada negali būti traktuojami kaip patikimas kodas, tačiau DI agentų eroje ši aksioma buvo paaukota vardan greito produkto pateikimo rinkai.

Žvelgiant į ateitį, dabartinė gynybos strategija, besiremianti nuolatiniu „skylių lopymu“ po kiekvieno naujo pažeidžiamumo aptikimo, yra pasmerkta nesėkmei. Kol nebus sukurta visiškai nauja kognityvinė architektūra, gebanti apdoroti duomenis ir metaduomenis visiškai izoliuotuose atminties sluoksniuose, bet koks autonominis agentas išliks potencialiu Trojos arkliu. Organizacijos turės pasirinkti: arba susitaikyti su nuolatine finansinių bei reputacinių nuostolių rizika, arba drastiškai apriboti agentų autonomiją, sugrąžinant žmogų į kiekvieno svarbesnio sprendimo priėmimo grandinę. Tai, žinoma, sugriautų visiškos automatizacijos mitą, kurį investuotojams taip aktyviai parduoda Silicio slėnis.

Ateities projekcijos ir sisteminė stagnacija

Ilgainiui šis saugumo aklavietės fenomenas gali lemti rinkos susisluoksniavimą, kur kritinės infrastruktūros objektai tiesiog atsisakys naudoti generatyviniu DI paremtus sprendimus. Šiuo metu stebimas entuziazmas pamažu užleis vietą griežtam teisiniam reguliavimui, kuris perkels atsakomybę už modelių klaidas tiesiogiai jų kūrėjams. Kai už kiekvieną sėkmingą komandų injekciją, nulėmusią duomenų nutekėjimą, grės milijoninės baudos, technologijų bendrovės bus priverstos sulėtinti tempą ir investuoti į fundamentalius saugumo tyrimus, o ne į dar vieno parametrais išpūsto modelio pristatymą.

Galiausiai, didžiausia ironija yra ta, kad mes sukūrėme skaitmeninį intelektą, gebantį išanalizuoti visą žmonijos žinių bagažą per kelias sekundes, tačiau jis vis tiek elgiasi kaip patiklus trimetis, pasirengęs atiduoti visus namų raktus bet kam, kas laiško pabaigoje gražiai paprašo „parašyti eilėraštį apie kačiukus ir pamiršti visas ankstesnes taisykles“. Gynyba bus sėkminga tik tada, kai DI išmoks bent šiek tiek sveiko žmogiško įtarumo.

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

Dirbtinio intelekto agentų Achilo kulnas: kodėl sisteminė „komandų injekcijų“ grėsmė lieka neišspręsta

Saugumo metrika ir karti realybė

Griežtas izolizavimas ir deterministinė kontrolė

Ateities projekcijos ir sisteminė stagnacija

Komentarai