Struktūros valdymo menas: gilus „Docling Parse“ konvejerio architektūros tyrimas

Artūras Malašauskas 2026-06-16 5 min skaitymui

Dokumentų struktūros supratimas pagaliau įžengė į determinizmo erą: „Docling Parse“ konvejerio architektūra įrodo, kad chaotiškus PDF failus galima paversti švariais mašininiais duomenimis be brangiai kainuojančio LLM tokenų švaistymo. Šis gilus techninis tyrimas atskleidžia, kaip išmanus giliojo mokymosi modelių ir žemo lygio optimizavimo derinys sprendžia sudėtingiausias finansų bei medicinos duomenų gavybos problemas.

Šiuolaikinis dirbtinis intelektas jau išmoko skaityti tekstą, tačiau suprasti dokumento struktūrą jam vis dar yra tikras iššūkis. Kai finansų analizės ataskaitoje arba sudėtingame sveikatos apsaugos protokole informacija išmėtoma keliuose stulpeliuose ar paslepiama painiose lentelėse, tradiciniai optinio simbolių atpažinimo įrankiai kapituliuoja. Būtent čia į sceną žengia IBM Docling projektas, pasiūlydamas visiškai naują požiūrį į maketo struktūrą suprantantį (angl. layout-aware) dokumentų apdorojimą. Šios technologijos šerdis yra „Docling Parse“ konvejerio architektūra, kuri laužo standartinius rėmus ir paverčia chaotiškus PDF failus švariais, mašinai nuskaitomais duomenimis.

Užuot tiesiog aklai rikiuavęs žodžius iš kairės į dešinę, šis įrankis veikia tarsi patyręs tipografas. Viskas prasideda nuo modulinės sistemos, kurioje lygiagrečiai veikia specializuoti giliojo mokymosi modeliai. Puslapio geometrija analizuojama pasitelkiant pažangų „DocLayNet“ maketo modelį, kuris akimirksniu identifikuoja antraštes, pastraipas bei izoliuoja lenteles. Kai tik sistemoje aptinkama lentelė, jos vaizdo fragmentas perduodamas „TableFormer“ neuroniniam tinklui, gebančiam tiksliai atsekti eilučių bei stulpelių ribas. Kaip nurodoma oficialioje Docling arXiv techninėje ataskaitoje, visi šie atskiri elementai sujungiami į vientisą objekto modelį (DoclingDocument), išlaikantį originalią skaitymo logiką ir semantinius ryšius.

Nuo išmanios architektūros iki skaičių fiksavimo finišo tiesiojoje

Didžiausias šios architektūros pranašumas yra tas, kad ji sugeba išvengti brangiai kainuojančio pakartotinio teksto perrašymo iš vaizdų. „TableFormer“ sugeneruotos struktūros prognozės vėliau, pavyzdžiui, poapdorojimo etape, tiesiogiai susiejamos su programinio PDF failo teksto ląstelėmis. Tai ne tik dramatiškai padidina tikslumą, bet ir tiesiogiai atsispindi našumo metrikoje. Standartiniame centriniame procesoriuje (CPU) tipiška lentelė, priklausomai nuo jos tankumo, suvirškinama vos per 2–6 sekundes, o tai yra milžiniškas šuolis į priekį, palyginti su senosios kartos sistemomis. Verslo mastu tai reiškia tūkstančių puslapių apdorojimą per minutes, o ne valandas, atveriant kelią kokybiškam duomenų tiekimui į generatyvinio AI ir RAG (Retrieval-Augated Generation) sistemas.

Auksinė inžinerijos taisyklė: efektyvus dokumentų apdorojimas sistemos lygmeniu reikalauja ne tik tikslių modelių, bet ir optimalaus išteklių paskirstymo. „Docling Parse“ branduolys yra parašytas naudojant „Python“ programavimo kalbą, tačiau visi kritiniai geometriniai skaičiavimai ir duomenų manipuliacijos yra perkeltos į itin sparčias žemo lygio operacijas. Kadangi dokumentų analizė iš esmės yra susijusi su dideliu vaizdų apdorojimo intensyvumu, sistemos architektai pritaikė asinchroninį konvejerio (angl. pipeline) vykdymą. Tai reiškia, kad kol viena giliojo mokymosi gija analizuoja kito puslapio maketą, CPU jau atlieka ankstesnio puslapio teksto ląstelių grupavimą ir koordinačių transformacijas.

Atminties optimizavimas ir lygiagretusis vykdymas

Sistemų inžinieriams didžiausią galvos skausmą paprastai kelia atminties nutekėjimas ir perteklinis objektų kopijavimas vaizdo plokštės (GPU) atmintyje. „Docling Parse“ šią problemą sprendžia taikydama nulinės kopijos (zero-copy) strategiją ten, kur tai įmanoma, pernaudodama tenzorius tarp skirtingų modelių etapų. Puslapio vaizdas yra sugeneruojamas tik vieną kartą ir iškart pritaikomas tiek maketo segmentavimo modeliui, tiek lentelių atpažinimo algoritmui. Toks požiūris leidžia drastiškai sumažinti PCI-e magistralės apkrovą, kuri dažnai tampa pagrindiniu butelio kakleliu apdorojant didelės apimties dokumentų paketus gamybinėse aplinkose.

Kitas esminis optimizacijos aspektas slypi pačiame teksto išgavimo procese iš programinių PDF failų. Vietoj to, kad viskas būtų verčiama į rastrinį vaizdą ir vėliau apdorojama tradiciniu OCR būdu, „Docling Parse“ tiesiogiai nuskaito PDF programinį medį. Šis procesas reikalauja sudėtingo koordinačių sistemų suderinimo. Sistema automatiškai transformuoja PDF taškų (points) koordinates į modelio prognozuojamų stačiakampių (bounding boxes) pikselių erdvę. Šis susiejimas atliekamas naudojant efektyvias R-medžio (R-tree) erdvinio indeksavimo struktūras, kas leidžia atlikti milijonus geometrinių sankirtų patikrų per kelias milisekundes.

Galutinis duomenų agregavimo etapas yra suprojektuotas taip, kad būtų lengvai integruojamas į šiuolaikines duomenų inžinerijos ekosistemas. Sugeneruotas semantinis medis nėra tik statinis tekstas – tai dinamiškas objektų grafas, kurį galima tiesiogiai transliuoti į JSON ar Markdown formatus be papildomo atminties pridėtinio krūvio. Tai leidžia pasiekti stabilų ir nuspėjamą sistemos veikimą net ir esant ribotiems serverio ištekliams, paverčiant „Docling Parse“ patikimu įrankiu didelio masto pramoniniams sprendimams.

Skaitymas tarp eilučių: nors „Docling Parse“ architektūra ant popieriaus atrodo nepriekaištingai, praktinis jos taikymas atveria gilių prieštaravimų tarp teorinio modelių tikslumo ir realios gamybinės aplinkos poreikių. Didžioji dalis pramonės šiuo metu išgyvena aklą susižavėjimą didžiaisiais kalbos modeliais (LLM) ir multimodalinėmis sistemomis, tikėdama, kad jos gali išspręsti bet kokią dokumentų supratimo užduotį be jokio išankstinio apdorojimo. Ši prielaida yra klaidinga ir brangiai kainuojanti. Tikrasis „Docling Parse“ iššūkis yra įrodyti savo pranašumą pasaulyje, kur inžinieriai dažnai linkę tiesiog numesti 50 puslapių PDF failą tiesiai į brangų komercinį LLM konteksto langą, nekreipdami dėmesio į milžiniškas sąnaudas ir tokenų švaistymą.

Struktūros tikslumo kaina ir hibridinis skepticizmas

Kitas kritinis aspektas slypi modulinės architektūros prigimtyje. „Docling Parse“ remiasi kelių specializuotų modelių, tokių kaip „TableFormer“, kaskada, o tai reiškia, kad sistemos klaidos neišvengiamai sumuojasi. Jei maketo analizatorius neteisingai nustato lentelės ribas, vėlesnis struktūros išgavimo etapas tampa visiškai bevertis, kad ir koks pažangus būtų pats modelis. Ši priklausomybė nuo ankstesnių etapų sukuria trapumo efektą, kurį ypač sunku suvaldyti nestandartinio dizaino ar prastos kokybės skenuotuose dokumentuose. Be to, giliojo mokymosi modelių vykdymas lokaliuose serveriuose reikalauja specifinės aparatinės įrangos, o tai prieštarauja verslo norui turėti pigius, lengvai keičiamo mastelio mikroprocesorius.

Žvelgiant į ateitį, „Docling Parse“ sėkmė priklausys nuo to, ar ji sugebės išlaikyti pusiausvyrą tarp siauros specializacijos ir universalumo. Finansų ir sveikatos apsaugos sektoriai reikalauja absoliutaus determinizmo, kur nė vienas skaičius negali nukeliauti į neteisingą eilutę. Paradoksalu, tačiau siekdami šio tikslumo, inžinieriai dažnai privalo kurti papildomas, griežtai aprašytas taisykles (heuristikas) ant modernių neuroninių tinklų viršaus. Tai rodo, kad vien gryno AI konvejerio nepakanka – tikrasis efektyvumas pasiekiamas tik tada, kai modernus mašininis mokymasis yra suvaržomas pragmatiškos, tradicinės programinės įrangos inžinerijos rėmais.

Galiausiai, didžiausia dokumentų apdorojimo ironija yra ta, kad mes investuojame milijonus į pažangiausių neuroninių tinklų kūrimą tik tam, kad jie ištaisytų chaotiškas formatavimo klaidas, kurias prieš dešimtmetį sukūrė kitas kompiuteris. Belieka tikėtis, kad vieną dieną robotai išmoks susitarti dėl bendro lentelių stiliaus, bet iki tol „Docling Parse“ inžinieriai tikrai turės darbo.

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

Struktūros valdymo menas: gilus „Docling Parse“ konvejerio architektūros tyrimas

Nuo išmanios architektūros iki skaičių fiksavimo finišo tiesiojoje

Atminties optimizavimas ir lygiagretusis vykdymas

Struktūros tikslumo kaina ir hibridinis skepticizmas

Komentarai