Apie Viską DI Agentai DI Atviro Kodo DI Kodui DI Medicinoje DI Modeliai - LLM DI Muzikai DI Nuotraukoms DI Prietaisai DI Satyra ir Humoras DI Saugumas DI Video DI ir Teisėtvarka DI Žaidimuose Dirbtinis Intelektas NVIDIA AI Pamąstymai Apie DI Redaktoriaus Žodis Robotika Technologijų Dvikova

Duomenų centro galia po stalu: ASUS ExpertCenter Pro ET900N G3 techninė apžvalga

Artūras Malašauskas 2026-06-16 5 min skaitymui
ASUS ExpertCenter Pro ET900N G3 atveža duomenų centro galią tiesiai į biurą – NVIDIA Blackwell architektūra pagrįsta darbo stotis siūlo kosminį 20 PFLOPS našumą ir leidžia lokaliai sukti trilijono parametrų dirbtinio intelekto modelius.

Kai pramonės gigantai garsiai kalba apie debesų kompiuteriją, ASUS nusprendė tyliai atsivežti duomenų centrą tiesiai į jūsų kabinetą. Naujoji darbo stotis „ExpertCenter Pro ET900N G3“ nėra tiesiog dar vienas kompiuteris su galingesne vaizdo korta. Tai pirmoji pasaulyje stalinių kompiuterių klasės sistema, sukurta remiantis griežta „NVIDIA DGX Station“ architektūra. Šis inžinerinis žingsnis leidžia tyrėjams ir įmonėms lokaliai, nesikreipiant į išorinius serverius, apdoroti milžiniškus dirbtinio intelekto modelius ir išlaikyti visišką duomenų privatumą. Tokį sprendimą diktuoja augantis rinkos poreikis autonominiams agentams ir sudėtingam mašininiam mokymuisi, kur vėlavimas ar duomenų nutekėjimas paprasčiausiai netoleruojamas.

Sistemos šerdyje plaka įspūdingas „NVIDIA GB300 Grace Blackwell Ultra Desktop Superchip“ lustas. Architektūros pagrindas – itin glaudus ryšys tarp 72 branduolių „Arm-based Grace“ procesoriaus ir „Blackwell Ultra“ grafinio procesoriaus, sujungtų per sparčiąją „NVIDIA NVLink-C2C“ magistralę. Ši technologija panaikina tradicinius duomenų perdavimo butelio kaklelius, nes sukuria milžinišką 748 GB koherentinę (bendrą) atmintį. Inžineriniu požiūriu tai reiškia, kad sistemoje esantys 496 GB LPDDR5X operatyviosios atminties ir 252 GB HBM3E vaizdo atminties veikia kaip vienas vientisas baseinas. Dėl to kūrėjai gali tiesiogiai vietoje paleisti ir tobulinti dirbtinio intelekto modelius, turinčius iki 1 trilijono parametrų.

Nuo geležies iki stulbinančių skaičių

Popieriuje deklaruojami skaičiai greitai virsta realiu apdorojimo greičiu. Remiantis oficialiu pranešimu, kurį išplatino ASUS Press Room, ši darbo stotis pasiekia iki 20 PFLOPS dirbtinio intelekto skaičiavimo našumą. Kad suprastume, ką tai reiškia praktikoje, ASUS inžinerinės komandos atliko išsamius streso testus naudodamos „vLLM“ karkasą. Sukant atvirojo kodo „Qwen“ modelį, sistema pasiekė stulbinantį maždaug 864 žetonų per sekundę (tokens per second) išvesties pralaidumą. Bendras įvesties ir išvesties apdorojimo greitis šoktelėjo iki maždaug 1 600 žetonų per sekundę, o tai įrodo, kad sistema lengvai susidoroja su didelio masto kalbos modelių užklausomis realiuoju laiku.

Kad visa šis žvėriškas našumas veiktų stabiliai biuro aplinkoje, gamintojui teko pasirūpinti ir atitinkama infrastruktūra. Energija sistemai tiekiama per vieną 1600 W maitinimo bloką, o tinklo poreikius užtikrina dvi itin sparčios 400 Gb/s QSFP prievadų jungtys bei viena 10 Gb/s LAN jungtis. Be to, sistemoje integruoti keturi M.2 lizdai greitiems duomenų kaupikliams. Galutinis rezultatas – tylus, kompaktiškas, bet stulbinamai galingas įrenginys, ištrinantis ribą tarp lokalios darbo vietos ir galingiausio duomenų centro.

Užkulisių inžinerija: Gilinantis į šios sistemos architektūrą, esminis proveržis įvyksta ten, kur susikerta aparatinės įrangos koherentiškumas ir žemo lygio programinės įrangos optimizavimas. Sistemų inžinieriai puikiai žino, kad tradicinėse architektūrose duomenų kopijavimas tarp CPU sistemos atminties (RAM) ir GPU vaizdo atminties (VRAM) per PCIe magistralę sukuria milžiniškas „vLLM“ ar kitų išvedimo sistemų prastovas. „ExpertCenter Pro ET900N G3“ išsprendžia šį galvosūkį per fizinę „NVLink-C2C“ integraciją, kuri sujungia Grace ir Blackwell Ultra lustus į vieną adresų erdvę. Tai leidžia inžinieriams atsisakyti perteklinio duomenų perkėlimo („pinning“ ir „explicit memory copies“) operacijų programiniame kode, nes grafinis procesorius gali pasiekti LPDDR5X atmintį tokiu pat mažu vėlavimu, kaip ir savo vietinę HBM3E.

Išvedimo (inference) kontekste šis vientisas atminties baseinas leidžia pritaikyti itin agresyvias „PagedAttention“ strategijas be baimės fragmentuoti fizinę atmintį. Kai dirbama su dideliais konteksto langais, pavyzdžiui, apdorojant ilgus dokumentus per kelis tūkstančius žetonų, raktų-reikšmių (KV) spartinančioji atmintis (cache) užpildo didžiąją dalį VRAM. Turėdama 748 GB koherentinės erdvės, sistema dinamiškai perkelia dalį KV talpyklos į LPDDR5X atmintį, o tai apsaugo nuo kritinių „Out of Memory“ (OOM) klaidų vykdymo metu. Šis atminties valdymo lankstumas leidžia sistemoje vienu metu vykdyti kelias lygiagrečias užklausas (batching) su minimaliu našumo praradimu vienam vartotojui.

Žemo lygio optimizavimas ir tinklo sinergija

Kitas kritinis mazgas, į kurį nukreiptas inžinierių dėmesys, yra gilus integracijos suderinamumas su TensorRT-LLM varikliu. Kadangi sistema pasiekia 20 PFLOPS skaičiavimo našumą, kodo lygmeniu yra naudojami specializuoti FP4 ir FP8 kvantavimo modeliai, kurie leidžia atlikti matricų daugybos operacijas maksimaliu greičiu. Programinės įrangos inžinieriai gali tiesiogiai kompiliuoti modelių grafus naudodami CUDA grafų (CUDA Graphs) funkcionalumą, o tai sumažina procesoriaus pridėtines išlaidas paleidžiant branduolius (kernel launch overhead). Toks požiūris užtikrina, kad skaičiavimo blokai niekada neliktų tušti ir laukiantys komandų iš CPU pusės.

Galiausiai, sistemos pralaidumas nebūtų pilnavertis be subalansuoto įvesties ir išvesties (I/O) posistemio. Integruoti dvigubi 400 Gb/s tinklo prievadai leidžia realizuoti itin greitą duomenų perdavimą per RDMA (Remote Direct Memory Access) technologiją tiesiai į HBM3E atmintį, apeinant pagrindinį procesorių. Tai leidžia darbo stočiai veikti kaip hibridiniam mazgui didesniuose klasteriuose, kur svoriai ir parametrai gali būti dinamiškai atnaujinami realiuoju laiku be jokio neigiamo poveikio jau vykstančioms vietinėms užduotims.

Žvilgsnis pro marketingo rūką: Nors ASUS ir NVIDIA šį įrenginį pristato kaip revoliucinį išsigelbėjimą nuo priklausomybės nuo debesų kompiuterijos, inžinerinė realybė reikalauja šiek tiek sveiko skepticizmo. Žadamas 20 PFLOPS našumas ir trilijono parametrų modelių palaikymas skamba fantastiškai, tačiau praktikoje tai yra ekstremalios ribos, pasiekiamos tik idealiomis FP4/FP8 kvantavimo sąlygomis. Didelė dalis korporatyvinių klientų vis dar reikalauja FP16 ar net FP32 tikslumo finansinėse ar medicininėse prognozėse, kur prarasta kokybė dėl agresyvaus suspaudimo gali reikšti kritines klaidas. Kai pereinama prie didesnio tikslumo skaičiavimų, šios įspūdingos specifikacijos pradeda pastebimai trauktis, o trilijono parametrų modelis tiesiog nebetelpa į fizinę atminties architektūrą.

Kitas prieštaravimas slypi pačioje „darbo stoties po stalu“ koncepcijoje ir jos fiziniuose apribojimuose. Gamintojas pabrėžia sistemos kompaktiškumą ir tylų veikimą biuro aplinkoje, tačiau 1600 W maitinimo blokas, veikiantis maksimaliu pajėgumu, sukuria ne tik pastebimą akustinį foną, bet ir veikia kaip efektyvus patalpos šildytuvas. Įmonės, tikėdamosi sutaupyti lėšų serverinių infrastruktūrai, greitai supras, kad pastatyti tokį įrenginį įprastame kabinete be specialaus kondicionavimo yra inžinerinis iššūkis. Be to, dvigubos 400 Gb/s tinklo jungtys reikalauja atitinkamos infrastruktūros pačiame biure, kurios kaina neretai viršija pačios darbo stoties biudžetą.

Investicijų grąža ir ateities garantijos

Galiausiai, technologinis ciklas dirbtinio intelekto aparatinės įrangos rinkoje šiuo metu yra negailestingai trumpas. Pirkdamos tokio lygio įrenginį, įmonės fiksuoja savo kapitalo išlaidas keliems metams į priekį, tikėdamosi, kad vietinė kontrolė atsipirks. Tačiau debesų paslaugų teikėjai savo infrastruktūrą atnaujina kas kelis mėnesius, siūlydami naujausius lustų variantus iškart jiems pasirodius. Tai sukuria situaciją, kai po pusantrų metų ši lokali darbo stotis gali tapti brangiu praeities paminklu, o programuotojai vėl žvalgysis į išorinius serverius dėl dar spartesnių architektūrų.

„Smagu turėti visą duomenų centro galią po savo stalu, kol supranti, kad biuro saugikliai nebuvo pasiruošę jūsų naujam dirbtinio intelekto entuziazmui, o kava puodelyje pradeda virti savaime tiesiog nuo sistemos išpūtimo oro srauto.“

Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.

Komentarai

Prisijunk jei nori komentuoti: