A kommunikáció természetesnek hat, az AI követi a gondolatmenetünket, reagál a stílusunkra, és sokszor kifejezetten úgy tűnik, mintha „értené”, miről beszélünk… éppen ezért annyira zavaró, amikor egy hosszabb beszélgetés közepén hirtelen elveszíti a kontextust.
Visszautalunk valamire, amit néhány perce említettünk, mire az AI értetlenül reagál. Néha újra feltesz már megválaszolt kérdéseket, máskor teljesen félreérti az összefüggéseket. Sok felhasználó ilyenkor hibára vagy rendszerproblémára gyanakszik, pedig a jelenség ennél sokkal mélyebbről fakad: ez nem bug, hanem a mai nyelvi modellek működésének egyik alapvető technológiai korlátja.
Az AI nem úgy működik, mint az emberi memória
Amikor emberekkel beszélgetünk, természetesnek vesszük, hogy a másik fél emlékszik az előző mondatainkra. Az emberi agy folyamatosan építi a kontextust: összekapcsolja az információkat, eltárolja a fontos részleteket, és később vissza tudja idézni őket.
A nagy nyelvi modellek viszont teljesen más logika alapján működnek.
Az olyan rendszerek, mint a OpenAI ChatGPT-je nem rendelkeznek klasszikus értelemben vett memóriával, nem „emlékeznek” a korábbi beszélgetésekre, hanem minden új válasz előtt újra feldolgozzák az aktuálisan rendelkezésre álló szöveget.
Ez lényegében egy stateless architektúra, ahol minden kérés önálló feldolgozásként történik.
Technikailag ez meglepően hatékony megoldás: nem szükséges, hogy egyetlen szerver folyamatosan nyomon kövesse a teljes beszélgetést, így a rendszerek sokkal könnyebben skálázhatók. Ha egy szerver kiesik, egy másik átveheti a feladatot anélkül, hogy „elveszne” valamiféle memóriatartalom.
A felhasználó oldaláról viszont ebből annyi érzékelhető, hogy az AI kizárólag abból tud dolgozni, amit az adott pillanatban lát.
A kontextusablak: az AI munkamemóriája
A nyelvi modelleknek van egy úgynevezett context window-ja, vagyis kontextusablaka. Ez egy korlátozott méretű munkaterület, amelyben a modell egyszerre képes információt kezelni.
Ebben van:
- a felhasználó összes aktuális üzenete,
- az AI válaszai,
- a háttérben futó rendszerutasítások,
- és minden egyéb szöveges elem.
A modellek tokenekben mérik ezt a kapacitást. Egy token nagyjából egy szó háromnegyedének felel meg, bár technikai tartalmak vagy hosszabb kifejezések jóval több helyet foglalhatnak.
A rendszer nemcsak a beszélgetést tárolja itt, hanem a működési utasításokat, a formázásokat, a linkeket, sőt még a sortöréseket is. Mire a felhasználó beírja az első mondatát, a modell gyakran már több száz vagy akár több ezer tokent „elhasznált”.
Sokan azt gondolják, hogy egy hosszú AI-beszélgetés azért problémás, mert túl sok adatot kell mozgatni, de valójában nem ez a szűk keresztmetszet: a kihívást nem az adatküldés, hanem a feldolgozás jelenti.
A modern LLM-ek működésének központi eleme az úgynevezett attention mechanizmus.
Ez a rendszer folyamatosan azt számolja, hogyan kapcsolódik a szöveg minden része az összes többihez. Magyarul: a modell nemcsak olvassa a szöveget, hanem megpróbálja matematikailag értelmezni az összes lehetséges kapcsolatot is, ami elképesztően számításigényes feladat.
Ezért van az, hogy egy hosszabb beszélgetés végén az AI válaszai gyakran lassabbá válnak: a rendszernek több munkát kell végeznie ugyanannak a logikai összefüggésnek a fenntartásához, a számítási igény a kontextus méretével nagyjából négyzetesen nő.
Ezért nem létezik „végtelen memória”
Sok felhasználó felteszi a kérdést: miért nem készülnek egyszerűen nagyobb memóriájú modellek?
A válasz az, hogy a kontextus méretének növelése nem lineáris probléma. Ha kétszer akkora szöveget adunk a modellnek, a szükséges számítási kapacitás nem kétszeresére nő, hanem akár négyszeresére is.
Ez a gyakorlatban:
- lassabb válaszidőt,
- sokkal magasabb működési költséget,
- és jelentősen nagyobb hardverigényt jelent.
Ezért még a legnagyobb AI-cégek sem tudnak korlátlan kontextusablakot kínálni.
A probléma egyik megoldása a RAG, vagyis Retrieval Augmented Generation.
Ennek lényege, hogy az AI nem próbál minden információt egyszerre „fejben tartani”, ehelyett külső adatbázisokból, dokumentációkból vagy tudásbázisokból keres releváns információkat, majd csak a szükséges részeket tölti be az aktuális kontextusba.
Ez hasonlít ahhoz, ahogyan az ember sem emlékszik minden részletre fejből, de tudja, hol találja meg a szükséges információt.
A RAG különösen hatékony:
- keresőrendszereknél,
- ügyfélszolgálati chatbotoknál,
- vállalati tudásbázisoknál,
- vagy nagy dokumentációs rendszereknél.
Ugyanakkor ez sem old meg mindent: ha túl homályosan hivatkozunk egy korábbi témára, a rendszernek továbbra is nehézséget okozhat az összefüggések helyes rekonstruálása.
Mit jelent ez a gyakorlatban?
A nyelvi modellek korlátai nem azt jelentik, hogy az AI rosszul működik. Inkább azt, hogy teljesen más módon kezeli az információt, mint az emberi agy. Az AI nem „emlékszik” a beszélgetésekre, hanem az aktuálisan elérhető kontextusból próbál következtetni.
Éppen ezért sokkal jobb eredményeket lehet elérni, ha tudatosan kommunikálunk vele. Néhány egyszerű, de kifejezetten hatékony gyakorlat sokat javíthat a válaszok minőségén.
Időnként foglaljuk össze a beszélgetést!
Hosszabb témáknál érdemes néhány mondatban újra összefoglalni a lényeget, különösen akkor, ha több irányba is elkanyarodott a beszélgetés.
Ne csak visszautaljunk, nevezzük meg pontosan a témát!
Az olyan mondatok, mint a „amiről korábban beszéltünk” vagy „az a probléma”, könnyen elvesznek a kontextusban. Sokkal hatékonyabb konkrétan megnevezni a témát vagy a kulcsszavakat.
A komplex feladatokat bontsuk kisebb részekre!
Egy hosszú, több témát érintő kérdés helyett jobb eredményt adhat több rövidebb, fókuszált beszélgetés.
A fontos információkat ismételjük meg!
Ha van egy kritikus részlet (pl.: egy cél, szabály vagy fontos adat), érdemes később újra beleírni a beszélgetésbe.
Új témánál érdemes „tiszta lappal” indulni!
Sokszor jobb egy új chatet nyitni, mint egy több száz üzenetes beszélgetésben témát váltani. Ez csökkenti a kontextuszajt és pontosabb válaszokat eredményezhet.Figyeljünk a túl hosszú promptokra!
Nem mindig a több információ a jobb. A túl sok, kevésbé releváns szöveg gyakran inkább rontja a modell fókuszát.