Miért veszti el néha a beszélgetés fonalát az AI?

A mesterséges intelligenciával való beszélgetéseknek van egy furcsa pszichológiája: néhány perc után hajlamosak vagyunk elfelejteni, hogy valójában egy nyelvi modell válaszol nekünk.

A kommunikáció természetesnek hat, az AI követi a gondolatmenetünket, reagál a stílusunkra, és sokszor kifejezetten úgy tűnik, mintha „értené”, miről beszélünk… éppen ezért annyira zavaró, amikor egy hosszabb beszélgetés közepén hirtelen elveszíti a kontextust.

Visszautalunk valamire, amit néhány perce említettünk, mire az AI értetlenül reagál. Néha újra feltesz már megválaszolt kérdéseket, máskor teljesen félreérti az összefüggéseket. Sok felhasználó ilyenkor hibára vagy rendszerproblémára gyanakszik, pedig a jelenség ennél sokkal mélyebbről fakad: ez nem bug, hanem a mai nyelvi modellek működésének egyik alapvető technológiai korlátja.

Az AI nem úgy működik, mint az emberi memória

Amikor emberekkel beszélgetünk, természetesnek vesszük, hogy a másik fél emlékszik az előző mondatainkra. Az emberi agy folyamatosan építi a kontextust: összekapcsolja az információkat, eltárolja a fontos részleteket, és később vissza tudja idézni őket.

A nagy nyelvi modellek viszont teljesen más logika alapján működnek.

Az olyan rendszerek, mint a OpenAI ChatGPT-je nem rendelkeznek klasszikus értelemben vett memóriával, nem „emlékeznek” a korábbi beszélgetésekre, hanem minden új válasz előtt újra feldolgozzák az aktuálisan rendelkezésre álló szöveget.

Ez lényegében egy stateless architektúra, ahol minden kérés önálló feldolgozásként történik.

Technikailag ez meglepően hatékony megoldás: nem szükséges, hogy egyetlen szerver folyamatosan nyomon kövesse a teljes beszélgetést, így a rendszerek sokkal könnyebben skálázhatók. Ha egy szerver kiesik, egy másik átveheti a feladatot anélkül, hogy „elveszne” valamiféle memóriatartalom.

A felhasználó oldaláról viszont ebből annyi érzékelhető, hogy az AI kizárólag abból tud dolgozni, amit az adott pillanatban lát.

A kontextusablak: az AI munkamemóriája

A nyelvi modelleknek van egy úgynevezett context window-ja, vagyis kontextusablaka. Ez egy korlátozott méretű munkaterület, amelyben a modell egyszerre képes információt kezelni.

Ebben van:

  • a felhasználó összes aktuális üzenete,
  • az AI válaszai,
  • a háttérben futó rendszerutasítások,
  • és minden egyéb szöveges elem.

A modellek tokenekben mérik ezt a kapacitást. Egy token nagyjából egy szó háromnegyedének felel meg, bár technikai tartalmak vagy hosszabb kifejezések jóval több helyet foglalhatnak.

A rendszer nemcsak a beszélgetést tárolja itt, hanem a működési utasításokat, a formázásokat, a linkeket, sőt még a sortöréseket is. Mire a felhasználó beírja az első mondatát, a modell gyakran már több száz vagy akár több ezer tokent „elhasznált”.

Sokan azt gondolják, hogy egy hosszú AI-beszélgetés azért problémás, mert túl sok adatot kell mozgatni, de valójában nem ez a szűk keresztmetszet: a kihívást nem az adatküldés, hanem a feldolgozás jelenti.

A modern LLM-ek működésének központi eleme az úgynevezett attention mechanizmus.
Ez a rendszer folyamatosan azt számolja, hogyan kapcsolódik a szöveg minden része az összes többihez. Magyarul: a modell nemcsak olvassa a szöveget, hanem megpróbálja matematikailag értelmezni az összes lehetséges kapcsolatot is, ami elképesztően számításigényes feladat.

Ezért van az, hogy egy hosszabb beszélgetés végén az AI válaszai gyakran lassabbá válnak: a rendszernek több munkát kell végeznie ugyanannak a logikai összefüggésnek a fenntartásához, a számítási igény a kontextus méretével nagyjából négyzetesen nő.

Ezért nem létezik „végtelen memória”

Sok felhasználó felteszi a kérdést: miért nem készülnek egyszerűen nagyobb memóriájú modellek?

A válasz az, hogy a kontextus méretének növelése nem lineáris probléma. Ha kétszer akkora szöveget adunk a modellnek, a szükséges számítási kapacitás nem kétszeresére nő, hanem akár négyszeresére is.

Ez a gyakorlatban:

  • lassabb válaszidőt,
  • sokkal magasabb működési költséget,
  • és jelentősen nagyobb hardverigényt jelent.

Ezért még a legnagyobb AI-cégek sem tudnak korlátlan kontextusablakot kínálni.

A probléma egyik megoldása a RAG, vagyis Retrieval Augmented Generation.

Ennek lényege, hogy az AI nem próbál minden információt egyszerre „fejben tartani”, ehelyett külső adatbázisokból, dokumentációkból vagy tudásbázisokból keres releváns információkat, majd csak a szükséges részeket tölti be az aktuális kontextusba.

Ez hasonlít ahhoz, ahogyan az ember sem emlékszik minden részletre fejből, de tudja, hol találja meg a szükséges információt.

A RAG különösen hatékony:

  • keresőrendszereknél,
  • ügyfélszolgálati chatbotoknál,
  • vállalati tudásbázisoknál,
  • vagy nagy dokumentációs rendszereknél.

Ugyanakkor ez sem old meg mindent: ha túl homályosan hivatkozunk egy korábbi témára, a rendszernek továbbra is nehézséget okozhat az összefüggések helyes rekonstruálása.

Mit jelent ez a gyakorlatban?

A nyelvi modellek korlátai nem azt jelentik, hogy az AI rosszul működik. Inkább azt, hogy teljesen más módon kezeli az információt, mint az emberi agy. Az AI nem „emlékszik” a beszélgetésekre, hanem az aktuálisan elérhető kontextusból próbál következtetni.

Éppen ezért sokkal jobb eredményeket lehet elérni, ha tudatosan kommunikálunk vele. Néhány egyszerű, de kifejezetten hatékony gyakorlat sokat javíthat a válaszok minőségén.

Időnként foglaljuk össze a beszélgetést!
Hosszabb témáknál érdemes néhány mondatban újra összefoglalni a lényeget, különösen akkor, ha több irányba is elkanyarodott a beszélgetés.

Ne csak visszautaljunk, nevezzük meg pontosan a témát!
Az olyan mondatok, mint a „amiről korábban beszéltünk” vagy „az a probléma”, könnyen elvesznek a kontextusban. Sokkal hatékonyabb konkrétan megnevezni a témát vagy a kulcsszavakat.

A komplex feladatokat bontsuk kisebb részekre!
Egy hosszú, több témát érintő kérdés helyett jobb eredményt adhat több rövidebb, fókuszált beszélgetés.

A fontos információkat ismételjük meg!
Ha van egy kritikus részlet (pl.: egy cél, szabály vagy fontos adat), érdemes később újra beleírni a beszélgetésbe.

Új témánál érdemes „tiszta lappal” indulni!
Sokszor jobb egy új chatet nyitni, mint egy több száz üzenetes beszélgetésben témát váltani. Ez csökkenti a kontextuszajt és pontosabb válaszokat eredményezhet.Figyeljünk a túl hosszú promptokra!
Nem mindig a több információ a jobb. A túl sok, kevésbé releváns szöveg gyakran inkább rontja a modell fókuszát.

Vissza az összes bejegyzéshez