Az elmúlt évek a mesterséges intelligencia térhódításáról szóltak, hazánkban is mind a
vállalatok, mind a lakosság egyre szélesebb körben használja az MI-t. Jelenleg azonban az
alkalmazások többsége nem képes magyar nyelvű utasításokat megérteni vagy információkat
elemezni, és amelyik igen, ott sok a pontatlanság.
Miért szükséges, hogy hibátlanul fussanak magyarul az alkalmazások?
A magyar köztudottan az egyik legnehezebb nyelv a világon, amit csak a tízmillió magyar beszél,
így világnyelvnek sem tekinthető. Ráadásul más nemzetekkel összehasonlítva a magyar
társadalom töredéke beszél idegen nyelveket. A fiatalok nyelvtanulási kedve erősebb és a
mesterséges intelligenciával felszerelt fordítóprogramok is sokat javítottak ezen a hátrányos
helyzeten, de kiugró fejlődés az angol vagy más nyelvek terén nem történt.
Minden profitorientált céges fejlesztésnél szempont a megtérülés, jelen esetben, hogy az adott
nyelvet mennyi felhasználó beszéli. Továbbá az új szoftverek, a megnövekedett számítási
teljesítmény mellett az is meghatározza, hogy a mesterséges intelligencia milyen ütemben
fejlődik, hogy az adott nyelven mekkora adatmennyiség áll rendelkezésre. A most elérhető, az
életünkbe viharos gyorsasággal beépülő mesterséges intelligencia alapú alkalmazások ezért
futnak a nagy világnyelveken tökéletesen, míg a magyar kérdésekre, nagyon sok hibás válasz
érkezik.
Anyanyelvünk használata nincs a nemzetközi technológiai cégek fejlesztéseinek fókuszában, így
kiemelten fontos, hogy megőrizzük a magyar nyelv gazdagságát és a lehető legnagyobb magyar
nyelvű szöveges adatbázis felhasználásával elkészítsük a magyar nyelvi modellt, mely beépülhet
a mesterséges intelligencia alapú alkalmazásokba. Minél több lesz a hiteles magyar nyelvű
szövegrész, annál pontosabbak és választékosabbak az MI válaszai.
De mi is az a nagy nyelvi modell? A nagy nyelvi modell (angolul large language modell, vagy
rövidítve LLM) olyan mesterséges intelligencia alapú algoritmus, amit hatalmas mennyiségű
szöveges adaton, ún. korpuszon tanítottak be, és képes megérteni, feldolgozni az emberi
beszélt és írott nyelv sajátosságait.
Hazánkban két nagy projekt zajlik, mely a magyar nyelvi modell kifejlesztésén és tökéletesítésén
dolgozik.
A Nyelvtudományi Intézet munkatársai kifejlesztették a magyar ChatGPT-t, egy
mesterséges intelligencia-alapú szövegszerkesztő és nyelvelemző szoftvert, mely
jelenleg csevegésre még nem képes, viszont meg tudja találni a szövegekben lévő
összefüggéseket, alkalmas médiatartalom elemzésre. A Puli-GPT nevet viselő alkalmazás
kidolgozásakor 41 milliárd szóból álló magyar (és 62 mrd szóból álló angol)
szövegállományt tápláltak be a kutatók, összehasonlításul az OpenAI Chat GPT 120-130
millió magyar (és 180 mrd angol) szóból tanult. A Puli a közeljövőben bővül majd
csevegési funkcióval, de már most képes megadott szavak alapján összefüggő
szövegeket írni, vagy össze tudja foglalni egy cikk vagy egy könyv tartalmát.
A magyar állam és az OTP bank közös finanszírozásában, hazai egyetemek bevonásával
zajlik 2021 óta egy magyar mesterséges intelligencia nyelvi modell létrehozása. Első
lépésben elkészült az alap nyelvi modell, mely 1,5 milliárd paramétert használt, most
zajlik a 30 milliárd paraméterre bővítés. A projekt célja, hogy olyan nyelvi modellt
hozzanak létre, ami segíti a vállalati és a magán ügyfelek kiszolgálását, növeli a
hatékonyságot, és hosszú hosszú távú versenyelőnyt biztosít nemcsak a banknak, hanem
az egész magyar gazdaságnak.
„A nyelvi modelleken alapuló alkalmazások már megjelentek mind a köznevelésben, mind a
felsőoktatásban. Ezek készségszintű, tudatos használata mind az egyén, mind a társadalom
számára a jövőképesség, a siker feltétele. Jól működő magyar nyelvi modell, nemcsak
szuverenitási, hanem jóléti kérdés is, mivel növeli az MI magyar haszonélvezőinek a körét.
Gábor Dénes Egyetemen ezért, nemcsak az oktatásunkban, hanem a kutatásainkban is kiemelt
terület a nyelvi modell használata” – mondta Dr. Dietz Ferenc, a Mesterséges Intelligencia
Koalíció oktatási és tudatosítási munkacsoportjának a vezetője, a Gábor Dénes Egyetem elnöke.