Az ELKH Számítástechnikai és Automatizálási Kutatóintézet (SZTAKI) által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert. A fejlesztés a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes, könnyen használható eszközzé.

Az elmúlt évtized áttörést hozott a nyelvtechnológiai kutatások terén, és az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatók. Ennek eredményeként ma már olyan cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült magyar nyelvi elemzőrendszer már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik, használatával egyszerűbbé válik a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, amelyik valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokkal még nem tud működni. A természetes nyelvi szövegekkel működő algoritmusok emberek által is értelmezhető nyelvtani szimbólumokra épülnek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár e-mail-értelmező rendszerekhez is” – részletezte Farkas Richárd, a Szegedi Tudományegyetem kutatója.

A mesterségesintelligencia-kutatás forradalma révén a gépi tanulásos megoldásokon belül előretört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogyan kell értelmezniük. A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az úgynevezett tanulóalgoritmusok elsajátítják a mélyebb összefüggéseket. E rendszerek problémája, hogy alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát jó eredmény esetén sem tudható, hogyan jutottak a következtetésre. Ezáltal nehezebben kontrollálhatók, és sokszor csak korlátozottan használhatók.

Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépitanulás-alapú megoldásokat, hogy aztán ezek alapján egy szakértő ember által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik, és kérdéses esetben a szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése sem ma kezdődött, a magyar kutatói közösség ugyanis már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is tanító adatbázisként.

A HuSpaCy rendszer ötvözi a mélytanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A program képes mondatok teljes nyelvi elemzésére – mint például a szótő vagy a szófajok –, illetve névelemek – például személynevek, helységnevek – azonosítására is folyó szövegben. A rendszer napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a nyelvtani elemző lépései is mind modern algoritmusokra épülnek.

„A HuSpaCy a spaCy keretrendszerbe illeszkedik, amely az elmúlt években nemzetközi sztenderddé vált. Ezt az eszközt használják mind akadémiai, mind az ipari projektekben a világ számos nyelvén és pontján. Így a keretrendszerbe illeszkedő nyelvek gyakorlatilag bekapcsolódnak a digitális nyelvi forradalomba” – emelte ki Orosz György, a HuSpaCy projekt vezetője.

Az új fejlesztés többek között hangalapú vagy írásos csetbotok alapjául szolgálhat – ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek –, de hasznos lehet szövegkategorizálásra – például ügyfélszolgálatra beérkező panaszok automatikus leválogatására –, információ kinyerésre és szövegek automatikus generálására is.