Ugrás a tartalomra

Társadalom- és adattudományi újdonságok a KRTK adatbankban

Hírek

A Közgazdaság- és Regionális Tudományi Kutatóközpont[1] (KRTK) Adatbankja harmadik alkalommal hozta létre a társadalomtudományi relevanciájú államigazgatási nyilvántartásokat felölelő kutatási adatbázisát, az Admin3-at. Így ismét lehetőség nyílt arra, hogy független, etikus és szakszerű, adminisztratív adatokon nyugvó tudományos kutatások születhessenek a magyar társadalomról. Ezzel együtt lehetővé vált a korábbi adatösszekötési hullámok széles körű tudományos felhasználása.

A kelet-közép-európai térségben először a KRTK Adatbank hozott létre kifejezetten államigazgatási nyilvántartások tartalmát egyesítő, kutatási célú adatbázist. Az adatbázis társadalomtudományi jelentősége óriási, hiszen a legkülönfélébb nyilvántartások tartalmát öleli fel, így egyszerre kutatható benne szinte minden téma, amely adminisztratív adatok alapján vizsgálható. Az adatbázist tudományos körültekintéssel, közösen tisztítják az Adatbank munkatársai és a nyilvántartásokat régóta használó kutatók.

A KRTK kutatói hosszú ideje dolgoznak fontos szakpolitikai kérdések adatalapú vizsgálatán. Jelenleg az egészségtudomány, az egészségpolitika, a regionális tudományok, a munkagazdaságtan, a vállalatkutatás, a migrációkutatás, az oktatáskutatás, az agronómia és a szociálpolitika területén zajlanak kutatások az adatbázis segítségével. A fogyatékkal élők munkavállalásával, a nyugdíj egészségügyi kiadásokra gyakorolt hatásával és a munkanélküli-járadék változtatásaival kapcsolatban nemzetközi szempontból is fontos eredmények születtek. Az alábbi ábrán egy Adminalapú kutatás, a börtönviseltek munkaerőpiaci helyzetét feltáró kutatás főbb eredményei láthatók.

A fogvatartottak foglalkoztatási és bérpályája

elkh-krtk-hir-abra-1

elkh-krtk-hir-abra-2

Forrás: Admin2 adatbázis, ahol közel 40 000 olyan személy munkaerőpiaci pályája követhető, aki legalább egyszer volt börtönben 2003–2011-ben. Forrás: Keresleti korlátok a börtönből szabadultak reintegrációjában (Boza István – Csáki Anikó –  Ilyés Virág – Köllő János – Kőműves Zsófia – Márk Lili – Mészáros Mercedes). Megjelenés alatt.

A legfrissebb hazai relevanciájú eredmények az iskolaköteles korhatár leszállításának következményeiről, a 10. osztályosok kompetenciaeredményeinek későbbi munkaerőpiaci hatásairól és a szakképzési reform eredményességéről számolnak be.

Az következő ábrákon a 10. osztályosok kompetenciaeredményeinek a 25 éves kori keresetekre kifejtett hatása látható. Az Admin3 alapú kutatás szerint a jobb kompetencia-teszteredményt elérő tanulóknak magasabb lett a felnőttkori keresete, és kisebb valószínűséggel lettek munkanélküliek.

A 2008-as 10. évfolyamosok teszteredményeinek összefüggése a 2017. októberi keresettel és  munkanélküliségi eséllyel a teszteredmények alapján kialakított 20 csoportban:

Kereset (log)

elkh-krtk-hir-abra-matematika
Matematika
elkh-krtk-hir-abra-szovegertes
Szövegértés

Munkanélküliség

elkh-krtk-hir-abra-matematika-2
Matematika
elkh-krtk-hir-abra-szovegertes
Szövegértés

A tesztpontszám szerinti 20 csoportra számított átlagok

Forrás: Admin3 adatbázis. Szövegértési és matematikai kompetencia hatása a keresetre és foglalkoztatási esélyekre (Hermann Zoltán, Horn Dániel, Köllő János, Sebők Anna, Semjén András & Varga Júlia). In: Fazekas K., Csillag M., Hermann Z. , Scharle Á. (szerk). Munkaerőpiaci Tükör 2018., 45-53. / THE IMPACT OF READING AND MATHEMATICS TEST RESULTS ON FUTURE EARNINGS AND EMPLOYMENT, in: Fazekas K., Csillag M., Hermann Z. , Scharle Á. (eds.). The Hungarian Labour Market – Review and Analysis, 2019. 45-52.

Admin

Az Adminban szereplő nyilvántartások tartalma egyéni szinten, anonim módon van összekötve. Ez azt jelenti, hogy 5 millió embert 15 éven keresztül havi bontásban lehet követni anélkül, hogy személyazonosságuk közvetlenül megállapítható lenne. Az adatbázisban egyszerre szerepelnek az iskolai, tanulmányi adatok és a kompetenciateszt eredménye. Később idősebbként látjuk a mintákat a munkaerőpiacon, és jellemezni tudjuk a munkaköröket, a foglalkozásokat, a kollégák körét, a munkabéreket. Kiderül, mikor mennek táppénzre, mikor lépnek ki egy munkahelyről, vagy éppen mikor mennek nyugdíjba. Képet kaphatunk arról is, hogy aki éppen nem dolgozik, kap-e valamilyen jóléti transzfert, regisztrálták-e munkanélküliként. Mindemellett rendelkezünk adatokkal az egészségi állapotra vonatkozóan is.

Az egyéni adatok védelme

Az adatok összekapcsolása egy minden nyilvántartó számára ismeretlen, rejtett hash-algoritmus segítségével történik. A hash-eljárás arra szolgál, hogy az adatforrást jelentő nyilvántartásokban szereplő egyéni azonosítókat (például ilyen a TAJ-szám) eltorzítsa. Így az adott egyénhez kapcsolódó, különféle regiszterekből származó információkat egyértelműen egymáshoz lehet rendelni, ugyanakkor az adatokat nem lehet azonosító alapján konkrét személyekhez kötni.

A felfedési kockázat további csökkentése érdekében az összekötést végző szerv (Nemzeti Infokommunikációs Szolgáltató Zrt.) anonimizál is. Ennek során a különlegesnek számító, kritikusan alacsony számú eseteket tartalmazó kategóriákat (pl. különböző betegségek kódjait, iskolai végzettségeket) összevonja. Emellett az egyéni adatok védelme érdekében a KRTK Adatbank csupán biztonságos és zárt szerverkörnyezetben engedi kutatni az Admin adatbázis-gyűjteményt, kizárólag tudományos intézet által megbízott vagy megfelelő és ellenőrizhető tudományos célkitűzéssel rendelkező kutatók és szakdolgozók számára.

Az egyéni adatok szakszerű védelme és a tudományetikai kritériumok közösen nyújtanak védelmet a felfedési kockázat ellen. Ezzel szemben a piaci térben kétségesebb az egyéni adatok korrekt és etikus felhasználása, hiszen ott a tudományos működésből adódó ellenőrzési garanciák nem biztosíthatók.

Az ellenőrizhető adathasználatra különös figyelmet fordító, tudományterületeken átívelő, független, adatalapú társadalomkutatási gyakorlat szükséges a szakpolitikák kidolgozásához, jól működő tudományos és államigazgatási szféra kialakításához, valamint az élet összes területére alkalmazható adatetikai irányelvek kidolgozásához.

KRTK Adatbank

Az idén 15 éves a KRTK Adatbank, amely az empirikus társadalomtudományi kutatások tudományos infrastruktúrája kialakításának éllovasa Magyarországon. Ennek során ötféle fő empirikus tevékenységet végez. Egyfelől előállítja a már korábban részletesen bemutatott nagyméretű, embereket és vállalatokat hosszú időn keresztül követő, adminisztratív alapú adatbázisokat.

Másodszor beszerzi és kutatásra alkalmas állapotba hozza (például harmonizálja, idősorosítja, tisztítja) a legfontosabb lakossági és vállalati adatfelvételeket. Harmadik feladataként 6 éve fejleszti és menedzseli a KRTK összes kutatója és szerzőtársa számára elérhető KSH-KRTK kutatószobát. Mindezeken túl nyitott kísérleti labort is üzemeltet, mellyel társadalomtudományi kísérletek lebonyolítását teszi lehetővé a kutatók számára. Az Adatbank továbbá gyakornoki helyként szolgál, kurzusok tartásával vesz részt az egyetemi oktatásban, valamint számos adatbázisát teszi elérhetővé szakdolgozók és doktoranduszok számára.

Az Adatbank kiemelt jelentőségét jelzi, hogy a KRTK eddigi 5 Lendület csoportjának mindegyike használta az infrastruktúrát. Az adatokra építve 580 publikáció (szakdolgozat, disszertáció, hazai és nemzetközi tanulmány) született. Számos szakpolitikai hazai és külföldi hatásvizsgálat készült az Adatbank adatai alapján, többek között olyan programokban, mint az ERC, a H2020, a Lendület, a Kiválósági Együttműködési Program vagy az OTKA. A KRTK Adatbank szolgáltatásait és adatbázisait szinte teljes körűen és ingyenesen vehetik igénybe a kutatók.

A részletes információk a KRTK Adatbank honlapján érhetők el.

Az Adminról az alábbi cikkben lehet részletesen olvasni.

[1] Magyar Tudományos Akadémia Kiváló Kutatóhely