Szövegbányászat és mesterséges intelligencia R-ben
Paraméterek
Sorozat | Az informatika alkalmazásai |
Szerző | Sebők Miklós – Ring Orsolya – Máté Ákos |
Cím | Szövegbányászat és mesterséges intelligencia R-ben |
Kiadó | Typotex Kiadó |
Kiadás éve | 2021 |
Terjedelem | 184 oldal |
Formátum | B/5, ragasztókötött |
ISBN | 978 963 4931 39 3 |
A magyar tankönyvpiacon elsőként ismertetünk lépésről lépésre a nemzetközi társadalomtudományban használatos olyan kvantitatív szövegelemzési eljárásokat, mint a névelem-felismerés, a véleményelemzés, a topikmodellezés, illetve a szövegek felügyelt tanulásra épülő osztályozása. A módszereink bemutatására szolgáló elemzéseket az egyik leggyakrabban használt programnyelv, az R segítségével végeztük el. A kötet anyaga akár minimális programozási ismerettel is elsajátítható, így teljesen kezdők számára is ajánlott. |
|
|
Leírás
Könyvünk bevezeti az érdeklődőket a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásának speciális problémáiba. Támaszkodva a Sebők Miklós által szerkesztett Kvantitatív szövegelemzés és szövegbányászat a politikatudományban (L’Harmattan, 2016) című kötet elméleti bevezetésére, ezúttal a társadalomtudományi elemzések során használható kvantitatív szövegelemzés legfontosabb gyakorlati feladatait vesszük sorra.
A szövegek adatként való értelmezése (text as data) és kvantitatív elemzése, avagy a szövegbányászat (text mining) a nemzetközi társadalomtudományi kutatások egyik leggyorsabban fejlődő irányzata. A szövegbányászat emellett a társadalomtudósok számára az egyik legnyilvánvalóbb belépési pont a mesterséges intelligenciát, ezen belül is gépi tanulást alkalmazó kutatások területére.
A magyar tankönyvpiacon elsőként ismertetünk lépésről lépésre a nemzetközi társadalomtudományban használatos olyan kvantitatív szövegelemzési eljárásokat, mint a névelem-felismerés, a véleményelemzés, a topikmodellezés, illetve a szövegek felügyelt tanulásra épülő osztályozása. A módszereink bemutatására szolgáló elemzéseket az egyik leggyakrabban használt programnyelv, az R segítségével végeztük el. A kötet anyaga akár minimális programozási ismerettel is elsajátítható, így teljesen kezdők számára is ajánlott. A hazai olvasók érdeklődését szem előtt tartva példáink döntő többsége új, magyar nyelvű korpuszokra épül, melyek alapján megismerhetők a magyar nyelvű kvantitatív szövegelemzés módozatai.
Typtex Kiadó, 2021.
Az informatika alkalmazásai-sorozat
Írta: Sebők Miklós – Ring Orsolya – Máté Ákos
Tartalom
1. Bevezetés
1.1. A kötet témái
1.2. Használati utasítás
1.3. A HunMineR használata
1.4. Köszönetnyilvánítás
2. Alapfogalmak
2.1. Elméleti alapok
2.2. Fogalmi alapok
2.3. A szövegbányászat alapelvei
3. Adatkezelés R-ben
3.1. Az adatok importálása
3.2. Az adatok exportálása
3.3. A pipe operátor
3.4. Műveletek adattáblákkal
3.5. Munka karaktervektorokkal
4. Korpuszépítés és szövegelőkészítés
4.1. Szövegbeszerzés
4.2. Szövegelőkészítés
5. Leíró statisztika
5.1. Szövegek a vektortérben
5.2. Leíró statisztika
5.3. A szövegek lexikai diverzitása
5.4. Összehasonlítás
5.5. A kulcsszavak kontextusa
6. Szótárak és érzelemelemzés
6.1. Fogalmi alapok
6.2. Szótárak az R-ben
6.3. A Magyar Nemzet elemzése
6.4. MNB-sajtóközlemények
7. Felügyelet nélküli tanulás – Topikmodellezés
7.1. Fogalmi alapok
7.2. LDA topikmodellek
7.3. Strukturális topikmodellek
8. Szóbeágyazások
8.1. A szóbeágyazás célja
8.2. Word2Vec és GloVe
9. Szövegskálázás
9.1. Fogalmi alapok
9.2. Wordfish
9.3. Wordscores
10. Szövegösszehasonlítás
10.1. A szövegösszehasonlítás különböző megközelítései
10.2. Lexikális hasonlóság
10.3. Szemantikai hasonlóság
10.4. Hasonlóságszámítás
10.5. Szövegtisztítás
10.6. A Jaccard-hasonlóság számítása
10.7. A koszinusz-hasonlóság számítása
10.8. Az eredmények vizualizációja
11. NLP és névelem-felismerés
11.1. Fogalmi alapok
11.2. A magyarlanc
11.3. A szeged ner
11.4. Angol nyelvű szövegek névelem-felismerése
12. Osztályozás és felügyelt tanulás
12.1. Fogalmi alapok
12.2. Osztályozás felügyelt tanulással
13. Függelék
13.1. Az R és az RStudio használata
13.2. Az RStudio kezdőfelülete
13.3. A projektalapú munka
13.4. Scriptek szerkesztése, függvények használata
13.5. R csomagok
13.6. Objektumok tárolása, értékadás
13.7. Vektorok
13.8. Faktorok
13.9. Adattáblák
13.10.Vizualizáció
Irodalomjegyzék
Tárgymutató