Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX
Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2015, Vol 0, Issue 71
Abstract
Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX wieku zostało poddanych automatycznej anotacji, a następnie sprawdzonych ręcznie; celem było oszacowanie liczby prawidłowo rozpoznanych form gramatycznych. Do analiz wybrano program TaKIPI, tager probabilistyczny wyuczony na materiale współczesnej polszczyzny. Otrzymane wyniki sugerują, że co prawda istnieje sil- na zależność między skutecznością tagera a datowaniem badanego tekstu, ale nawet najgorsze wyniki, uzyskane dla kazań średniowiecznych, można ostrożnie uznać za satysfakcjonujące. The study aims to examine the extent to which standard NLP (natural language process- ing) tools can be used to annotate corpora of early texts. Selected texts, written between the 15th and 20th centuries, were fi rst annotated automatically and then examined manually in order to estimate the number of correctly recognized grammatical forms. The software cho- sen to carry out the automatic annotation was TaKIPI, which is a probabilistic tagger trained on contemporary Polish texts. The results suggest that there is a strong correlation between chronology and the number of tagging errors, but even the worst scores obtained for medieval sermons were fairly satisfactory.
Authors and Affiliations
Magdalena Klapper, Maciej Eder, Dorota Kołodziej
Od scholastycznej dysputy i kwestii do akademickiego wykładu i szkolnej rozprawki (uwagi o przeobrażeniach gatunków)
Jednym z podstawowych sposobów nauczania na średniowiecznych uniwersytetach była dysputa. Jeśli przebieg dysputy spisano, powstawał tekst zwany questio disputata, który najczęściej składał się z a) tytułowe...
Granice języka a granice językoznawstwa
Kwestię granic języka i lingwistyki autor rozważa, odwołując się do tzw. pełnej teorii naukowej. W złożonej hierarchiczno-sieciowej strukturze tej teorii można wyróżnić trzy poziomy; bazę filozoficzną, interpretacyjny ob...
Między przeszłością a współczesnością – ciągłość i zmiana w badaniach dialektologicznych
Przedmiotem rozważań jest pytanie o nowy wymiar badań dialektologicznych i rozwią- zania metodologiczne przystające do współczesnej rzeczywistości wiejskiej, ale jednocześnie zachowujące tradycyjny aspekt, a tym samym o...
Designing rules for a computer program purposed for Polish texts syllabification
According to the current definitions of a syllable it is impossible to syllabify words in an unambiguous and uncontroversial manner. This especially concerns languages such as Polish, which is rich in long consonant clus...
Przydatność testamentów chłopskich w badaniach językoznawczych
W artykule omówiono testamenty polskich chłopów (Kazimierz Dobrowolski, Włościańskie rozporzą - dze nie ostatniej woli na Podhalu w XVII i XVIII w., Kraków 1933; Janusz Łosowski, Testamenty chłopów polskich od drugiej po...