Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX
Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2015, Vol 0, Issue 71
Abstract
Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX wieku zostało poddanych automatycznej anotacji, a następnie sprawdzonych ręcznie; celem było oszacowanie liczby prawidłowo rozpoznanych form gramatycznych. Do analiz wybrano program TaKIPI, tager probabilistyczny wyuczony na materiale współczesnej polszczyzny. Otrzymane wyniki sugerują, że co prawda istnieje sil- na zależność między skutecznością tagera a datowaniem badanego tekstu, ale nawet najgorsze wyniki, uzyskane dla kazań średniowiecznych, można ostrożnie uznać za satysfakcjonujące. The study aims to examine the extent to which standard NLP (natural language process- ing) tools can be used to annotate corpora of early texts. Selected texts, written between the 15th and 20th centuries, were fi rst annotated automatically and then examined manually in order to estimate the number of correctly recognized grammatical forms. The software cho- sen to carry out the automatic annotation was TaKIPI, which is a probabilistic tagger trained on contemporary Polish texts. The results suggest that there is a strong correlation between chronology and the number of tagging errors, but even the worst scores obtained for medieval sermons were fairly satisfactory.
Authors and Affiliations
Magdalena Klapper, Maciej Eder, Dorota Kołodziej
Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX
Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX...
Od scholastycznej dysputy i kwestii do akademickiego wykładu i szkolnej rozprawki (uwagi o przeobrażeniach gatunków)
Jednym z podstawowych sposobów nauczania na średniowiecznych uniwersytetach była dysputa. Jeśli przebieg dysputy spisano, powstawał tekst zwany questio disputata, który najczęściej składał się z a) tytułowe...
Basic categories for a theory and description of language
The present paper makes reference to its author’s work The Dynamics of Language (1976) and presents three basic and indispensable categories for language theory and language description, namely form, signification, and l...
Stałość i zmienność w języku na przykładzie gramatycznej kategorii określoności.
Po krótkim wstępie przedstawiającym cel artykułu następują części omawiające poszcze- gólne zagadnienia składowe, a mianowicie: (1) gramatyczne kategorie determinacji i określo- ności, część przedstawiająca defi nicje ty...
Lingwistyka wobec kulturoznawstwa. W poszukiwaniu granic (?) dyscypliny
W artykule podejmuje się problem tożsamości językoznawstwa oraz ustalenia granic tej dyscypliny wobec kulturoznawstwa, głównej dziś perspektywy w koncepcji humanistyki zintegrowanej. Autor dowodzi, że w wyniku zasadniczy...