Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX
Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2015, Vol 0, Issue 71
Abstract
Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX wieku zostało poddanych automatycznej anotacji, a następnie sprawdzonych ręcznie; celem było oszacowanie liczby prawidłowo rozpoznanych form gramatycznych. Do analiz wybrano program TaKIPI, tager probabilistyczny wyuczony na materiale współczesnej polszczyzny. Otrzymane wyniki sugerują, że co prawda istnieje sil- na zależność między skutecznością tagera a datowaniem badanego tekstu, ale nawet najgorsze wyniki, uzyskane dla kazań średniowiecznych, można ostrożnie uznać za satysfakcjonujące. The study aims to examine the extent to which standard NLP (natural language process- ing) tools can be used to annotate corpora of early texts. Selected texts, written between the 15th and 20th centuries, were fi rst annotated automatically and then examined manually in order to estimate the number of correctly recognized grammatical forms. The software cho- sen to carry out the automatic annotation was TaKIPI, which is a probabilistic tagger trained on contemporary Polish texts. The results suggest that there is a strong correlation between chronology and the number of tagging errors, but even the worst scores obtained for medieval sermons were fairly satisfactory.
Authors and Affiliations
Magdalena Klapper, Maciej Eder, Dorota Kołodziej
Największy problem lingwistyki: kryteria prawdy w językoznawstwie
Językoznawstwo istnieje od 2000 lat, lingwiści opublikowali setki tysięcy prac, ale żad- na z nich nie zajmuje się kryteriami prawdy w tej dyscyplinie. Niniejszy artykuł traktuje o problemie kryteriów prawd...
Źródła w badaniach idiolektów
Artykuł wskazuje źródła wykorzystywane w różnego rodzaju badaniach idiolektów oraz omawia rolę poszczególnych typów źródeł. Choć głównym przedmiotem zainteresowania są autonomiczne studia nad językiem jednostek, praca uw...
Przydatność testamentów chłopskich w badaniach językoznawczych
W artykule omówiono testamenty polskich chłopów (Kazimierz Dobrowolski, Włościańskie rozporzą - dze nie ostatniej woli na Podhalu w XVII i XVIII w., Kraków 1933; Janusz Łosowski, Testamenty chłopów polskich od drugiej po...
Basic categories for a theory and description of language
The present paper makes reference to its author’s work The Dynamics of Language (1976) and presents three basic and indispensable categories for language theory and language description, namely form, signification, and l...
Język jako wielka narracja: teoria narracyjności w semantyce.
Przywołując interdyscyplinarne badania – rozwijane w naukach kognitywnych, w obrę- bie psychologii, fi lozofi i czy socjologii – autorka dokonuje ekstrapolacji teorii narracyjności na obszar badań semantycznych. W tym c...