Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX

Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2015, Vol 0, Issue 71

Abstract

Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX wieku zostało poddanych automatycznej anotacji, a następnie sprawdzonych ręcznie; celem było oszacowanie liczby prawidłowo rozpoznanych form gramatycznych. Do analiz wybrano program TaKIPI, tager probabilistyczny wyuczony na materiale współczesnej polszczyzny. Otrzymane wyniki sugerują, że co prawda istnieje sil- na zależność między skutecznością tagera a datowaniem badanego tekstu, ale nawet najgorsze wyniki, uzyskane dla kazań średniowiecznych, można ostrożnie uznać za satysfakcjonujące. The study aims to examine the extent to which standard NLP (natural language process- ing) tools can be used to annotate corpora of early texts. Selected texts, written between the 15th and 20th centuries, were fi rst annotated automatically and then examined manually in order to estimate the number of correctly recognized grammatical forms. The software cho- sen to carry out the automatic annotation was TaKIPI, which is a probabilistic tagger trained on contemporary Polish texts. The results suggest that there is a strong correlation between chronology and the number of tagging errors, but even the worst scores obtained for medieval sermons were fairly satisfactory.

Authors and Affiliations

Magdalena Klapper, Maciej Eder, Dorota Kołodziej

Keywords

Related Articles

Największy problem lingwistyki: kryteria prawdy w językoznawstwie

Językoznawstwo istnieje od 2000 lat, lingwiści opublikowali setki tysięcy prac, ale żad- na z nich nie zajmuje się kryteriami prawdy w tej dyscyplinie. Niniejszy artykuł traktuje o problemie kryteriów prawd...

Źródła w badaniach idiolektów

Artykuł wskazuje źródła wykorzystywane w różnego rodzaju badaniach idiolektów oraz omawia rolę poszczególnych typów źródeł. Choć głównym przedmiotem zainteresowania są autonomiczne studia nad językiem jednostek, praca uw...

Przydatność testamentów chłopskich w badaniach językoznawczych

W artykule omówiono testamenty polskich chłopów (Kazimierz Dobrowolski, Włościańskie rozporzą - dze nie ostatniej woli na Podhalu w XVII i XVIII w., Kraków 1933; Janusz Łosowski, Testamenty chłopów polskich od drugiej po...

Basic categories for a theory and description of language

The present paper makes reference to its author’s work The Dynamics of Language (1976) and presents three basic and indispensable categories for language theory and language description, namely form, signification, and l...

Język jako wielka narracja: teoria narracyjności w semantyce.

Przywołując interdyscyplinarne badania – rozwijane w naukach kognitywnych, w obrę- bie psychologii, fi lozofi i czy socjologii – autorka dokonuje ekstrapolacji teorii narracyjności na obszar badań semantycznych. W tym c...

Download PDF file
  • EP ID EP165907
  • DOI -
  • Views 159
  • Downloads 0

How To Cite

Magdalena Klapper, Maciej Eder, Dorota Kołodziej (2015). Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX. Biuletyn Polskiego Towarzystwa Językoznawczego, 0(71), -. https://europub.co.uk/articles/-A-165907