Disambiguation of Lithuanian Homographs Based on the Frequencies of Lexemes and Morphological Tags
Journal Title: Kalbu studijos / Studies about Languages - Year 2009, Vol 14, Issue 0
Abstract
In the text-to-speech synthesis it is necessary to stress the text. The main problem is that currently existing algorithms of stress for Lithuanian produce more than a single stressing possibility for some words (homographs). The method based on frequency of occurrences of certain lexemes and morphological tags was proposed in this work. Such method has never been used for Lithuanian. The frequencies were calculated using text corpus containing 1 million words. Text corpus was stressed automatically and then corrected manually. Disambiguation of homographs is performed by removing less frequently used grammatical forms and lexemes. Additional problems arise due to the fact that a single word can correspond to more than two grammatical forms. The method based on the frequencies of pairs of grammatical forms was proposed in this work. It was shown that the frequencies of morphological tags play more important role than the frequencies of lexemes. The method proposed allows disambiguating the homographs with the accuracy of 85.01%. Despite the fact that the method proposed does not employ contextual information, the results achieved are comparable with those achieved with the algorithm ID3 that uses the context.
Authors and Affiliations
Tomas Anbinderis, Pijus Kasparaitis
CTCES Project: Multilingual, Bilingual and Social Reality
The article deals with one particular case (CTCES project) study which helps to reveal the possible cross-cultural and bilingual problems. According to the international project CTCES the participants can face with socia...
Ar dvikalbiame žodyne reikalingi papildomi antraštynai?
Ne vienas didelės apimties dvikalbis žodynas prie savo pagrindinės dalies – korpuso – pateikia įvairių papildomų dokumentų, kurie leksikografinėje literatūroje vadinami „papildomais antraštynais“ arba tiesiog žodyno pr...
Vaizdo žaidimų lokalizacija: teksto masyvo analizė
Lietuvoje vaizdo žaidimų lokalizacijos problematika nėra analizuota. Sulietuvinti vaizdo žaidimai yra neišbaigti ir turi daug trūkumų. Šio straipsnio tikslas – išanalizuoti vaizdo žaidimo teksto masyvo vertimą į lietuvių...
Дискурсивное событие выражения благодарности в английском и русском языках
В статье с прагмалингвистических позиций рассматриваются особенности интерактивной и языковой организации дискурсивного события выражения благодарности в англоязычных и русской языковых культурах. Анализируются сходства...
Mokinių ir studentų požiūris į mokymąsi mokytis užsienio kalba
Straipsnyje pabrėžiama mokymosi mokytis kompetencijos formavimo(si) svarba siekiant įgyvendinti visą gyvenimą trunkančio mokymosi idėjas, analizuojamas aukštesniųjų klasių mokinių ir pirmo kurso studentų požiūris į vei...