APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

ПОБУДОВА ТРЬОХМОДУЛЬНОЇ МОДИФІКОВАНОЇ ДОСКОНАЛОЇ ФОРМИ СИСТЕМИ ЗАЛИШКОВИХ КЛАСІВ НА ОСНОВІ РОЗВ’ЯЗКУ КВАДРАТНОГО РІВНЯННЯ CONSTRUCTION OF THREE MODULAR MODIFIED PERFECT FORMS OF SYSTEM OF RESIDUAL CLASSES BASED SOLUTION OF QUADRATIC EQUATION

Виконання арифметичних операцій над багаторозрядними числами є досить важливою задачею сучасної теорії чисел, прикладної і обчислювальної математики, а також асиметричної криптографії. Тому велика увага приділяється розп...

АНАЛІЗ ТА ПРОГНОЗУВАННЯ РИЗИКІВ ШАХРАЙСТВА З КРЕДИТНИМИ КАРТКАМИ ANALYSIS AND FORECASTING OF CREDIT CARDS’ FRAUD RISKS

У роботі досліджено основні підходи виявлення шахрайських операцій з кредитними картками та запропоновано комбіноване виконання поведінкового оцінювання клієнтів-власників кредитних карт та моніторингу операцій з кредитн...

ПРОГНОЗУВАННЯ ТЕХНІЧНОГО СТАНУ ОДНОТИПНИХ ПРОГРАМНО-АПАРАТНИХ ЗАСОБІВ FORECASTING THE TECHNICAL STATE OF THE SAME TYPE SOFTWARE AND HARDWARE EQUIPMENT

Розглянуто підходи, засновані на фізичних передумовах до прогнозування технічного стану (визначення ресурсу) радіоелектронних об'єктів, які потрапляють під визначення «однотипні програмно-апаратні засоби». Прогнозування...

ОПТИМАЛЬНІСТЬ НЕУСІЧЕНОЇ ПОСЛІДОВНОЇ ПРОЦЕДУРИ ВАЛЬДА В ЗАДАЧАХ ПЕРЕВІРКИ ДВОХ ПРОСТИХ ПРОГНОЗІВ НЕСАНКЦІОНОВАНОГО ДОСТУПУ В ІНФОРМАЦІЙНИХ МЕРЕЖАХ ДЕРЖАВИ OPTIMALITY IS NOT TRUNCATED CONSISTENT PROCEDURES WALD IN SCAN TASKS OF TWO SIMPLE BETS UA IN INFORMATION NETWORKS STATE

В роботі математично обґрунтовано та виведено вирази, що точно описують послідовне правило Вальда, і в рамках зроблених припущень та досліджень виведено вирази оптимальної перевірки двох простих прогнозів, що в свою черг...

ПРОГРАММНОЕ ПРИЛОЖЕНИЕ ДЛЯ АВТОМАТИЗАЦИИ ПОСТРОЕНИЯ МОДЕЛИ ОЦЕНОК РИСКА ОТКАЗОВ СЛОЖНЫХ ТЕХНИЧЕСКИХ СИСТЕМ

На основании метода оценок риска отказов при эксплуатации взаимосвязанных и взаимозависимых компонентов сложных технических систем на примере двигателей транспортных средств разработан алгоритм определения риска отказов...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 118
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://europub.co.uk/articles/-A-341622