APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

МАТЕМАТИЧНА МОДЕЛЬ СПОЖИВАННЯ ПАЛИВА МОДЕРНІЗОВАНИМ МАНЕВРОВИМ ТЕПЛОВОЗОМ MATHEMATICAL MODEL OF FUEL CONSUMPTION BY THE MODERNIZED SHUNTING LOCOMOTIVE

Наведено результати статистичної обробки експлуатаційних даних споживання палива для «гарячого» простою та виконання маневрової роботи модернізованим маневровим тепловозом ЧМЕ3М. Розроблено математичну модель витрати пал...

PLANNING OF THE DIAGNOSTIC EXPERIMENT IN THE LOCALIZATION OF TROUBLESHOOTING FAILURES OF SINGLE-FREE SYSTEMS

Formalized conditions for carrying out a diagnostic experiment associated with the identification of faulty fragments (subschemes) of inertial-free systems are obtained. The diagnostic experiment is reduced to computatio...

ТЕОРЕТИЧЕСКОЕ РАЗВИТИЕ ОБЩЕГО ПОДХОДА К ПРОБЛЕМЕ ВЫЯВЛЕНИЯ НАРУШЕНИЙ ЦЕЛОСТНОСТИ ЦИФРОВЫХ КОНТЕНТОВ, ОСНОВАННОГО НА АНАЛИЗЕ ПОЛНОГО НАБОРА ИХ ФОРМАЛЬНЫХ ПАРАМЕТРОВ THEORETICAL DEVELOPMENT OF THE GENERAL APPROACH TO SOLVING THE PROBLEM OF DETECTING THE INTEGRITY VIOLATIONS OF DIGITAL CONTENT BASED ON THE ANALYSIS OF A COMPLETE SET OF FORMAL PARAMETERS

Целостность информации является одним из основных критериев ее безопасности. Сегодня информационные объекты все чаще имеют цифровое представление: изображения, аудио, цифровое видео. Использование таких объектов с целью,...

ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ СТЕГАНОАНАЛІТИЧНИХ АЛГОРИТМІВ ВИЯВЛЕННЯ НАЯВНОСТІ ВКЛАДЕНЬ КОНФІДЕНЦІЙНОЇ ІНФОРМАЦІЇ У ЦИФРОВИХ ВІДЕО COMPARATIVE EFFICIENCY ANALYSIS OF STEGANALYTIC ALGORITHMS FOR DETECTING THE PRESENCE OF ATTACHMENTS OF CONFIDENTIAL INFORMATION IN DIGITAL VIDEO

В роботі проводиться порівняльний аналіз ефективності алгоритмів для виявлення вкладень конфіденційної інформації у цифрових відео, що реалізують розроблені раніше автором стеганоаналітичні методи, з сучасними аналогами....

ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ПРОГРАМНОЇ РЕАЛІЗАЦІЇ СУМІСНОГО ВИКОНАННЯ АЛГОРИТМУ ЕВКЛІДА ТА МНОЖЕННЯ EXPERIMENTAL STUDY OF SOFTWARE IMPLEMENTATION OF COMBINE REALIZATION OF THE EUCLID ALGORITHM AND MULTIPLICATION

Сумісне виконання алгоритму Евкліда та перемноження двох багаторозрядних чисел є досить важливою задачею сучасної теорії чисел, обчислювальної математики та асиметричної криптографії, зокрема, криптосистеми Рабіна. У роб...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 128
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://europub.co.uk/articles/-A-341622