APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS

Abstract

The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.

Authors and Affiliations

V. G. Penko, I. H. Gafar Abdula

Keywords

Related Articles

ОСНОВНЫЕ ТРЕБОВАНИЯ К СИСТЕМЕ ВЫЯВЛЕНИЯ ТОЧЕК ЦИФРОВОГО МОНТАЖА В ФОНОГРАММАХ И МЕТОДОЛОГИЯ ЕЕ СОЗДАНИЯ

Одним из сложнейших аспектов экспертизы материалов и средств видео и звукозаписи является выявление следов цифрового монтажа в фонограммах. Исследования этой проблемы привели к появлению ряда направлений и подходов к соз...

ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИЙ О РЕАЛИЗАЦИИ ПРИЛОЖЕНИЙ В ГИБРИДНОЙ ОБЛАЧНОЙ ИНФРАСТРУКТУРЕ SUPPORT FOR THE DECISION MAKING ON IMPLEMENTATION OF APPLICATIONS IN THE HYBRID CLOUD INFRASTRUCTURE

Облачные технологии и платформы активно развиваются и становятся все более востребованными. Наибольшую популярность последнее время завоевывают гибридные облака и мультиоблачные услуги, в которых реализуется распределенн...

ВИЗНАЧЕННЯ ОЦІНКИ СУМАРНОГО КОРЕЛЯЦІЙНОГО ВЗАЄМОВПЛИВУ ПЕРІОДИЧНИХ ПРОЦЕСІВ З БАГАТОКРАТНИМ ПОВТОРЕННЯМ ТА ПРЕДСТАВЛЕННЯМ В ПОЛЯРНІЙ СИСТЕМІ КООРДИНАТ DETERMINATION THE GENERALIZED CORRELATION ESTIMATE THE IMPACT OF PERIODIC SIGNALS CONSIDERING MULTIPLE REPETITION AND REPRESENTATION IN POLAR COORDINATES

Запропонована сумарна оцінка кореляційних взаємовпливів періодичних процесів з врахуванням багатократного повторення та представлення кореляційних функцій в полярній системі координат. The proposed the generalized correl...

НЕЧІТКА МОДЕЛЬ ФОРМУВАННЯ ІНДИВІДУАЛЬНОЇ ТРАЄКТОРІЇ НАВЧАННЯ ТА ПОБУДОВА ОНТОЛОГІЇ НА ЇЇ ОСНОВІ FUZZY MODEL OF INDIVIDUAL LEARNING PATH FORMING AND ONTOLOGY DESIGN ON ITS BASIS

У статті запропоновано реалізацію моделі формування навчального матеріалу на основі рівня знань студентів і складності завдань (побудови індивідуальної траєкторії навчання), яка базується на апараті нечіткої логіки. Побу...

СПРОЩЕННЯ МАТЕМАТИЧНИХ МОДЕЛЕЙ ОБ’ЄКТІВ З РОЗПОДІЛЕНИМИ ПАРАМЕТРАМИ НА ОСНОВІ МЕТОДУ РОЗЩЕПЛЕННЯ SIMPLIFICATION OF MATHEMATICAL MODELS OF OBJECTS WITH DISTRIBUTED PARAMETERS BY THE METHOD OF SPLITTING

У статті розглянуто методи побудови спрощених моделей багатовимірних задач теплопровідності у вигляді добутку розв’язків одновимірних задач. Ефективність запропонованого підходу показано на основі аналізу складності чисе...

Download PDF file
  • EP ID EP341622
  • DOI -
  • Views 122
  • Downloads 0

How To Cite

V. G. Penko, I. H. Gafar Abdula (2018). APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS. Інформатика та математичні методи в моделюванні, 8(2), 121-128. https://europub.co.uk/articles/-A-341622