APPROACH TO IDENTIFYING PLAGIARISM IN MULTILINGUAL TEXTS
Journal Title: Інформатика та математичні методи в моделюванні - Year 2018, Vol 8, Issue 2
Abstract
The task of identifying plagiarism between texts in different languages is an important variation of the general problem of identifying plagiarism. To solve this problem it is productive to calculate the degree of certain similarity of two texts which is called parallelism. In the article, the method of parallelism estimation based on Zipfian frequency distribution is studied. The key idea of the method is the construction of a linear regression model that compares the areas under the linearized Zipf curve for the corresponding documents. A computational procedure has been implemented to find the optimal classification parameters for such a model. To obtain a model more relevant to specific application conditions, computational experiments were performed to determine the optimal parameters corresponding to two classification metrics: the proportion of correct answers (accuracy) and F1-measure. The determination of the best classification parameters performed on the basis of the training subset of the corporal. To reliably estimate the model, classification metrics are recalculated on a test subset. The performed computational experiments using this approach showed limited applicability to language pairs composed of English, Russian and Ukrainian texts. To improve the filtering performance of parallel texts, a filter based on word frequencies in texts is proposed and implemented. To improve the quality of classification two directions have been formulated: an extension of the text corpora used in the model training, as well as methods for mutual using several classification filters.
Authors and Affiliations
V. G. Penko, I. H. Gafar Abdula
ОБОСНОВАНИЕ ПРИМЕНЕНИЯ ФРАКТАЛЬНОГО ПОДХОДА ДЛЯ СОЗДАНИЯ КОМПЛЕКСА АППАРАТУРЫ КОНТРОЛЯ ПОДЛИННОСТИ ЦИФРОВЫХ ФОНОГРАММ ПРИ ЭКСПЕРТИЗЕ МАТЕРИАЛОВ И СРЕДСТВ ЦИФРОВОЙ ЗВУКОЗАПИСИ JUSTIFICATION OF FRACTAL APPROACH USING TO CREATE COMPLEX EQUIPMENT FOR CONTROL OF AUTHENTIC DIGITAL PHONOGRAMS AT THE EXAMINATION OF DIGITAL AUDIO MATERIALS AND TOOLS
Показан фрактальный характер оцифрованного аналогового сигнала при записи информации на аппаратуре цифровой звукозаписи и фрактальный характер проявлений паразитных параметров такой аппаратуры, фиксируемых в информационн...
МОДЕЛЮВАННЯ ТА ОПТИМІЗАЦІЯ ДОСТУПУ ДО СТОРІНОК WEB-САЙТУ ДЛЯ РІЗНИХ ЗАКОНІВ РОЗПОДІЛУ ЙМОВІРНОСТЕЙ ЗВЕРТАННЯ ДО СТОРІНОК MODELING AND OPTIMIZATION OF ACCESS TO THE PAGES OF WEB-SITE FOR DIFFERENT DISTRIBUTION LAWS OF PROBABILITY OF ACСESSING TO THE PAGE
У статті розглянуто підхід до математичного моделювання оптимального доступу користувачів до послідовно організованих сторінок Web-сайту. Знайдено вираз для математичного очікування загального часу, необхідного для пошук...
СИНТЕЗ И МОДЕЛИРОВАНИЕ ЦИФРОВОГО УПРАВЛЯЮЩЕГО УСТРОЙСТВА ДЛЯ НЕСТАЦИОНАРНОГО ОБЪЕКТА SYNTHESIS AND SIMULATION OF DIGITAL MANAGING DEVICE FOR NON-STATIONARY OBJECT
Проведен синтез цифрового управляющего устройства для объекта, параметры которого – коэффициент усиления и постоянная времени - могут изменяться в широких пределах. Заданная часть системы включает в себя исполнительное...
ПРОГРАМНЕ ТА АПАРАТНЕ ТЕСТУВАННЯ ДЕКОДЕРУ TURBO-PRODUCT-КОДІВ
У роботі представлена методика тестування декодеру Turbo-Product-кодів на програмному та апаратному рівнях. Дана методика дозволяє отримати результати відносно корегуючої здатності декодеру, а також пропускної здатності....
ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ПРОГРАМНОЇ РЕАЛІЗАЦІЇ МЕТОДІВ ПОШУКУ ОБЕРНЕНОГО ЕЛЕМЕНТА ЗА МОДУЛЕМ EXPERIMENTAL RESEARCH OF PROGRAM IMPLEMENTATION OF METHODS OF THE INVERSE ELEMENT SEARCH BY MODULE
Знаходження мультиплікативного оберненого елемента за модулем дуже часто є необхідною умовою для розв’язування багатьох задач сучасної теорії чисел, обчислювальної та прикладної математики, асиметричної криптографії, зок...