Towards information system development for data extraction from web

Abstract

<span>Today, the Internet contains a huge number of sources of information, which is constantly used in our daily lives. It often happens that similar in meaning information is presented in different forms on different resources (for example, electronic libraries, online stores, news sites and etc.). In this paper, we analyze the extraction of information from certain type of web sources that is required by the user. The analysis of the data extraction problem was carried out. When considering the main approaches to data extraction, the strengths and weaknesses of each were identified. The main aspects of the extraction of web knowledge were formulated. Approaches and information technologies for solving problems of syntactic analysis based on existing information systems are analyzed. Based on the analysis, the task of developing models and software components for extracting data from certain types of web resources were solving. A conceptual model of extracting data was developed taking into account web space as an external data source. A requirements specification for the software component was created, which will allow to continue working on the project and to clearly understand the requirements and constraints for implementation. During the process of modeling software, the following diagrams have been developed, such as activities, sequences and deployments, which will then be used to create the finished software application. For further development of the software, a programming platform and types of testing (load and modular) were defined. The obtained results allow to state that the proposed design solution, which will be implemented as a prototype of the software system, can perform the task of extracting data from different sources on the basis of a single semantic template.</span>

Authors and Affiliations

Yulia Gontar, Kateryna Tkach, Bohdan Yena, Artem Vasylenko

Keywords

Related Articles

Алгоритмический модуль формирования инвестиционной программы в рамках системы поддержки принятия решений по развитию предприятия

<span>Проведен обзор современных методов формирования инвестиционного портфеля, рассмотрены подходы к разработке систем поддержки принятия инвестиционных решений. На основе этого сделаны выводы о том, что такие системы п...

ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ПРОПОЗИЦІЙ ТОВАРІВ НА ОСНОВІ КОНТЕКСТНИХ РЕКОМЕНДАЦІЙ

<p class="304">Інтернет-технології є невід’ємною складовою відносин, які виникають у сучасному суспільстві. Через швидке впровадження та зручність електронних майданчиків, прогнозовано зростає попит на ринку IT-продуктів...

РОЗВ’ЯЗАННЯ МАТРИЧНОГО РІВНЯННЯ СІЛЬВЕСТРА СПЕКТРАЛЬНИМ МЕТОДОМ

Матричні лінійні рівняння Сільвестра та Ляпунова широко використовуються в теорії управління і теорії стійкості руху, а також при розв’язанні рівняння Ріккаті у задачі аналітичного конструювання оптимальних регуляторів....

Геоінформаційна система ідентифікації кадрів при реконструюванні місцевості

<span>Запропоновано алгоритм ідентифікації кадрів зображення місцевості, отриманого в процесі аерофотозйомки. Машинне навчання геоінформаціної системи здійснювалося за інформаційно-екстремальним алгоритмом. Як критерій о...

USING THE AGGREGATED CRITERIA TO EVALUATE THE SOFTWARE TESTS QUALITY

<p class="304Annotationeng">An approach to evaluating the software tests quality using aggregated quality criteria is proposed. The article considers the finding of such characteristics of software tests that can be used...

Download PDF file
  • EP ID EP465210
  • DOI 10.20998/2079-0023.2018.22.08
  • Views 115
  • Downloads 0

How To Cite

Yulia Gontar, Kateryna Tkach, Bohdan Yena, Artem Vasylenko (2018). Towards information system development for data extraction from web. Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї, 1298(22), 53-59. https://europub.co.uk/articles/-A-465210