Towards information system development for data extraction from web

Abstract

<span>Today, the Internet contains a huge number of sources of information, which is constantly used in our daily lives. It often happens that similar in meaning information is presented in different forms on different resources (for example, electronic libraries, online stores, news sites and etc.). In this paper, we analyze the extraction of information from certain type of web sources that is required by the user. The analysis of the data extraction problem was carried out. When considering the main approaches to data extraction, the strengths and weaknesses of each were identified. The main aspects of the extraction of web knowledge were formulated. Approaches and information technologies for solving problems of syntactic analysis based on existing information systems are analyzed. Based on the analysis, the task of developing models and software components for extracting data from certain types of web resources were solving. A conceptual model of extracting data was developed taking into account web space as an external data source. A requirements specification for the software component was created, which will allow to continue working on the project and to clearly understand the requirements and constraints for implementation. During the process of modeling software, the following diagrams have been developed, such as activities, sequences and deployments, which will then be used to create the finished software application. For further development of the software, a programming platform and types of testing (load and modular) were defined. The obtained results allow to state that the proposed design solution, which will be implemented as a prototype of the software system, can perform the task of extracting data from different sources on the basis of a single semantic template.</span>

Authors and Affiliations

Yulia Gontar, Kateryna Tkach, Bohdan Yena, Artem Vasylenko

Keywords

Related Articles

Розробка представлення причинно-наслідкових залежностей для бази знань системи процесного управління

<span>Досліджено проблему побудови представлення знань в системі процесного управління для знання-ємних бізнес-процесів в аспекті відображення причинно-наслідкових зв’язків між контекстом виконання дій та діями бізнес-пр...

DEVELOPMENT OF A DATABASE STRUCTURE FOR STORING MODELS FOR DETERMINATED ALPHABETES CLASSES RECOGNITION BASED ON THE SET OF HETEROGENEOUS CHARACTERISTIC

<p class="304Annotationeng">The objects and situations recognition is important problem in such areas as the definition of the types of air objects according to various sources of information, diagnosis of patients on th...

Моделирование осесимметричной теплопроводности в компактных изделиях керамического ядерного топлива с учетом температурных зависимостей теплофизических характеристик

<span>Обсуждаются возможности применения различных математических формулировок для моделирования осесимметрично теплопроводности компактных изделий керамического ядерного топлива. Показано, что применение уравнения тепло...

Методи оптимізації топологічних структур у проектах реінжинірингу великомасштабних об’єктів

<span>Знайшла подальшого розвитку математична модель задачі реінжинірингу топологічних структур централізованих великомасштабних об’єктів за показником витрат у частині врахування їх багаторівневості. Цільову функцію мод...

Стохастический анализ измерений пятишарового спектрометра Боннера

<span>Проанализированы данные, полученные при испытании шарового нейтронного спектрометра Боннера активационного типа, состоящего из пяти полиэтиленовых шаров диметром от 90 мм до 245 мм. В качестве активируемого материа...

Download PDF file
  • EP ID EP465210
  • DOI 10.20998/2079-0023.2018.22.08
  • Views 116
  • Downloads 0

How To Cite

Yulia Gontar, Kateryna Tkach, Bohdan Yena, Artem Vasylenko (2018). Towards information system development for data extraction from web. Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї, 1298(22), 53-59. https://europub.co.uk/articles/-A-465210