Google Books jako korpus językowy

Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2018, Vol 0, Issue 74

Abstract

Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z jakimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia krótko problemy badawcze dotyczące Google Books. Google Books as a language corpus. A b s t r a c t. This article concerns Google Books, a digital library available on the Internet, which contains scans of 30 million books. At present, it is the largest source of textual data in digital format worldwide. Google Books may be called a corpus, but it is markedly different from traditional language corpora. Classification difficulties arise from specific limitations encountered during research. Among other things, some sources are available as full texts, while others offer limited preview; bibliographic metadata are often wrong; and the quality of optical character recognition is far from perfect, especially when applied to older texts. The article briefly discusses research problems involved in using Google Books.

Authors and Affiliations

Mirosława Podhajecka

Keywords

Related Articles

Granice języka a granice językoznawstwa

Kwestię granic języka i lingwistyki autor rozważa, odwołując się do tzw. pełnej teorii naukowej. W złożonej hierarchiczno-sieciowej strukturze tej teorii można wyróżnić trzy poziomy; bazę filozoficzną, interpretacyjny ob...

Znaczenie metody biograficznej w badaniach gwary staroobrzędowców mieszkających w Polsce

Celem niniejszego artykułu jest analiza przydatności i ukazanie sposobu wykorzystania metody biograficznej w badaniach zjawisk zachodzących w gwarze staroobrzędowców mieszkających w Polsce na podstawie materiałów zebrany...

Bibliografie słowników przekładowych jako narzędzie rekonstrukcji dziejów oraz oceny stanu i dorobku słownikarstwa narodowego

Celem artykułu jest zaprezentowanie różnorodnych zastosowań tworzonych baz faktograficznych w po - staci usystematyzowanych, zaopatrzonych w latentne informacje, bibliografii polskich słowników prze - kładowych obejmując...

Kognitywistyczne ujęcia derywatów słowotwórczych a koncepcja Miloša Dokulila

Autorka omawia związek między kognitywnymi opisami słowotwórstwa a teorią onoma- zjologiczną Miloša Dokulila, zwracając szczególną uwagę na: 1) relację między derywatami słowotwórczymi a leżącymi u ich podstaw struktura...

The boundaries of linguistic interpretation – myth or reality?

The question of determining the boundaries of linguistic interpretation may be reduced to the following sub-problems: a) outlining the horizons of the subject-matter of linguistics; b) outlining the horizons of linguisti...

Download PDF file
  • EP ID EP523436
  • DOI 10.17651/bptj.74.2
  • Views 109
  • Downloads 0

How To Cite

Mirosława Podhajecka (2018). Google Books jako korpus językowy. Biuletyn Polskiego Towarzystwa Językoznawczego, 0(74), 31-46. https://europub.co.uk/articles/-A-523436