U bram lingwistycznej szczęśliwości, czyli kulisy projektu Odkrywka: cyfrowe zasoby kultury jako źródło mas danych językowych

Abstract

Współcześnie coraz większa liczba materiałów historycznych, takich jak gazety, książki i dokumenty archiwalne, poddawana jest procesowi digitalizacji, a następnie udostępniana w formie cyfrowej w Internecie. Federacja Bibliotek Cyfrowych (FBC), gromadząca, przetwarzająca i udostępniająca informacje o internetowych zbiorach polskich instytucji nauki i kultury, liczy ponad 100 źródeł danych, w skład których wchodzą biblioteki cyfrowe, archiwa, repozytoria i inne. Spośród polskich bibliotek cyfrowych można wyodrębnić m.in. Wielkopolską Bibliotekę Cyfrową, Małopolską Bibliotekę Cyfrową, e-bibliotekę Uniwersytetu Warszawskiego i Jagiellońską Bibliotekę Cyfrową. Zbiory udostępniane przez te biblioteki, a także inne teksty elektroniczne są bogatym źródłem wiedzy o historii, kulturze, społeczeństwie i języku. Przedstawione źródła danych stanowią podstawę projektu Odkrywka, realizowanego przez pracowników Instytutu Językoznawstwa i Pracowni Systemów Informacyjnych Uniwersytetu im. Adama Mickiewicza w Poznaniu. Projekt ten ma na celu wykorzystanie bazy zdigitalizowanych tekstów w języku polskim do prowadzenia szybkich i efektywnych badań nad językiem, kulturą i historią Polski. W przedsięwzięciu w charakterze korpusu diachronicznego, liczącego setki tysięcy tekstów XIX i XX w., wykorzystywane są kolekcje upublicznione przez biblioteki cyfrowe oraz inne źródła internetowe. W artykule podane zostały najważniejsze wiadomości dotyczące projektu, zaprezentowano narzędzia wyszukiwania wyrazów i fraz oraz wykresy częstości. Poruszone zostało zagadnienie aktualnych badań oraz perspektywicznych analiz prowadzonych w oparciu o stworzony system.

Authors and Affiliations

Filip Graliński, Daniel Dzienisiewicz, Piotr Wierzchoń

Keywords

Related Articles

Assessing Epistemic Claims by Experimental Evidence

Research methodology decisions require clear criteria for selection of appropriate measures and procedures. These decisions often entail rules for assessing knowledge claims. Epistemic claims assert knowledge about under...

Digitalizacja przeszłości i dziedzictwa kulturowego w społecznościach lokalnych – znaczenie i funkcje

Digitalizacja przeszłości i dziedzictwa kulturowego oznacza cyfryzację wielorakich zasobów kulturowych, dokonywaną tak w ramach jak i poza oficjalnymi instytucjami kultury i administracji (oddolna digitalizacja), książek...

Kobiety 50+ w Polsce. Między wyzwaniami społecznymi a możliwościami zdrowotnymi

Artykuł przedstawia proces starzenia się kobiet w Polsce z perspektywy biologicznej, zdrowotnej, psychologicznej i społeczno-kulturowej. Wskazuje również na pewne odmienności tego procesu w stosunku do starzenia się mężc...

Legal professions

Legal professions play a pivotal role in modern legal systems. Due to their systemic importance, legal professions had to develop strategies to sustain their existence and retain their influence. One of such strategies w...

"Przestępstwa bez ofiar" - zapomniana koncepcja czy aktualny problem kryminalnopolityczny

Problematyka „przestępstw bez ofiar” aktualnie rzadko jest przedmiotem badań kryminologicznych. Jest to jednak nadal interesujący punkt wyjścia do analizy stanowienia i stosowania prawa karnego. Polityka karna w odniesie...

Download PDF file
  • EP ID EP343289
  • DOI -
  • Views 80
  • Downloads 0

How To Cite

Filip Graliński, Daniel Dzienisiewicz, Piotr Wierzchoń (2017). U bram lingwistycznej szczęśliwości, czyli kulisy projektu Odkrywka: cyfrowe zasoby kultury jako źródło mas danych językowych. Annales Universitatis Paedagogicae Cracoviensis. Studia Sociologica, 0(1), 51-62. https://europub.co.uk/articles/-A-343289