Misja

Naszym celem jest rozwój i wsparcie wykorzystania cyfrowych narzędzi i zasobów w naukach humanistycznych.

Dlatego też, w ramach rozwijanej przez nas infrastruktury informatycznej tworzymy rozwiązania wspierające realizację każdego z czterech poniższych etapów procesu badawczego.

Na tej stronie znajdziecie Państwo opisy narzędzi i zasobów, które mogą być przydatne w realizacji badań humanistycznych oraz informacje na temat działań mających na celu interdyscyplinarna wymianę wiedzy i doświadczenia w tym zakresie, a także budowę społeczności naukowej zainteresowanej tematyką cyfrowych aspektów badań humanistycznych. Wszystkich zainteresowanych współtworzeniem, dalszym rozwojem lub wykorzystaniem opisanej tu infrastruktury prosimy o kontakt.

Gromadzenie materiałów do badań

Pierwszym krokiem w procesie badawczym, jest odnalezienie materiałów źródłowych, które będą podstawą do uzyskania odpowiedzi na postawione pytanie badawcze. Przedstawione poniżej narzędzia i zasoby są przydatne właśnie w trakcie gromadzenia i organizowania materiału źródłowego, przed rozpoczęciem procesu jego dalszego przetwarzania i analizy. Wykorzystanie tych narzędzi może być cenną pomocą zarówno dla indywidualnych naukowców, jak i całych zespołów badawczych.

Federacja Bibliotek Cyfrowych

Portal Federacji Bibliotek Cyfrowych (http://fbc.pionier.net.pl) umożliwia łatwe i szybkie przeszukiwanie opisów publicznie dostępnych zbiorów zgromadzonych w polskich bibliotekach cyfrowych. Jest to około 1.3 miliona dokumentów z kolekcji kilkuset instytucji kultury i nauki z całego kraju, wśród których można znaleźć zarówno średniowieczne manuskrypty i inkunabuły, jak i książki oraz wydawnictwa seryjne, a także współczesne artykuły naukowe. Celem FBC jest również promocja otwartości instytucji kultury.

Samodzielna digitalizacja tekstów historycznych

Digitlab to darmowy kompletny system, który może zostać wykorzystany w procesie samodzielnej cyfryzacji zbiorów. Głównym założeniem jest tu użycie darmowych i ogólnodostępnych narzędzi osadzonych w specjalnie przystosowanym systemie operacyjnym opartym o Linux Ubuntu. W kwietniu 2013 r. DigitLab zdobył trzecie miejsce w konkursie na najciekawszy akademicki projekt open source portalu Fundacji Wolnego i Otwartego Oprogramowania Spinacz.

Semantyczne bazy danych

Pod adresem topincs.man.poznan.pl utrzymywane są otwarte narzędzia do tworzenia semantycznych baz danych i wiedzy dla projektów humanistycznych. Bazy te cechują się bardzo elastycznym modelem organizacji wiedzy i mogą służyć do zbierania informacji i materiałów cyfrowych przydatnych do realizacji celów badawczych projektów humanistycznych. W tej chwili dostępne są bazy następujących projektów:

Zasoby językowe

W czasie prac realizowanych przez PCSS w projekcie IMPACT opracowane zostały wysokiej jakości transkrypcje polskich tekstów historycznych drukowanych pomiędzy XVI-XVII wiekiem. W sumie przetworzone zostały 4 693 pliki, a ich transkrypcje mają łącznie 6 890 677 znaków. Rozmiar wszystkich transkrypcji wraz z dodatkowymi informacjami to ponad 700MB. Wszystkie te wyniki zostały udostępnione na wolnej licencji Creative Commons Uznanie autorstwa 3.0 Polska i można je pobrać ze strony Zespołu Bibliotek Cyfrowych PCSS. Wszystkie powyższe zasoby dostępne są również w ramach wyszukiwarki Poliqarp, udostępnionej przez Katedrę Lingwistyki Formalnej UW i dostępnej pod adresem http://poliqarp.wbl.klf.uw.edu.pl/pl/.

Masowe automatyczne pobieranie danych ze stron internetowych

Materiałami źródłowymi dla badań humanistycznych mogą być teksty historyczne, ale również teksty współczesne, takie jak strony internetowe, blogi czy systemy wiki. Część dużych, otwartych i profesjonalnie prowadzonych stron (jak np. Wikipedia) daje możliwość pobrania całej udostępnianej na nich treści. W przypadku innych serwisów przydatne mogą być takie narzędzia jak rozwijany przez amerykańską organizację Internet Archive system Heritrix czy opracowany przez PCSS system Clepsydra, dzięki któremu było m.in. możliwe pobranie na potrzeby Federacji Bibliotek Cyfrowych danych z Polskiej Biblioteki Internetowej, serwisu udostępniającego ponad 30 000 publikacji wraz z opisami, ale niestety nie posiadającego otwartych interfejsów dostępowych i nie rozwijanego od wielu lat.

Przetwarzanie i analiza

Po zgromadzeniu materiału badawczego można rozpocząć dalsze jego przetwarzanie i analizę. Przetwarzanie ma zazwyczaj na celu doprowadzenie zgromadzonych danych do postaci umożliwiającej dalszą ich analizę i może być realizowane w sposób w pełni zautomatyzowany (np. na zasadzie przetwarzania wsadowego) lub też w sposób półautomatyczny, przez naukowców wykorzystujących odpowiednie narzędzia informatyczne. Odpowiednio przygotowany i przetworzony materiał badawczy może być następnie przedmiotem analizy, której celem jest uzyskanie informacji niezbędnych do odpowiedzenia na postawione pytanie badawcze. Oczywistym uzupełnieniem dla narzędzi są również szerokopasmowa sieć naukowa Polski Internet Optyczny PIONIER i moc obliczeniowa dostępna w ramach Platformy Obsługi Nauki PLATON, pozwalające na przesyłanie i przetwarzanie dużych wolumenów danych.  

Wirtualne Laboratorium Transkrypcji

  Wirtualne Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) to bezpłatny portal oferujący możliwości społecznościowej transkrypcji i adnotacji dokumentów historycznych, wsparty wbudowaną profilowaną usługą przetwarzania obrazów na tekst (OCR). Użytkownicy WLT mogą pracować z plikami zaimportowanymi bezpośrednio z publicznie dostępnych bibliotek cyfrowych lub z samodzielnie załadowanymi dokumentami z prywatnych zbiorów. Po zakończeniu pracy wyniki mogą być wyeksportowane jako tekst lub w postaci plików hOCR i ePUB. System wspiera pracę grupową, otwarte i zamknięte projekty oraz automatycznie wersjonowanie wyników prac.  

Narzędzia lingwistyczne

  W ramach dotychczasowych prac Grupy Technologii Językowych G4.19 działającej na Politechnice Wrocławskiej powstał szeroki wachlarz narzędzi pozwalających na automatyczne przetwarzanie tekstów w języku polskim. Jednym z najistotniejszych zasobów udostępnianych przez zespół z Politechniki Wrocławskiej jest Słowosieć polski odpowiednik Princeton Wordnet, zawiera on w tej chwili 106 tys. wyrazów powiązanych w 158 tys. grup znaczeniowych. Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS) udostępnia serwery na potrzeby hostingu usługi identyfikującej wystąpienia słów kluczowych w tekstach oraz kopia Słowosieci.  

Budowa baz wiedzy z informacji w plikach XML

  Opracowane przez PCSS narzędzie jMet2Ont umożliwia konwersję ustrukturyzowanych informacji wyrażonych w formacie XML do postaci semantycznych baz wiedzy. Dzięki temu przy pomocy odpowiednich narzędzi wizualizacyjnych (np. RDF-Gravity, RelFinder czy SemLens) można odkrywać nieoczywiste powiązania pomiędzy faktami z bazy wiedzy, uzyskane na podstawie informacji pierwotnie rozproszonych w wielu plikach. Narzędzie to oferuje nie tylko przetwarzanie danych z postaci strukturalnej do semantycznej, ale również umożliwia wzbogacanie i powiązanie postaci wynikowej z zewnętrznymi źródłami danych, takimi jak bazy miejscowości (Geonames), osób i instytucji (VIAF) czy ogólne bazy informacyjne (DBpedia). Ponadto w ramach opracowanego przez PCSS systemu Clepsydra przetwarzanie danych w jMet2Ont można dodatkowo łączyć z narzędziami do masowego czyszczenia i normalizacji danych (np. usługi normalizacji zapisu dat).

Usługi kampusowe PLATON-U3

  Pracownicy polskich instytucji naukowych mogą wykorzystywać możliwości oferowane przetwarzania chmurowego oferowane przez PLATON-U3 (Usługi kampusowe) i prowadzić na serwerach tej usługi analizę danych przy pomocy oprogramowania takiego jak Statistica czy Matlab (pełna lista dostępnego oprogramowania). W przyszłości planujemy wsparcie i promocję szerszego wykorzystania możliwości obliczeniowych oferowanych przez PLATON-U3 do prowadzenia analizy danych na potrzeby badań humanistycznych.

Publikowanie wyników

Publikacja i promocja wyników jest końcowym etapem procesu badawczego. Ważne jest również długoterminowe zabezpieczenie wykorzystanego materiału źródłowego oraz udokumentowanie zastosowanych metod badawczych tak, aby możliwa była ponowna weryfikacja przeprowadzonych prac oraz ich kontynuacja. Należy również dołożyć wszelkich starań, aby zapewnić wynikom prac odpowiednią widoczność, aby inni potencjalnie zainteresowani mogli je odnaleźć. Naturalnym sposobem jest przygotowanie publikacji naukowej i opublikowanie jej oraz udostępnienie w repozytorium instytucjonalnym, ale warto pamiętać również o dodatkowych metodach promocji opartych o nowe media, oferowanych m.in. przez Telewizję Naukową PlatonTV.

Otwarte repozytoria instytucjonalne

Obecnie wydanie publikacji opisującej wyniki badań drukiem praktycznie zawsze łączy się z powstaniem analogicznego dokumentu cyfrowego, co więcej często forma elektroniczna zastępuje formę papierową. Warto pamiętać, że poza przekazaniem publikacji do dystrybucji poprzez wydawcę, możliwe jest również jej zdeponowanie w repozytorium instytucjonalnym, czyli serwisie gromadzącym w postaci cyfrowej dorobek naukowy pracowników danej instytucji. Możliwości działania w tym zakresie w kontekście zapisów umów poszczególnych wydawnictw można weryfikować przy pomocy takich serwisów jak SHERPA/ROMEO. Coraz częściej zdarza się też że przekazywanie publikacji do repozytorium instytucjonalnego jednostki w ramach której były prowadzone badania jest obowiązkowe i może być powiązane z tzw. Mandatem OpenAccess obowiązującym w tej jednostce. Otwarte udostępnianie wyników prac naukowych w repozytoriach instytucjonalnych znacznie zwiększa szansę na dotarcie do nich przez zainteresowane osoby, a co za tym idzie zwiększa liczbę ich cytowań. Co więcej, udostępnione w ten sposób wyniki prac wraz z ich bibliografiami mogą być zaindeksowane przez wyszukiwarkę prac naukowych Google Scholar. Dane z tej wyszukiwarki czerpie narzędzie Publish or Perish, które jest jednym z dwóch źródeł informacji wskazanych jako preferowane przez Narodowe Centrum Nauki przy podawaniu łącznej liczby cytowań oraz indeksu H osób aplikujących o dofinansowanie badań (w ramach programów NCN w panelu nauk humanistycznych i społecznych). Rozwijana w PCSS od 1999 roku dLibra jest przykładem zgodnego z Google Scholar oprogramowania do budowy bibliotek cyfrowych i repozytoriów. Została ona już wykorzystana do budowy ponad 80 bibliotek cyfrowych i repozytoriów w Polsce. Oprogramowanie to wykorzystują zarówno małe jak i duże instytucje, które z powodzeniem udostępniają dokumenty historyczne, ale również współczesne publikacje naukowe. Przykładem dużego repozytorium instytucjonalnego opartego na systemie dLibra może być Repozytorium Cyfrowe Instytutów Naukowych. Inne tego typu systemy to rozwijane w USA oprogramowanie DSpace oraz angielski system EPrints.

Długoterminowe przechowywanie zasobów

Drugim z rozwiązań rozwijanych w PCSS jest bezpłatny system dArceo umożliwiający długoterminowe przechowywanie danych źródłowych, rozwijany przede wszystkim z myślą o dokumentach tekstowych, graficznych oraz audiowizualnych. Jego funkcje pozwalają na realizację migracji danych źródłowych zgodnie z założeniami modelu OAIS. dArceo udostępnia ponadto funkcje konwersji oraz dostarczania danych źródłowych, które mogą wspomagać zarówno budowanie bibliotek cyfrowych, jak i wykorzystanie danych źródłowych przez zaawansowanych użytkowników, np. naukowców humanistów. dArceo może współpracować z usługą powszechnej archiwizacji PLATON-U4, rozwijaną w projekcie PLATON, a wdrożoną w ramach krajowej naukowej sieci PIONIER.

Telewizja naukowa PlatonTV

Usługi naukowej interaktywnej telewizji HD, wdrożone w środowisku sieci PIONIER, zapewniają możliwość produkcji, składowania i udostępniania treści audiowizualnych zrealizowanych w technologii HD o tematyce naukowej dla środowiska naukowego i całego społeczeństwa. Obejmuje to oczywiście również nauki humanistyczne i społeczne. W ramach projektu uruchomiona została infrastruktura składająca się ze zlokalizowanych w jednostkach MAN i centrach KDM studiów produkcyjnych (6 szt.) i studiów nagrań (15 szt.) oraz wozu transmisyjnego - mobilnego studia produkcyjnego. Wyposażenie to pozwala na produkcję materiałów audiowizualnych w formie programów oraz transmisji na żywo i umieszczanie ich w repozytoriach treści lub emisje. Treści te są udostępniane na portal usługi naukowej interaktywnej telewizji HD (http://tv.pionier.net.pl) i mogą być doskonałą formą promocji dla wyników badań realizowanych w ramach projektów humanistycznych.