Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Po aktywacji usługi na koncie PL-GRID, należy wejść na stronę portalu usługi Complex Networks https://cn.plgrid.pl/ . Następnie należy wybrać z menu (u góry strony) [Zadania] -> [Zleć syndykację].

Usługa syndykacji działa w dwóch trybach: 1) Crawling oraz 2) Parsing. 

Crawling

Ten tryb służy do pobierania surowych danych z wybranego źródła. Każde źródło zostanie zapisane w postaci plików html w repozytorium danych (więcej strona o DSpace).

Podstawowymi parametrami usługi jest data początkowa oraz data końcowa okresu z jakiego mają pochodzić dane. Usługa sprawdza datę publikacji i decyduje czy należy ją pobrać do zbioru użytkownika. Użytkownik ma także możliwość sparametryzować nazwę pliku wyjściowego.

Pozostałe parametry są zmienne ze względu na heterogeniczość źródeł danych. Poniżej przedstawione są parametry poszczególnych źródeł [parametr_zalecany/parametr]:

Twitter

Początkowy użytkownik: nazwa użytkownika (login) którego posty mają zostać zebrane

phpBB2/phpBB3

URL - strona główna forum dyskusyjnego z którego chcemy pobrać dane

Parsing

Ten tryb służy do przetworzenia plików zebranych w trybie Crawling do jednolitej dla wszystkich źródeł struktury danych. Parsowane dane również są umieszczane w repozytorium w postaci pliku tekstowego w formacie JSON. Schemat struktury danych dostępny tutaj

Dodatkowe parametry:

Salon24

Dziel dane na bloki - [Tak/Nie] parametr określający czy parsowane dane mają być dzielone na bloki. Źródło danych jest bardzo duże przy parsowaniu dużej jego części może dojść do sytuacji gdy zabranie pamięci operacyjnej aby zapisać dane do repozytorium.

Maksymalny rozmiar bliku posta - maksymalna ilość postów w jednym bloku. Parametr ma zastosowanie jeśli i tylko jeśli parametr Dziel dane na bloki ma wartość TAK.

Maksymalny rozmiar bliku komentarza - maksymalna ilość komentarzy w jednym bloku. Parametr ma zastosowanie jeśli i tylko jeśli parametr Dziel dane na bloki ma wartość TAK.

Zbieraj statusy - [TAK/NIE] parametr określa czy parsowane posty mają mieć zbierane również dane o statusie społecznym (statusy w mediach społecznościowych Facebook, Twitter, Google+). Wymaga to jednak dodatkowego łączenia się z tymi serwisami co znacznie spowalnia pracę usługi.

Zaawansowane użycie

Aby skorzystać z opcji Anotatora patrz na stronę od Włodka

...