Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Ze względu na jego objętość podręcznik użytkownika jest również dostępny jako plik pdf: Podręcznik Użytkownika platformy Annotation Helper v1.2.pdf

Dodatkowo: Przypadek użycia "comedy club", Zbiór danych: dowcipy.csv

...

Przykładowe zastosowania to: etykietowanie zdjęć pobranych z mediów społecznościowych pod kątem ich treści, etykietowanie tekstów pod kątem ich wydźwięku, emocji w nich zawartych lub emocji wzbudzających, rozpoznawanie dźwięków w pliku muzycznym lub video i inne... Etykietowanie danych jest rzeczą niezbędna m.in. w trakcie tworzenia zbioru uczącego w nadzorowanym uczeniu maszynowym (ang. supervised machine learning).

Platforma ta jest ściśle związana z „Repozytorium”, z którą wymienia dane. Z niej pobiera zbiór do przygotowania jego adnotacji, a po zakończeniu zwraca rozszerzony o adnotację zbiór z powrotem do repozytorium.

...

W przypadku wgrania do AnnotationHelper zbioru danych w formacie CSV obligatoryjny jest nagłówek, a w nim przynajmniej jedna z nazw kolumn text, img_url, music_url, video_url, przy czym wielkość znaków nie gra roli. Wszystkie inne nazwy kolumn zostaną zignorowane!

Kolumny te jest traktowana jako źródło danych, które mogą być poddane adnotacji.

...

  • Zawartość zbioru nie jest kompatybilnym plikiem CSV
    • Brak nagłówka,
    • Różna liczba kolumn w poszczególnych wierszach
    • Teksty zawierające znak będący separatorem nie oznaczone dodatkowymi cudzysłowami.
    • Nazwy kolumn inne niż: text, img_url, music_url, video_url
    • Zawartość pola pól img_url, music_url niebędąca , video_url  niebędąca popranym URI
    • Zbiór danych zawiera więcej niż 10000 porcji danych
    • Zbiór zawiera znaki, które uniemożliwiają wczytanie go do natywnych bibliotek języka ruby. Pliki powinny być zgodne z kodowaniem UTF-8.

...

więcej o csv na: https://pl.wikipedia.org/wiki/CSV_%28format_pliku%29

 

JSON

W przypadku zbioru danych w formacie JSON zakłada się, że zbiór to tablica zawierająca obiekty, z których każdy zawiera atrybut co najmniej jeden z atrybutów: text, img_url, music_url, video_url, (Wszystkie inne zostaną zignorowane), przy czym ostatnie trzy mogą wystąpić w jednym z dwóch miejsc w obiekcie:

...

  • Zawartość zbioru nie jest kompatybilnym plikiem JSON
    • Złe formatowanie
    • Zbiór danych zawiera więcej niż 10000 obiektów danych
    • Nazwy kolumn inne niż: text, img_url, music_url, video_url
    • Zbiór zawiera znaki, które uniemożliwiają wczytanie go do natywnych bibliotek języka ruby. Pliki powinny być zgodne z kodowaniem UTF-8.

Przykładowy zbiór w formacie JSON:

[{"text": "To jest przykładowy tekst", "video_url":"", "inny_atrybut": "wartość atrybutu"},

...

Więcej o json na: https://pl.wikipedia.org/wiki/JSON

 

Zdefiniowanie nowego projektu

...

Dokładny opis poszczególnych parametrów został zamieszczony w dalszej części tego podręcznika oraz przy tych parametrach na stronie internetowej. Aby przeczytać opis, należy najechać myszą na ikonę z literką i (jak informacja), a wtedy wyświetli się chmurka (ang. tooltip).

W czasie definiowania projektu można w dowolnej chwili zapisać postęp klikając w guzik „zapisz”. W dowolnej chwili można edytować nierozpoczęty projekt wybierając go z listy dostępnej pod „Przeglądaj projekty” w menu. Aby rozpocząć badanie wciśnij „Zapisz i uruchom” z poziomu konkretnego formularza.

...

Jest to projekt, który jest w trakcie konfigurowania. Projekt ma status oczekujący po tym jak zleceniodawca poda przynajmniej nazwę projektu i wciśnie guzik "Zapisz Konfigurację".

Dostępne opcje w statusie „oczekujący”

...

Projekt rozpoczęty to taki, który został zatwierdzony przez zleceniodawcę poprzez kliknięcie w guzik "Zatwierdź i Uruchom", konfiguracja przeszła pomyślnie walidację, pożądany zbiór danych został pomyślnie wczytany do systemu z repozytorium. Od tej chwili zleceniodawca ma dostęp do specjalnych linków umożliwiających dostęp do adnotacji w ramach tego projektu. Linki te może rozesłać do pożądanych osób. Jeśli zleceniodawca podczas konfiguracji oznaczył projekt jako publiczny, to od tej chwili projekt będzie również widoczny dla wszystkich (również dla osób niezarejestrowanych) w zakładce „Publiczne projekty”.

...

Adnotacji może podlegać tekst, obrazki, dźwięki/muzyka i film oraz dowolne kombinacje powyższych.

Liczba etykiet

Zaznacz, spośród jakiej liczby etykiet adnotatorzy będą wybierać.

...

W celu ułatwienia adnotacji, zwłaszcza w przypadku małej liczby etykiet (np. 3), warto jest zdefiniować skróty klawiszowe, które zaznaczą daną etykietę. Kontrolka skrótu klawiszowego działa inaczej niż pozostałe, gdyż wyświetlać ona będzie nie tradycyjny tekst, tylko kombinację wciśniętych klawiszy, np. zamiast wykrzyknika ‘!’ zobaczymy shift+1. Nie wszystkie skróty są dozwolone. Jeśli po wciśnięciu klawiszy wpis w kontrolce się nie zmienił, to jest to znak, że dany skrót jest niedoswolonyniedozwolony.

Alternatywny sposób wpisywania etykiet

...

Zleceniodawca uzyskuje wsparcie ze strony systemu również w kontroli nad osobami adnotującymi. W zakładce "Adnotatorzy" dostępne są opcje: Podgląd Adnotacji, Zablokowanie dostępu, Usunięcie adnotacji "tego" użytkownika pod każdym adnotującym.  Podgląd adnotacji osoby pozwala zobaczyć losowo wybrane adnotacje w celu oceny ich poprawności. Jest to mechanizm obronny przed sytuacjami takimi, że osoba adnotująca celowo wprowadza fałszywe adnotacje. Po wykryciu takiej osoby zleceniodawca może zablokować dla niej dostęp do projektu oraz usunąć wszystkie dotychczasowe adnotacje. Raz zablokowany dostęp można później przywrócić.

...

Również osoby adnotujące mają do swojej dyspozycji podręcznik. Jest on generowany dynamicznie na podstawie konfiguracji projektu. Jest on dołączony do każdego projektu i rozwinięty przy pierwszym załadowaniu strony (patrz rysunek poniżej). Podręcznik można przejrzeć a potem zwinąć/ukryć.