Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
  1. Korzystanie z API do inferencji modeli językowych rozliczane jest przy użyciu tzw. kredytów. Tokeny generowane przez dany model są przeliczane na kredyty, koszt tokenu uzależniony jest od rozmiaru modelu.
  2. O usługę dostępu do hostowanego API modeli językowych wnioskować można w portalu PLGRID w zakładce usługi. Należy wyszukać i aktywować usługę Dostęp do dużych modeli językowych w ośrodku Cyfronet. Usługa może zostać aktywowana tylko użytkownikom z grantem właściwym posiadającym alokację kredytów.
  3. Po otrzymaniu dostępu do usługi należy przejść do llmlab.plgrid.pl i zalogować się przez przy użyciu danych z portalu PLGRID.
  4. Po zalogowaniu, w głównym panelu zobaczymy:
    1. Listę aktywnych grantów wraz z ilością dostępnych kredytów i stopniem ich zużycia
    2. Sekcję do generowania kluczy API dla danego grantu
    3. Sekcję do sprawdzania obecnie aktywnych modeli
  5. Aby wygenerować klucz do API, należy w sekcji "Generate API Key" wybrać z listy rozwijanej grant do rozliczenia zapytań. Po wyborze grantu należy kliknąć przycisk “Generate” - na ekranie pojawi się klucz API do uwierzytelnienia zapytań do modelu. Klucz ważny jest przez 30 dni, nie ma możliwości jego ponownego wyświetlenia.
  6. Aby sprawdzić dostępne modele, należy kliknąć na przycisk "Check" w sekcji "Check available models". Zostanie wyświetlona lista aktualnie aktywnych modeli. Nazwy tych wspieranych modeli wraz z dodatkowymi informacjami: czy model jest obecnie aktywny; czy model jest dostępny dla użytkownika (niektóre modele dostępne są tylko dla ograniczonej liczby użytkowników), oraz jaki jest koszt zapytań do modelu, wyrażony w tokenach na kredyty. Nazwy modeli będą później wykorzystane w zapytaniu aby wskazać, który model powinien odpowiedzieć na zapytanie.
  7. Aby sprawdzić dostępne modele przez API, należy wysłać zapytanie typu GET na URL https://llmlab.plgrid.pl/api/v1/models. Zapytanie powinno mieć następującą strukturę (należy pamiętać o zastąpieniu pola <API-key> wygenerowanym w usłudze kluczem): 

    Code Block
    languagebash
      curl -X 'GET' \
       'https://llmlab.plgrid.pl/api/v1/models' \
        -H 'accept: application/json' \
        -H 'Authorization: Bearer <API-key>'


  8. API jest kompatybilne z API OpenAI. Aby wysłać zapytanie do modelu, należy wysłać zapytanie typu POST na adres URL https://llmlab.plgrid.pl/api/v1/chat/completions o następującej strukturze (należy pamiętać o zastąpieniu pola <API-key> wygenerowanym w usłudze kluczem oraz pola <model-name> nazwą wybranego modelu):

    Code Block
    languagebash
     curl -X 'POST' \
    	'https://llmlab.plgrid.pl/api/v1/chat/completions' \
    	-H 'accept: application/json' \
    	-H 'Authorization: Bearer <API-key>' \
    	-H 'Content-Type: application/json' \
    	-d '{
    		"model": "<nazwa-modelu>",
            "messages": [
                {
                  "role": "user",
                  "content": "Hej, jak się masz?"
                }
              ],
            "max_tokens": 100,
            "top_p": 1,
            "temperature": 1,
            "presence_penalty": 0,
            "frequency_penalty": 0,
            "stream": false
    		}'

     Model odpowiada w strukturze zgodnej z API OpenAI. Szczegóły pozostałych parametrów zapytania dostępne są w Dokumentacji API OpenAI.

  9. Dokumentacja API zgodna z formatem OpenAPI dostępna jest pod adresem llmlab.plgrid.pl/api/docs.
  10. Koszt zapytań do danego modelu w kredytach na token:
    1. speakleash/Bielik-11B-v2.3-Instruct: 0.000001