LLM Lab - instrukcja użytkownika

Korzystanie z API do inferencji modeli językowych rozliczane jest przy użyciu tzw. *kredytów*. Tokeny generowane przez dany model są przeliczane na kredyty, koszt tokenu uzależniony jest od rozmiaru modelu.
O usługę dostępu do hostowanego API modeli językowych wnioskować można w portalu PLGRID w zakładce usługi. Należy wyszukać i aktywować usługę Dostęp do dużych modeli językowych w ośrodku Cyfronet. Usługa może zostać aktywowana tylko użytkownikom z grantem właściwym posiadającym alokację kredytów.
Po otrzymaniu dostępu do usługi należy przejść do llmlab.plgrid.pl i zalogować się przez przy użyciu danych z portalu PLGRID.
Po zalogowaniu, w głównym panelu zobaczymy:
1. Listę aktywnych grantów wraz z ilością dostępnych kredytów i stopniem ich zużycia
2. Sekcję do generowania kluczy API dla danego grantu
3. Sekcję do sprawdzania obecnie aktywnych modeli
Aby wygenerować klucz do API, należy w sekcji "Generate API Key" wybrać z listy rozwijanej grant do rozliczenia zapytań. Po wyborze grantu należy kliknąć przycisk “Generate” - na ekranie pojawi się klucz API do uwierzytelnienia zapytań do modelu. Klucz ważny jest przez 30 dni, nie ma możliwości jego ponownego wyświetlenia.
Aby sprawdzić dostępne modele, należy kliknąć na przycisk "Check" w sekcji "Check available models". Zostanie wyświetlona lista aktualnie aktywnych modeli. Nazwy tych modeli będą później wykorzystane w zapytaniu aby wskazać, który model powinien odpowiedzieć na zapytanie.
Aby sprawdzić dostępne modele przez API, należy wysłać zapytanie typu GET na URL https://llmlab.plgrid.pl/api/v1/models. Zapytanie powinno mieć następującą strukturę (należy pamiętać o zastąpieniu pola <API-key> wygenerowanym w usłudze kluczem):
```
  curl -X 'GET' \
   'https://llmlab.plgrid.pl/api/v1/models' \
    -H 'accept: application/json' \
    -H 'Authorization: Bearer <API-key>'
```

API jest kompatybilne z API OpenAI. Aby wysłać zapytanie do modelu, należy wysłać zapytanie typu POST na adres URL https://llmlab.plgrid.pl/api/v1/completions o następującej strukturze (należy pamiętać o zastąpieniu pola <API-key> wygenerowanym w usłudze kluczem oraz pola <model-name> nazwą wybranego modelu):

 curl -X 'POST' \
	'https://llmlab.plgrid.pl/api/v1/completions' \
	-H 'accept: application/json' \
	-H 'Authorization: Bearer <API-key>' \
	-H 'Content-Type: application/json' \
	-d '{
		"model": "<nazwa-modelu>",
        "messages": [
            {
              "role": "user",
              "content": "Hej, jak się masz?"
            }
          ],
        "max_tokens": 100,
        "top_p": 1,
        "temperature": 1,
        "presence_penalty": 0,
        "frequency_penalty": 0,
        "stream": false
		}'

Model odpowiada w strukturze zgodnej z API OpenAI. Szczegóły pozostałych parametrów zapytania dostępne są w Dokumentacji API OpenAI.

Dokumentacja API zgodna z formatem OpenAPI dostępna jest pod adresem llmlab.plgrid.pl/api/docs.
Koszt zapytań do danego modelu w kredytach na token:
1. speakleash/Bielik-11B-v2.3-Instruct: 0.000001

Page tree

LLM Lab - instrukcja użytkownika