Tech – Jak działa Juice Factory AI

    Juice Factory AI to europejska platforma infrastruktury AI do inferencji LLM, modeli multimodalnych, RAG i przetwarzania wsadowego. Platforma działa w centrach danych UE z naciskiem na bezpieczeństwo danych, niskie opóźnienia i pełną kontrolę nad modelami i danymi.

    Prywatna AI dla firm →

    Architektura

    • Płaszczyzna sterowania: Brama API, uwierzytelnianie, limity, planowanie
    • Płaszczyzna wykonawcza: Konteneryzowane uruchomienia modeli na dedykowanym sprzęcie
    • Sieć: Połączenia o niskim opóźnieniu między węzłami a magazynem
    • Magazyn: Magazyn obiektów dla wag modeli, cache dla szybkiego dostępu
    • Obserwowalność: Metryki, logi, śledzenie dla pełnej widoczności

    Sprzęt

    TypVRAMKonfiguracja
    B20080-192 GB8×GPU, 2×CPU (128 rdzeni), 2 TB RAM
    Klasa NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 rdzeni), 512 GB RAM
    Klasa AMD MI300192 GB8×GPU, 2×CPU (128 rdzeni), 2 TB RAM

    Stos oprogramowania

    Wykonywanie kontenerów

    Kubernetes do orkiestracji, Docker do izolacji

    Sterowniki

    CUDA 12.x, ROCm 6.x dla AMD

    Frameworki inferencji

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Zarządzanie modelami

    Automatyczne pobieranie, kwantyzacja (INT8, FP16), cachowanie

    Bezpieczeństwo i zgodność (UE/RODO-first)

    Security By Default

    Lokalizacja danych: Wszystkie dane i przetwarzanie odbywają się w UE. Żadne dane nie opuszczają UE.

    Kontrola dostępu: Klucze API, tokeny JWT, dostęp oparty na rolach, wsparcie MFA

    Segmentacja sieci: Izolowane sieci na klienta, brak wspólnej infrastruktury

    Polityka logów: Brak przechowywania danych domyślnie. Klient wybiera własną politykę retencji.

    Przepływy danych & kontrole

    Security By Default

    Mapa przepływu danych wnioskowania

    Przy każdym żądaniu wnioskowania dane podążają ściśle zdefiniowanym przepływem:

    Klient
    1. Żądanie zaszyfrowane TLS
    API Gateway
    2. Uwierzytelnianie i walidacja
    Silnik wnioskowania
    3. Obliczanie RAM
    4. Zwróć odpowiedź
    Pamięć wyczyszczona
    5. Auto-usuwanie
    Logowanie
    Tylko metadane: ID klienta, tokeny, czas odpowiedzi
    1. Klient wysyła żądanie przez nasze API (zaszyfrowane TLS).
    2. Warstwa API uwierzytelnia klienta, waliduje żądanie i przesyła tylko niezbędne informacje do silnika wnioskowania.
    3. Silnik wnioskowania oblicza odpowiedź w pamięci RAM bez zapisywania promptów lub wyników na dysk.
    4. Odpowiedź jest zwracana klientowi, a cała zawartość jest usuwana z pamięci po zakończeniu żądania.
    5. Tylko metadane techniczne (np. ID klienta, nazwa modelu, liczba tokenów, czas odpowiedzi) mogą być logowane do operacji i rozliczeń – nigdy rzeczywista zawartość promptów lub odpowiedzi w trybie standardowym.

    Ta mapa przepływu danych jest udokumentowana i wersjonowana, co umożliwia przegląd każdego kroku podczas audytów bezpieczeństwa i zgodności.

    Kontrole i audyt

    Aby zapewnić, że żadne dane wnioskowania nie są przechowywane ani używane do treningu, wdrożyliśmy:

    Przegląd kodu i konfiguracji

    Kod wnioskowania nie ma dostępu do zapisu do baz danych i przechowywania zawartości klienta. Brama API i platforma logowania są skonfigurowane tak, aby nie logować ciał żądań lub odpowiedzi.

    Oddzielone środowiska

    Przestrzenie nazw specyficzne dla klienta i wyraźne rozdzielenie między testem, stagingiem a produkcją, aby uniknąć przypadkowego trafiania logowania debugowania do produkcji.

    Polityka logowania

    Formaty logów zawierają tylko metadane techniczne. Brak pól dla promptów lub wyników w trybie standardowym.

    Retencja i auto-usuwanie

    Wszystkie dane logów podlegają retencji czasowej, w której dane są automatycznie usuwane po X dniach zgodnie z polityką klienta lub platformy.

    Ścieżka audytu

    Zmiany w polityce logowania, konfiguracji i bazie kodu są logowane, co umożliwia zarówno wewnętrzne, jak i zewnętrzne audyty (np. do certyfikacji ISO/SOC).

    Sieć i wydajność

    Platforma jest zbudowana dla niskiego opóźnienia i wysokiej przepustowości:

    • Bezpośrednie połączenia między węzłami a magazynem (NVLink, InfiniBand)
    • Przepustowość tokenów: 100-500 tokenów/s dla modeli 7B, 50-200 dla 70B
    • Opóźnienie: <10ms dla pierwszego tokenu, <1ms na kolejny token

    Multi-model i izolacja

    Wiele LLM może działać jednocześnie na tej samej infrastrukturze. Pooling zasobów pozwala modelom dzielić sprzęt gdy dostępna jest pojemność, ale każdy klient ma izolowane wykonania. Scheduler priorytetyzuje żądania o niskim opóźnieniu nad zadaniami wsadowymi.

    Integracje i API

    REST API i gRPC do dostępu programowego. Webhooks dla powiadomień o zdarzeniach. SSO przez OIDC dla łatwej integracji z istniejącymi systemami tożsamości. SDK dla Python, JavaScript i Go.

    Cennik

    Cennik oparty na tokenach z jasną kontrolą kosztów. Płacisz za wygenerowany token, z różnymi cenami dla różnych rozmiarów modeli. Bez lock-in, skaluj w górę i w dół według potrzeb. Rabaty wolumenowe dla długoterminowych zobowiązań.

    Alternatywa dla OpenAI →

    Operacje i monitorowanie

    Metryki: Prometheus dla metryk, Grafana do wizualizacji
    Śledzenie: OpenTelemetry do rozproszonego śledzenia
    Autoskalowanie: Automatyczne skalowanie w oparciu o obciążenie
    Alarmy: Proaktywne alarmy o anomaliach, prognozy pojemności

    Przykłady przypadków użycia

    Bot wsparcia klienta w produkcji

    Firma e-commerce uruchamia model 7B dla odpowiedzi w czasie rzeczywistym w swoim czacie. Średnie opóźnienie <50ms, 99,9% uptime.

    Wewnętrzne wyszukiwanie/RAG

    Firma konsultingowa indeksuje wewnętrzne dokumenty i wykonuje zapytania RAG względem modelu 13B. Bezpieczne, żadne dane nie opuszczają UE.

    Wsadowa generacja mediów

    Agencja mediowa generuje tysiące opisów produktów dziennie z modelem 70B. Uruchomienia wsadowe w nocy.

    FAQ

    Jak chronione są moje dane?

    Wszystkie dane pozostają w UE. Żadne dane nie są logowane ani przechowywane bez Twojej zgody. Izolowane sieci na klienta.

    Jakie modele mogę uruchomić?

    Wszystkie otwarte modele (Llama, Mistral, itp.) i niestandardowe modele fine-tuned. Pomagamy z wdrożeniem.

    Jak szybko odpowiadają modele?

    Pierwszy token <10ms, kolejne <1ms. Zadania wsadowe skalują się według potrzeb.

    Jak się z Wami zintegrować?

    REST API, gRPC, webhooks. SDK dla Python, JS, Go. Pełna dokumentacja OpenAPI.

    Ile to kosztuje?

    Cennik oparty na tokenach. Skontaktuj się z nami po dokładne ceny w oparciu o Twoje potrzeby.

    Gotowy do testu?

    Skontaktuj się z nami po demo techniczne lub dokumentację techniczną.