Tech – Jak działa Juice Factory AI

Juice Factory AI to europejska platforma infrastruktury AI do inferencji LLM, modeli multimodalnych, RAG i przetwarzania wsadowego. Platforma działa w centrach danych UE z naciskiem na bezpieczeństwo danych, niskie opóźnienia i pełną kontrolę nad modelami i danymi.

Prywatna AI dla firm →

Architektura

• Płaszczyzna sterowania: Brama API, uwierzytelnianie, limity, planowanie
• Płaszczyzna wykonawcza: Konteneryzowane uruchomienia modeli na dedykowanym sprzęcie
• Sieć: Połączenia o niskim opóźnieniu między węzłami a magazynem
• Magazyn: Magazyn obiektów dla wag modeli, cache dla szybkiego dostępu
• Obserwowalność: Metryki, logi, śledzenie dla pełnej widoczności

Sprzęt

Typ	VRAM	Konfiguracja
B200	80-192 GB	8×GPU, 2×CPU (128 rdzeni), 2 TB RAM
Klasa NVIDIA RTX 6000	96 GB	4×GPU, 1×CPU (64 rdzeni), 512 GB RAM
Klasa AMD MI300	192 GB	8×GPU, 2×CPU (128 rdzeni), 2 TB RAM

Stos oprogramowania

Wykonywanie kontenerów

Kubernetes do orkiestracji, Docker do izolacji

Sterowniki

CUDA 12.x, ROCm 6.x dla AMD

Frameworki inferencji

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Zarządzanie modelami

Automatyczne pobieranie, kwantyzacja (INT8, FP16), cachowanie

Bezpieczeństwo i zgodność (UE/RODO-first)

Security By Default

Lokalizacja danych: Wszystkie dane i przetwarzanie odbywają się w UE. Żadne dane nie opuszczają UE.

Kontrola dostępu: Klucze API, tokeny JWT, dostęp oparty na rolach, wsparcie MFA

Segmentacja sieci: Izolowane sieci na klienta, brak wspólnej infrastruktury

Polityka logów: Brak przechowywania danych domyślnie. Klient wybiera własną politykę retencji.

Przepływy danych & kontrole

Security By Default

Mapa przepływu danych wnioskowania

Przy każdym żądaniu wnioskowania dane podążają ściśle zdefiniowanym przepływem:

Klient

1. Żądanie zaszyfrowane TLS

API Gateway

2. Uwierzytelnianie i walidacja

Silnik wnioskowania

3. Obliczanie RAM

4. Zwróć odpowiedź

Pamięć wyczyszczona

5. Auto-usuwanie

Logowanie

Tylko metadane: ID klienta, tokeny, czas odpowiedzi

Klient wysyła żądanie przez nasze API (zaszyfrowane TLS).
Warstwa API uwierzytelnia klienta, waliduje żądanie i przesyła tylko niezbędne informacje do silnika wnioskowania.
Silnik wnioskowania oblicza odpowiedź w pamięci RAM bez zapisywania promptów lub wyników na dysk.
Odpowiedź jest zwracana klientowi, a cała zawartość jest usuwana z pamięci po zakończeniu żądania.
Tylko metadane techniczne (np. ID klienta, nazwa modelu, liczba tokenów, czas odpowiedzi) mogą być logowane do operacji i rozliczeń – nigdy rzeczywista zawartość promptów lub odpowiedzi w trybie standardowym.

Ta mapa przepływu danych jest udokumentowana i wersjonowana, co umożliwia przegląd każdego kroku podczas audytów bezpieczeństwa i zgodności.

Kontrole i audyt

Aby zapewnić, że żadne dane wnioskowania nie są przechowywane ani używane do treningu, wdrożyliśmy:

Przegląd kodu i konfiguracji

Kod wnioskowania nie ma dostępu do zapisu do baz danych i przechowywania zawartości klienta. Brama API i platforma logowania są skonfigurowane tak, aby nie logować ciał żądań lub odpowiedzi.

Oddzielone środowiska

Przestrzenie nazw specyficzne dla klienta i wyraźne rozdzielenie między testem, stagingiem a produkcją, aby uniknąć przypadkowego trafiania logowania debugowania do produkcji.

Polityka logowania

Formaty logów zawierają tylko metadane techniczne. Brak pól dla promptów lub wyników w trybie standardowym.

Retencja i auto-usuwanie

Wszystkie dane logów podlegają retencji czasowej, w której dane są automatycznie usuwane po X dniach zgodnie z polityką klienta lub platformy.

Ścieżka audytu

Zmiany w polityce logowania, konfiguracji i bazie kodu są logowane, co umożliwia zarówno wewnętrzne, jak i zewnętrzne audyty (np. do certyfikacji ISO/SOC).

Sieć i wydajność

Platforma jest zbudowana dla niskiego opóźnienia i wysokiej przepustowości:

• Bezpośrednie połączenia między węzłami a magazynem (NVLink, InfiniBand)
• Przepustowość tokenów: 100-500 tokenów/s dla modeli 7B, 50-200 dla 70B
• Opóźnienie: <10ms dla pierwszego tokenu, <1ms na kolejny token

Multi-model i izolacja

Wiele LLM może działać jednocześnie na tej samej infrastrukturze. Pooling zasobów pozwala modelom dzielić sprzęt gdy dostępna jest pojemność, ale każdy klient ma izolowane wykonania. Scheduler priorytetyzuje żądania o niskim opóźnieniu nad zadaniami wsadowymi.

Integracje i API

REST API i gRPC do dostępu programowego. Webhooks dla powiadomień o zdarzeniach. SSO przez OIDC dla łatwej integracji z istniejącymi systemami tożsamości. SDK dla Python, JavaScript i Go.

Cennik

Cennik oparty na tokenach z jasną kontrolą kosztów. Płacisz za wygenerowany token, z różnymi cenami dla różnych rozmiarów modeli. Bez lock-in, skaluj w górę i w dół według potrzeb. Rabaty wolumenowe dla długoterminowych zobowiązań.

Alternatywa dla OpenAI →

Operacje i monitorowanie

Metryki: Prometheus dla metryk, Grafana do wizualizacji

Śledzenie: OpenTelemetry do rozproszonego śledzenia

Autoskalowanie: Automatyczne skalowanie w oparciu o obciążenie

Alarmy: Proaktywne alarmy o anomaliach, prognozy pojemności

Przykłady przypadków użycia

Bot wsparcia klienta w produkcji

Firma e-commerce uruchamia model 7B dla odpowiedzi w czasie rzeczywistym w swoim czacie. Średnie opóźnienie <50ms, 99,9% uptime.

Wewnętrzne wyszukiwanie/RAG

Firma konsultingowa indeksuje wewnętrzne dokumenty i wykonuje zapytania RAG względem modelu 13B. Bezpieczne, żadne dane nie opuszczają UE.

Wsadowa generacja mediów

Agencja mediowa generuje tysiące opisów produktów dziennie z modelem 70B. Uruchomienia wsadowe w nocy.

FAQ

Jak chronione są moje dane?

Wszystkie dane pozostają w UE. Żadne dane nie są logowane ani przechowywane bez Twojej zgody. Izolowane sieci na klienta.

Jakie modele mogę uruchomić?

Wszystkie otwarte modele (Llama, Mistral, itp.) i niestandardowe modele fine-tuned. Pomagamy z wdrożeniem.

Jak szybko odpowiadają modele?

Pierwszy token <10ms, kolejne <1ms. Zadania wsadowe skalują się według potrzeb.

Jak się z Wami zintegrować?

REST API, gRPC, webhooks. SDK dla Python, JS, Go. Pełna dokumentacja OpenAPI.

Ile to kosztuje?

Cennik oparty na tokenach. Skontaktuj się z nami po dokładne ceny w oparciu o Twoje potrzeby.

Gotowy do testu?

Skontaktuj się z nami po demo techniczne lub dokumentację techniczną.

Rozpocznij