Tech – Jak działa Juice Factory AI

Juice Factory AI to europejska platforma infrastruktury AI do inferencji LLM, modeli multimodalnych, RAG i przetwarzania wsadowego. Platforma działa w centrach danych UE z naciskiem na bezpieczeństwo danych, niskie opóźnienia i pełną kontrolę nad modelami i danymi.

Prywatna AI dla firm

Architektura

Sprzęt

TypVRAMKonfiguracja
B20080-192 GB8×GPU, 2×CPU (128 rdzeni), 2 TB RAM
Klasa NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 rdzeni), 512 GB RAM
Klasa AMD MI300192 GB8×GPU, 2×CPU (128 rdzeni), 2 TB RAM

Stos oprogramowania

Wykonywanie kontenerów

Kubernetes do orkiestracji, Docker do izolacji

Sterowniki

CUDA 12.x, ROCm 6.x dla AMD

Frameworki inferencji

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Zarządzanie modelami

Automatyczne pobieranie, kwantyzacja (INT8, FP16), cachowanie

Bezpieczeństwo i zgodność (UE/RODO-first)

Security By Default

Lokalizacja danych: Wszystkie dane i przetwarzanie odbywają się w UE. Żadne dane nie opuszczają UE.

Kontrola dostępu: Klucze API, tokeny JWT, dostęp oparty na rolach, wsparcie MFA

Segmentacja sieci: Izolowane sieci na klienta, brak wspólnej infrastruktury

Polityka logów: Brak przechowywania danych domyślnie. Klient wybiera własną politykę retencji.

Przepływy danych & kontrole

Security By Default

Mapa przepływu danych wnioskowania

Przy każdym żądaniu wnioskowania dane podążają ściśle zdefiniowanym przepływem:

Klient
1. Żądanie zaszyfrowane TLS
API Gateway
2. Uwierzytelnianie i walidacja
Silnik wnioskowania
3. Obliczanie RAM
4. Zwróć odpowiedź
Pamięć wyczyszczona
5. Auto-usuwanie
Logowanie
Tylko metadane: ID klienta, tokeny, czas odpowiedzi
  1. Klient wysyła żądanie przez nasze API (zaszyfrowane TLS).
  2. Warstwa API uwierzytelnia klienta, waliduje żądanie i przesyła tylko niezbędne informacje do silnika wnioskowania.
  3. Silnik wnioskowania oblicza odpowiedź w pamięci RAM bez zapisywania promptów lub wyników na dysk.
  4. Odpowiedź jest zwracana klientowi, a cała zawartość jest usuwana z pamięci po zakończeniu żądania.
  5. Tylko metadane techniczne (np. ID klienta, nazwa modelu, liczba tokenów, czas odpowiedzi) mogą być logowane do operacji i rozliczeń – nigdy rzeczywista zawartość promptów lub odpowiedzi w trybie standardowym.

Ta mapa przepływu danych jest udokumentowana i wersjonowana, co umożliwia przegląd każdego kroku podczas audytów bezpieczeństwa i zgodności.

Kontrole i audyt

Aby zapewnić, że żadne dane wnioskowania nie są przechowywane ani używane do treningu, wdrożyliśmy:

Przegląd kodu i konfiguracji

Kod wnioskowania nie ma dostępu do zapisu do baz danych i przechowywania zawartości klienta. Brama API i platforma logowania są skonfigurowane tak, aby nie logować ciał żądań lub odpowiedzi.

Oddzielone środowiska

Przestrzenie nazw specyficzne dla klienta i wyraźne rozdzielenie między testem, stagingiem a produkcją, aby uniknąć przypadkowego trafiania logowania debugowania do produkcji.

Polityka logowania

Formaty logów zawierają tylko metadane techniczne. Brak pól dla promptów lub wyników w trybie standardowym.

Retencja i auto-usuwanie

Wszystkie dane logów podlegają retencji czasowej, w której dane są automatycznie usuwane po X dniach zgodnie z polityką klienta lub platformy.

Ścieżka audytu

Zmiany w polityce logowania, konfiguracji i bazie kodu są logowane, co umożliwia zarówno wewnętrzne, jak i zewnętrzne audyty (np. do certyfikacji ISO/SOC).

Sieć i wydajność

Platforma jest zbudowana dla niskiego opóźnienia i wysokiej przepustowości:

Multi-model i izolacja

Wiele LLM może działać jednocześnie na tej samej infrastrukturze. Pooling zasobów pozwala modelom dzielić sprzęt gdy dostępna jest pojemność, ale każdy klient ma izolowane wykonania. Scheduler priorytetyzuje żądania o niskim opóźnieniu nad zadaniami wsadowymi.

Integracje i API

REST API i gRPC do dostępu programowego. Webhooks dla powiadomień o zdarzeniach. SSO przez OIDC dla łatwej integracji z istniejącymi systemami tożsamości. SDK dla Python, JavaScript i Go.

Cennik

Cennik oparty na tokenach z jasną kontrolą kosztów. Płacisz za wygenerowany token, z różnymi cenami dla różnych rozmiarów modeli. Bez lock-in, skaluj w górę i w dół według potrzeb. Rabaty wolumenowe dla długoterminowych zobowiązań.

Alternatywa dla OpenAI

Operacje i monitorowanie

Metryki: Prometheus dla metryk, Grafana do wizualizacji
Śledzenie: OpenTelemetry do rozproszonego śledzenia
Autoskalowanie: Automatyczne skalowanie w oparciu o obciążenie
Alarmy: Proaktywne alarmy o anomaliach, prognozy pojemności

Przykłady przypadków użycia

Bot wsparcia klienta w produkcji

Firma e-commerce uruchamia model 7B dla odpowiedzi w czasie rzeczywistym w swoim czacie. Średnie opóźnienie <50ms, 99,9% uptime.

Wewnętrzne wyszukiwanie/RAG

Firma konsultingowa indeksuje wewnętrzne dokumenty i wykonuje zapytania RAG względem modelu 13B. Bezpieczne, żadne dane nie opuszczają UE.

Wsadowa generacja mediów

Agencja mediowa generuje tysiące opisów produktów dziennie z modelem 70B. Uruchomienia wsadowe w nocy.

FAQ

Jak chronione są moje dane?

Wszystkie dane pozostają w UE. Żadne dane nie są logowane ani przechowywane bez Twojej zgody. Izolowane sieci na klienta.

Jakie modele mogę uruchomić?

Wszystkie otwarte modele (Llama, Mistral, itp.) i niestandardowe modele fine-tuned. Pomagamy z wdrożeniem.

Jak szybko odpowiadają modele?

Pierwszy token <10ms, kolejne <1ms. Zadania wsadowe skalują się według potrzeb.

Jak się z Wami zintegrować?

REST API, gRPC, webhooks. SDK dla Python, JS, Go. Pełna dokumentacja OpenAPI.

Ile to kosztuje?

Cennik oparty na tokenach. Skontaktuj się z nami po dokładne ceny w oparciu o Twoje potrzeby.

Gotowy do testu?

Skontaktuj się z nami po demo techniczne lub dokumentację techniczną.

Rozpocznij