Tech – Slik fungerer Juice Factory AI

Juice Factory AI er en europeisk AI-infrastrukturplattform for LLM-inferens, multimodale modeller, RAG og batch-kjøringer. Plattformen kjører i EU-datasentre med fokus på datasikkerhet, lav latens og full kontroll over modeller og data.

Privat AI for bedrifter

Arkitektur

Maskinvare

TypeVRAMKonfigurasjon
B20080-192 GB8×GPU, 2×CPU (128 kjerner), 2 TB RAM
NVIDIA RTX 6000-klasse96 GB4×GPU, 1×CPU (64 kjerner), 512 GB RAM
AMD MI300-klasse192 GB8×GPU, 2×CPU (128 kjerner), 2 TB RAM

Programvarestack

Container-kjøring

Kubernetes for orkestrering, Docker for isolasjon

Drivere

CUDA 12.x, ROCm 6.x for AMD

Inferens-rammeverk

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellhåndtering

Automatisk nedlasting, kvantisering (INT8, FP16), caching

Sikkerhet og compliance (EU/GDPR-først)

Security By Default

Dataposisjon: All data og behandling skjer innenfor EU. Ingen data forlater EU.

Tilgangskontroll: API-nøkler, JWT-tokens, rollebasert tilgang, MFA-støtte

Nettverkssegmentering: Isolerte nettverk per kunde, ingen delt infrastruktur

Logg-policy: Ingen datalagring som standard. Kunden velger selv retention-policy.

Dataflyt & kontroller

Security By Default

Inferens dataflyt-kart

For hver inferens-forespørsel følger data en strengt definert flyt:

Klient
1. TLS-kryptert forespørsel
API Gateway
2. Autentisering & validering
Inferensmotor
3. RAM-beregning
4. Returner svar
Minne tømmes
5. Auto-sletting
Logging
Kun metadata: Kunde-ID, tokens, svartid
  1. Klienten sender en forespørsel via vårt API (TLS-kryptert).
  2. API-laget autentiserer kunden, validerer forespørselen og sender kun nødvendig informasjon videre til inferensmotoren.
  3. Inferensmotoren beregner svaret i RAM uten å skrive prompts eller outputs til disk.
  4. Svaret returneres til klienten og alt innhold slettes fra minnet etter fullført forespørsel.
  5. Kun teknisk metadata (f.eks. kunde-ID, modellnavn, antall tokens, svartid) kan logges for drift og fakturering – aldri selve innholdet i prompts eller svar i standardmodus.

Dette dataflyt-kartet er dokumentert og versjonskontrollert, noe som gjør det mulig å gjennomgå hvert trinn ved sikkerhets- og compliance-revisjoner.

Kontroller og revisjon

For å sikre at ingen inferens-data lagres eller brukes til trening har vi implementert:

Kode- og konfigurasjonsgjennomgang

Inferens-koden mangler skrivetilgang til databaser og lagring for kundeinnhold. API-gateway og loggplattform er konfigurert til ikke å logge request- eller response-body.

Separerte miljøer

Kundespesifikke namespaces og tydelig separasjon mellom test, staging og produksjon for å unngå at debug-logging havner i produksjon.

Loggpolicy

Loggformatene inneholder kun teknisk metadata. Ingen felter for prompts eller outputs i standardmodus.

Retention og auto-sletting

All loggdata er underlagt tidsbasert retention hvor data automatisk slettes etter X dager i henhold til kunde- eller plattformpolicy.

Revisjonsspor

Endringer i loggpolicy, konfigurasjon og kodebase logges, noe som muliggjør både interne og eksterne revisjoner (f.eks. for ISO/SOC-sertifiseringer).

Nettverk og ytelse

Plattformen er bygget for lav latens og høy gjennomstrømning:

Multimodell og isolering

Flere LLM-er kan kjøre samtidig på samme infrastruktur. Ressurs-pooling gjør at modeller deler maskinvare når kapasitet finnes, men hver kunde har isolerte kjøringer. Scheduleren prioriterer lav-latens forespørsler over batch-jobber.

Integrasjoner og API

REST API og gRPC for programmatisk tilgang. Webhooks for event-notifikasjoner. SSO via OIDC for enkel integrasjon med eksisterende identitetssystemer. SDK-er for Python, JavaScript og Go.

Prissetting

Token-basert prissetting med tydelig kostnadskontroll. Du betaler per generert token, med forskjellige priser for forskjellige modellstørrelser. Ingen oppsigelsestid, skaler opp og ned etter behov. Volumrabatter ved langsiktige forpliktelser.

OpenAI-alternativ

Drift og overvåking

Metrics: Prometheus for metrics, Grafana for visualisering
Tracing: OpenTelemetry for distribuert tracing
Autoskalering: Automatisk skalering basert på belastning
Alarmer: Proaktive alarmer ved avvik, kapasitetsprognoser

Use case-eksempler

Kundeservice-bot i produksjon

Et e-handelsselskap kjører en 7B-modell for sanntidssvar i chatten deres. Gjennomsnittlig latens <50ms, 99,9% uptime.

Internt søk/RAG

Et konsulentfirma indekserer interne dokumenter og kjører RAG-spørringer mot en 13B-modell. Sikkert, ingen data forlater EU.

Batch-generering av medier

Et mediebyrå genererer tusenvis av produktbeskrivelser per dag med en 70B-modell. Batch-kjøringer om natten.

Ofte stilte spørsmål

Hvordan beskyttes mine data?

All data blir i EU. Ingen data logges eller lagres uten din godkjenning. Isolerte nettverk per kunde.

Hvilke modeller kan jeg kjøre?

Alle åpne modeller (Llama, Mistral, etc.) og egne fine-tuned modeller. Vi hjelper med deployment.

Hvor raskt svarer modellene?

Første token <10ms, etterfølgende <1ms. Batch-jobber skalerer etter behov.

Hvordan integrerer jeg med dere?

REST API, gRPC, webhooks. SDK-er for Python, JS, Go. Full OpenAPI-dokumentasjon.

Hva koster det?

Token-basert prissetting. Kontakt oss for eksakt prismodell basert på dine behov.

Klar til å teste?

Kontakt oss for en teknisk demo eller teknisk dokumentasjon.

Kom i gang