Tech – Slik fungerer Juice Factory AI

Juice Factory AI er en europeisk AI-infrastrukturplattform for LLM-inferens, multimodale modeller, RAG og batch-kjøringer. Plattformen kjører i EU-datasentre med fokus på datasikkerhet, lav latens og full kontroll over modeller og data.

Privat AI for bedrifter →

Arkitektur

• Kontrollplan: API-gateway, autentisering, kvoter, planlegging
• Kjøringsplan: Containeriserte modellkjøringer på dedikert maskinvare
• Nettverk: Lav-latens forbindelser mellom noder og lagring
• Lagring: Objektlagring for modellvekter, cache for rask tilgang
• Observability: Metrics, logs, tracing for full synlighet

Maskinvare

Type	VRAM	Konfigurasjon
B200	80-192 GB	8×GPU, 2×CPU (128 kjerner), 2 TB RAM
NVIDIA RTX 6000-klasse	96 GB	4×GPU, 1×CPU (64 kjerner), 512 GB RAM
AMD MI300-klasse	192 GB	8×GPU, 2×CPU (128 kjerner), 2 TB RAM

Programvarestack

Container-kjøring

Kubernetes for orkestrering, Docker for isolasjon

Drivere

CUDA 12.x, ROCm 6.x for AMD

Inferens-rammeverk

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellhåndtering

Automatisk nedlasting, kvantisering (INT8, FP16), caching

Sikkerhet og compliance (EU/GDPR-først)

Security By Default

Dataposisjon: All data og behandling skjer innenfor EU. Ingen data forlater EU.

Tilgangskontroll: API-nøkler, JWT-tokens, rollebasert tilgang, MFA-støtte

Nettverkssegmentering: Isolerte nettverk per kunde, ingen delt infrastruktur

Logg-policy: Ingen datalagring som standard. Kunden velger selv retention-policy.

Dataflyt & kontroller

Security By Default

Inferens dataflyt-kart

For hver inferens-forespørsel følger data en strengt definert flyt:

Klient

1. TLS-kryptert forespørsel

API Gateway

2. Autentisering & validering

Inferensmotor

3. RAM-beregning

4. Returner svar

Minne tømmes

5. Auto-sletting

Logging

Kun metadata: Kunde-ID, tokens, svartid

Klienten sender en forespørsel via vårt API (TLS-kryptert).
API-laget autentiserer kunden, validerer forespørselen og sender kun nødvendig informasjon videre til inferensmotoren.
Inferensmotoren beregner svaret i RAM uten å skrive prompts eller outputs til disk.
Svaret returneres til klienten og alt innhold slettes fra minnet etter fullført forespørsel.
Kun teknisk metadata (f.eks. kunde-ID, modellnavn, antall tokens, svartid) kan logges for drift og fakturering – aldri selve innholdet i prompts eller svar i standardmodus.

Dette dataflyt-kartet er dokumentert og versjonskontrollert, noe som gjør det mulig å gjennomgå hvert trinn ved sikkerhets- og compliance-revisjoner.

Kontroller og revisjon

For å sikre at ingen inferens-data lagres eller brukes til trening har vi implementert:

Kode- og konfigurasjonsgjennomgang

Inferens-koden mangler skrivetilgang til databaser og lagring for kundeinnhold. API-gateway og loggplattform er konfigurert til ikke å logge request- eller response-body.

Separerte miljøer

Kundespesifikke namespaces og tydelig separasjon mellom test, staging og produksjon for å unngå at debug-logging havner i produksjon.

Loggpolicy

Loggformatene inneholder kun teknisk metadata. Ingen felter for prompts eller outputs i standardmodus.

Retention og auto-sletting

All loggdata er underlagt tidsbasert retention hvor data automatisk slettes etter X dager i henhold til kunde- eller plattformpolicy.

Revisjonsspor

Endringer i loggpolicy, konfigurasjon og kodebase logges, noe som muliggjør både interne og eksterne revisjoner (f.eks. for ISO/SOC-sertifiseringer).

Nettverk og ytelse

Plattformen er bygget for lav latens og høy gjennomstrømning:

• Direkte forbindelser mellom noder og lagring (NVLink, InfiniBand)
• Token-gjennomstrømning: 100-500 tokens/s for 7B-modeller, 50-200 for 70B
• Latens: <10ms for første token, <1ms per etterfølgende token

Multimodell og isolering

Flere LLM-er kan kjøre samtidig på samme infrastruktur. Ressurs-pooling gjør at modeller deler maskinvare når kapasitet finnes, men hver kunde har isolerte kjøringer. Scheduleren prioriterer lav-latens forespørsler over batch-jobber.

Integrasjoner og API

REST API og gRPC for programmatisk tilgang. Webhooks for event-notifikasjoner. SSO via OIDC for enkel integrasjon med eksisterende identitetssystemer. SDK-er for Python, JavaScript og Go.

Prissetting

Token-basert prissetting med tydelig kostnadskontroll. Du betaler per generert token, med forskjellige priser for forskjellige modellstørrelser. Ingen oppsigelsestid, skaler opp og ned etter behov. Volumrabatter ved langsiktige forpliktelser.

OpenAI-alternativ →

Drift og overvåking

Metrics: Prometheus for metrics, Grafana for visualisering

Tracing: OpenTelemetry for distribuert tracing

Autoskalering: Automatisk skalering basert på belastning

Alarmer: Proaktive alarmer ved avvik, kapasitetsprognoser

Use case-eksempler

Kundeservice-bot i produksjon

Et e-handelsselskap kjører en 7B-modell for sanntidssvar i chatten deres. Gjennomsnittlig latens <50ms, 99,9% uptime.

Internt søk/RAG

Et konsulentfirma indekserer interne dokumenter og kjører RAG-spørringer mot en 13B-modell. Sikkert, ingen data forlater EU.

Batch-generering av medier

Et mediebyrå genererer tusenvis av produktbeskrivelser per dag med en 70B-modell. Batch-kjøringer om natten.

Ofte stilte spørsmål

Hvordan beskyttes mine data?

All data blir i EU. Ingen data logges eller lagres uten din godkjenning. Isolerte nettverk per kunde.

Hvilke modeller kan jeg kjøre?

Alle åpne modeller (Llama, Mistral, etc.) og egne fine-tuned modeller. Vi hjelper med deployment.

Hvor raskt svarer modellene?

Første token <10ms, etterfølgende <1ms. Batch-jobber skalerer etter behov.

Hvordan integrerer jeg med dere?

REST API, gRPC, webhooks. SDK-er for Python, JS, Go. Full OpenAPI-dokumentasjon.

Hva koster det?

Token-basert prissetting. Kontakt oss for eksakt prismodell basert på dine behov.

Klar til å teste?

Kontakt oss for en teknisk demo eller teknisk dokumentasjon.

Kom i gang