Tech – Sådan fungerer Juice Factory AI

Juice Factory AI er en europæisk AI-infrastrukturplatform til LLM-inferens, multimodale modeller, RAG og batch-kørsler. Platformen kører i EU-datacentre med fokus på datasikkerhed, lav latens og fuld kontrol over modeller og data.

Privat AI til virksomheder →

Arkitektur

• Kontrolplan: API-gateway, autentifikation, kvoter, planlægning
• Kørselsplan: Containeriserede modelkørsler på dedikeret hardware
• Netværk: Lav-latens forbindelser mellem noder og lagring
• Lagring: Objektlagring til modelvægte, cache til hurtig adgang
• Observability: Metrics, logs, tracing til fuld synlighed

Hardware

Type	VRAM	Konfiguration
B200	80-192 GB	8×GPU, 2×CPU (128 kerner), 2 TB RAM
NVIDIA RTX 6000-klasse	96 GB	4×GPU, 1×CPU (64 kerner), 512 GB RAM
AMD MI300-klasse	192 GB	8×GPU, 2×CPU (128 kerner), 2 TB RAM

Softwarestack

Container-kørsel

Kubernetes til orkestrering, Docker til isolation

Drivere

CUDA 12.x, ROCm 6.x til AMD

Inferens-frameworks

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modelhåndtering

Automatisk download, kvantisering (INT8, FP16), caching

Sikkerhed og compliance (EU/GDPR-først)

Security By Default

Dataplacering: Al data og behandling sker inden for EU. Ingen data forlader EU.

Adgangskontrol: API-nøgler, JWT-tokens, rollebaseret adgang, MFA-support

Netværkssegmentering: Isolerede netværk per kunde, ingen delt infrastruktur

Log-politik: Ingen datalagring som standard. Kunden vælger selv retention-politik.

Dataflow & kontroller

Security By Default

Inferens dataflow-kort

Ved hver inferens-forespørgsel følger data et strengt defineret flow:

Klient

1. TLS-krypteret forespørgsel

API Gateway

2. Autentificering & validering

Inferensmotor

3. RAM-beregning

4. Returner svar

Hukommelse slettet

5. Auto-sletning

Logging

Kun metadata: Kunde-ID, tokens, svartid

Klienten sender en forespørgsel via vores API (TLS-krypteret).
API-laget autentificerer kunden, validerer forespørgslen og sender kun nødvendig information videre til inferensmotoren.
Inferensmotoren beregner svaret i RAM uden at skrive prompts eller outputs til disk.
Svaret returneres til klienten og alt indhold slettes fra hukommelsen efter afsluttet forespørgsel.
Kun teknisk metadata (f.eks. kunde-ID, modelnavn, antal tokens, svartid) kan logges til drift og fakturering – aldrig selve indholdet af prompts eller svar i standardtilstand.

Dette dataflow-kort er dokumenteret og versionsstyret, hvilket gør det muligt at gennemgå hvert trin ved sikkerheds- og compliance-revisioner.

Kontroller og revision

For at sikre at ingen inferens-data gemmes eller bruges til træning har vi implementeret:

Kode- & konfigurationsgennemgang

Inferens-koden mangler skriveadgang til databaser og lagring af kundeindhold. API-gateway og logplatform er konfigureret til ikke at logge request- eller response-body.

Adskilte miljøer

Kundespecifikke namespaces og tydelig adskillelse mellem test, staging og produktion for at undgå at debug-logging kommer i produktion.

Logpolitik

Logformater indeholder kun teknisk metadata. Ingen felter for prompts eller outputs i standardtilstand.

Retention og auto-sletning

Al logdata er underlagt tidsbaseret retention hvor data automatisk slettes efter X dage i henhold til kunde- eller platformpolitik.

Revisionsspor

Ændringer i logpolitik, konfiguration og kodebase logges, hvilket muliggør både interne og eksterne revisioner (f.eks. til ISO/SOC-certificeringer).

Netværk og ydeevne

Platformen er bygget til lav latens og høj gennemstrømning:

• Direkte forbindelser mellem GPU-noder og lagring (NVLink, InfiniBand)
• Token-gennemstrømning: 100-500 tokens/s for 7B-modeller, 50-200 for 70B
• Latens: <10ms for første token, <1ms per efterfølgende token

Multimodel og isolering

Flere LLM'er kan køre samtidigt på samme infrastruktur. Ressource-pooling gør at modeller deler hardware når kapacitet findes, men hver kunde har isolerede kørsler. Scheduleren prioriterer lav-latens forespørgsler over batch-jobs.

Integrationer og API

REST API og gRPC til programmatisk adgang. Webhooks til event-notifikationer. SSO via OIDC til nem integration med eksisterende identitetssystemer. SDK'er til Python, JavaScript og Go.

Prissætning

Token-baseret prissætning med tydelig omkostningskontrol. Du betaler per genereret token, med forskellige priser for forskellige modelstørrelser. Ingen opsigelsestid, skalér op og ned efter behov. Volumenrabatter ved langsigtede forpligtelser.

OpenAI-alternativ →

Drift og overvågning

Metrics: Prometheus til metrics, Grafana til visualisering

Tracing: OpenTelemetry til distribueret tracing

Autoskalering: Automatisk skalering baseret på belastning

Alarmer: Proaktive alarmer ved afvigelser, kapacitetsprognoser

Use case-eksempler

Kundesupport-bot i produktion

En e-handelsvirksomhed kører en 7B-model til realtidssvar i deres chat. Gennemsnitlig latens <50ms, 99,9% uptime.

Intern søgning/RAG

Et konsulentfirma indekserer interne dokumenter og kører RAG-forespørgsler mod en 13B-model. Sikkert, ingen data forlader EU.

Batch-generering af medier

Et mediebureau genererer tusindvis af produktbeskrivelser om dagen med en 70B-model. Batch-kørsler om natten.

Ofte stillede spørgsmål

Hvordan beskyttes mine data?

Al data forbliver i EU. Ingen data logges eller gemmes uden din godkendelse. Isolerede netværk per kunde.

Hvilke modeller kan jeg køre?

Alle åbne modeller (Llama, Mistral, etc.) og egne fine-tuned modeller. Vi hjælper med deployment.

Hvor hurtigt svarer modellerne?

Første token <10ms, efterfølgende <1ms. Batch-jobs skalerer efter behov.

Hvordan integrerer jeg med jer?

REST API, gRPC, webhooks. SDK'er til Python, JS, Go. Fuld OpenAPI-dokumentation.

Hvad koster det?

Token-baseret prissætning. Kontakt os for præcis prismodel baseret på dine behov.

Klar til at teste?

Kontakt os for en teknisk demo eller teknisk dokumentation.

Kom i gang