Tech – Så funkar Juice Factory AI

Juice Factory AI är en europeisk AI-infrastrukturplattform för LLM-inference, multimodala modeller, RAG och batch-körningar. Plattformen körs i EU-datacenter med fokus på datasäkerhet, låg latens och full kontroll över modeller och data.

Privat AI för företag →

Arkitektur

• Kontrollplan: API-gateway, autentisering, kvotering, schemaläggning
• Körplan: Containeriserade modellkörningar på dedikerad hårdvara
• Nätverk: Låglatens-kopplingar mellan noder och lagring
• Lagring: Objektlagring för modellvikter, cache för snabb åtkomst
• Observability: Metrics, logs, tracing för full insyn

Hårdvara

Typ	VRAM	Konfiguration
B200	80-192 GB	8×GPU, 2×CPU (128 kärnor), 2 TB RAM
NVIDIA RTX 6000-klass	96 GB	4×GPU, 1×CPU (64 kärnor), 512 GB RAM
AMD MI300-klass	192 GB	8×GPU, 2×CPU (128 kärnor), 2 TB RAM

Programvarustack

Container-körning

Kubernetes för orkestrering, Docker för isolation

Drivare

CUDA 12.x, ROCm 6.x för AMD

Inference-ramverk

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellhantering

Automatisk nedladdning, kvantisering (INT8, FP16), cachning

Säkerhet & Efterlevnad (EU/GDPR-först)

Security By Default

Dataplacering: All data och all bearbetning sker inom EU. Ingen data lämnar EU.

Åtkomstkontroll: API-nycklar, JWT-tokens, rollbaserad åtkomst, MFA-stöd

Nätsegmentering: Isolerade nätverk per kund, ingen delad infrastruktur

Loggpolicy: Ingen datalagring som standard. Kunden väljer själv retention-policy.

Dataflöden & kontroller

Security By Default

Dataflödeskarta för inferens

Vid varje inferensförfrågan följer data ett strikt definierat flöde:

Klient

1. TLS-krypterad förfrågan

API Gateway

2. Autentisering & validering

Inferensmotor

3. Beräkning i RAM

4. Returnera svar

Minne töms

5. Auto-radering

Loggning

Endast metadata: Kund-ID, tokens, svarstid

Klienten skickar en förfrågan via vårt API (TLS-krypterad).
API-lagret autentiserar kunden, validerar requesten och skickar endast nödvändig information vidare till inferensmotorn.
Inferensmotorn beräknar svaret i RAM utan att skriva prompt eller output till disk.
Svaret returneras till klienten och alla innehållsdelar kastas ur minnet efter avslutad request.
Endast teknisk metadata (t.ex. kund-ID, modellnamn, antal tokens, svarstid) kan loggas för drift och fakturering – aldrig själva innehållet i prompts eller svar i standardläget.

Denna dataflödeskarta är dokumenterad och versionshanteras, vilket gör det möjligt att revidera varje steg vid säkerhets- och efterlevnadsgranskningar.

Kontroller och revision

För att säkerställa att ingen inferensdata lagras eller används för träning har vi infört:

Kod- och konfigurationsgranskning

Inferenskoden saknar skrivåtkomst till databaser och lagring för kundinnehåll. API-gw och loggplattform är konfigurerade att inte logga request- eller response-body.

Separerade miljöer

Kundspecifika namespaces och tydlig separation mellan test, staging och produktion för att undvika att debug-loggning råkar hamna i produktion.

Loggpolicy

Loggformaten innehåller endast teknisk metadata. Inga fält för prompts eller outputs i standardläget.

Retention och auto-radering

All loggdata ligger på tidsstyrd retention där data automatiskt raderas efter X dagar enligt kundens eller plattformens policy.

Revisionsspår

Ändringar i loggpolicy, konfiguration och kodbas loggas, vilket möjliggör både interna och externa revisioner (t.ex. inför ISO/SOC-certifieringar).

Nätverk & Prestanda

Plattformen är byggd för låg latens och hög genomströmning:

• Direkta kopplingar mellan GPU-noder och lagring (NVLink, InfiniBand)
• Token-genomströmning: 100-500 tokens/s för 7B-modeller, 50-200 för 70B
• Latens: <10ms för första token, <1ms per efterföljande token

Multimodell & Isolering

Flera LLM:er kan köras samtidigt på samma infrastruktur. Resurs-pooling gör att modeller delar hårdvara när kapacitet finns, men varje kund har isolerade körningar. Schemaläggaren prioriterar låglatens-förfrågningar över batch-jobb.

Integreringar & API

REST API och gRPC för programmatisk åtkomst. Webhooks för event-notifieringar. SSO via OIDC för enkel integration med befintliga identitetssystem. SDK:er för Python, JavaScript och Go.

Prissättning

Token-baserad prissättning med tydlig kostnadskontroll. Du betalar per genererad token, med olika priser för olika modellstorlekar. Ingen uppsägningstid, skala upp och ner efter behov. Volymrabatter vid långsiktiga åtaganden.

OpenAI-alternativ →

Drift & Övervakning

Metrics: Prometheus för metrics, Grafana för visualisering

Tracing: OpenTelemetry för distribuerad tracing

Autoscaling: Automatisk skalning baserat på belastning

Larm: Proaktiva larm vid avvikelser, kapacitetsprognoser

Use Case-exempel

Kundsupport-bot i produktion

Ett e-handelsföretag kör en 7B-modell för realtidssvar i sin chatt. Genomsnittlig latens <50ms, 99,9% uptime.

Intern sök/RAG

Ett konsultföretag indexerar interna dokument och kör RAG-frågor mot en 13B-modell. Säker, ingen data lämnar EU.

Batch-generering av media

En mediabyrå genererar tusentals produktbeskrivningar per dag med en 70B-modell. Batch-körningar på natten.

Vanliga frågor

Hur skyddas min data?

All data stannar i EU. Ingen data loggas eller sparas utan ditt godkännande. Isolerade nätverk per kund.

Vilka modeller kan jag köra?

Alla öppna modeller (Llama, Mistral, etc.) och egna fine-tunade modeller. Vi hjälper till med deployment.

Hur snabbt svarar modellerna?

Första token <10ms, efterföljande <1ms. Batch-jobb skalar efter behov.

Hur integrerar jag med er?

REST API, gRPC, webhooks. SDK:er för Python, JS, Go. Full OpenAPI-dokumentation.

Vad kostar det?

Token-baserad prissättning. Kontakta oss för exakt prismodell baserat på dina behov.

Redo att testa?

Kontakta oss för en teknisk demo eller teknisk dokumentation.

Kom igång