Tech – Så funkar Juice Factory AI

Juice Factory AI är en europeisk AI-infrastrukturplattform för LLM-inference, multimodala modeller, RAG och batch-körningar. Plattformen körs i EU-datacenter med fokus på datasäkerhet, låg latens och full kontroll över modeller och data.

Privat AI för företag

Arkitektur

Hårdvara

TypVRAMKonfiguration
B20080-192 GB8×GPU, 2×CPU (128 kärnor), 2 TB RAM
NVIDIA RTX 6000-klass96 GB4×GPU, 1×CPU (64 kärnor), 512 GB RAM
AMD MI300-klass192 GB8×GPU, 2×CPU (128 kärnor), 2 TB RAM

Programvarustack

Container-körning

Kubernetes för orkestrering, Docker för isolation

Drivare

CUDA 12.x, ROCm 6.x för AMD

Inference-ramverk

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellhantering

Automatisk nedladdning, kvantisering (INT8, FP16), cachning

Säkerhet & Efterlevnad (EU/GDPR-först)

Security By Default

Dataplacering: All data och all bearbetning sker inom EU. Ingen data lämnar EU.

Åtkomstkontroll: API-nycklar, JWT-tokens, rollbaserad åtkomst, MFA-stöd

Nätsegmentering: Isolerade nätverk per kund, ingen delad infrastruktur

Loggpolicy: Ingen datalagring som standard. Kunden väljer själv retention-policy.

Dataflöden & kontroller

Security By Default

Dataflödeskarta för inferens

Vid varje inferensförfrågan följer data ett strikt definierat flöde:

Klient
1. TLS-krypterad förfrågan
API Gateway
2. Autentisering & validering
Inferensmotor
3. Beräkning i RAM
4. Returnera svar
Minne töms
5. Auto-radering
Loggning
Endast metadata: Kund-ID, tokens, svarstid
  1. Klienten skickar en förfrågan via vårt API (TLS-krypterad).
  2. API-lagret autentiserar kunden, validerar requesten och skickar endast nödvändig information vidare till inferensmotorn.
  3. Inferensmotorn beräknar svaret i RAM utan att skriva prompt eller output till disk.
  4. Svaret returneras till klienten och alla innehållsdelar kastas ur minnet efter avslutad request.
  5. Endast teknisk metadata (t.ex. kund-ID, modellnamn, antal tokens, svarstid) kan loggas för drift och fakturering – aldrig själva innehållet i prompts eller svar i standardläget.

Denna dataflödeskarta är dokumenterad och versionshanteras, vilket gör det möjligt att revidera varje steg vid säkerhets- och efterlevnadsgranskningar.

Kontroller och revision

För att säkerställa att ingen inferensdata lagras eller används för träning har vi infört:

Kod- och konfigurationsgranskning

Inferenskoden saknar skrivåtkomst till databaser och lagring för kundinnehåll. API-gw och loggplattform är konfigurerade att inte logga request- eller response-body.

Separerade miljöer

Kundspecifika namespaces och tydlig separation mellan test, staging och produktion för att undvika att debug-loggning råkar hamna i produktion.

Loggpolicy

Loggformaten innehåller endast teknisk metadata. Inga fält för prompts eller outputs i standardläget.

Retention och auto-radering

All loggdata ligger på tidsstyrd retention där data automatiskt raderas efter X dagar enligt kundens eller plattformens policy.

Revisionsspår

Ändringar i loggpolicy, konfiguration och kodbas loggas, vilket möjliggör både interna och externa revisioner (t.ex. inför ISO/SOC-certifieringar).

Nätverk & Prestanda

Plattformen är byggd för låg latens och hög genomströmning:

Multimodell & Isolering

Flera LLM:er kan köras samtidigt på samma infrastruktur. Resurs-pooling gör att modeller delar hårdvara när kapacitet finns, men varje kund har isolerade körningar. Schemaläggaren prioriterar låglatens-förfrågningar över batch-jobb.

Integreringar & API

REST API och gRPC för programmatisk åtkomst. Webhooks för event-notifieringar. SSO via OIDC för enkel integration med befintliga identitetssystem. SDK:er för Python, JavaScript och Go.

Prissättning

Token-baserad prissättning med tydlig kostnadskontroll. Du betalar per genererad token, med olika priser för olika modellstorlekar. Ingen uppsägningstid, skala upp och ner efter behov. Volymrabatter vid långsiktiga åtaganden.

OpenAI-alternativ

Drift & Övervakning

Metrics: Prometheus för metrics, Grafana för visualisering
Tracing: OpenTelemetry för distribuerad tracing
Autoscaling: Automatisk skalning baserat på belastning
Larm: Proaktiva larm vid avvikelser, kapacitetsprognoser

Use Case-exempel

Kundsupport-bot i produktion

Ett e-handelsföretag kör en 7B-modell för realtidssvar i sin chatt. Genomsnittlig latens <50ms, 99,9% uptime.

Intern sök/RAG

Ett konsultföretag indexerar interna dokument och kör RAG-frågor mot en 13B-modell. Säker, ingen data lämnar EU.

Batch-generering av media

En mediabyrå genererar tusentals produktbeskrivningar per dag med en 70B-modell. Batch-körningar på natten.

Vanliga frågor

Hur skyddas min data?

All data stannar i EU. Ingen data loggas eller sparas utan ditt godkännande. Isolerade nätverk per kund.

Vilka modeller kan jag köra?

Alla öppna modeller (Llama, Mistral, etc.) och egna fine-tunade modeller. Vi hjälper till med deployment.

Hur snabbt svarar modellerna?

Första token <10ms, efterföljande <1ms. Batch-jobb skalar efter behov.

Hur integrerar jag med er?

REST API, gRPC, webhooks. SDK:er för Python, JS, Go. Full OpenAPI-dokumentation.

Vad kostar det?

Token-baserad prissättning. Kontakta oss för exakt prismodell baserat på dina behov.

Redo att testa?

Kontakta oss för en teknisk demo eller teknisk dokumentation.

Kom igång