Tech – Så funkar Juice Factory AI

    Juice Factory AI är en europeisk AI-infrastrukturplattform för LLM-inference, multimodala modeller, RAG och batch-körningar. Plattformen körs i EU-datacenter med fokus på datasäkerhet, låg latens och full kontroll över modeller och data.

    Privat AI för företag →

    Arkitektur

    • Kontrollplan: API-gateway, autentisering, kvotering, schemaläggning
    • Körplan: Containeriserade modellkörningar på dedikerad hårdvara
    • Nätverk: Låglatens-kopplingar mellan noder och lagring
    • Lagring: Objektlagring för modellvikter, cache för snabb åtkomst
    • Observability: Metrics, logs, tracing för full insyn

    Hårdvara

    TypVRAMKonfiguration
    B20080-192 GB8×GPU, 2×CPU (128 kärnor), 2 TB RAM
    NVIDIA RTX 6000-klass96 GB4×GPU, 1×CPU (64 kärnor), 512 GB RAM
    AMD MI300-klass192 GB8×GPU, 2×CPU (128 kärnor), 2 TB RAM

    Programvarustack

    Container-körning

    Kubernetes för orkestrering, Docker för isolation

    Drivare

    CUDA 12.x, ROCm 6.x för AMD

    Inference-ramverk

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Modellhantering

    Automatisk nedladdning, kvantisering (INT8, FP16), cachning

    Säkerhet & Efterlevnad (EU/GDPR-först)

    Security By Default

    Dataplacering: All data och all bearbetning sker inom EU. Ingen data lämnar EU.

    Åtkomstkontroll: API-nycklar, JWT-tokens, rollbaserad åtkomst, MFA-stöd

    Nätsegmentering: Isolerade nätverk per kund, ingen delad infrastruktur

    Loggpolicy: Ingen datalagring som standard. Kunden väljer själv retention-policy.

    Dataflöden & kontroller

    Security By Default

    Dataflödeskarta för inferens

    Vid varje inferensförfrågan följer data ett strikt definierat flöde:

    Klient
    1. TLS-krypterad förfrågan
    API Gateway
    2. Autentisering & validering
    Inferensmotor
    3. Beräkning i RAM
    4. Returnera svar
    Minne töms
    5. Auto-radering
    Loggning
    Endast metadata: Kund-ID, tokens, svarstid
    1. Klienten skickar en förfrågan via vårt API (TLS-krypterad).
    2. API-lagret autentiserar kunden, validerar requesten och skickar endast nödvändig information vidare till inferensmotorn.
    3. Inferensmotorn beräknar svaret i RAM utan att skriva prompt eller output till disk.
    4. Svaret returneras till klienten och alla innehållsdelar kastas ur minnet efter avslutad request.
    5. Endast teknisk metadata (t.ex. kund-ID, modellnamn, antal tokens, svarstid) kan loggas för drift och fakturering – aldrig själva innehållet i prompts eller svar i standardläget.

    Denna dataflödeskarta är dokumenterad och versionshanteras, vilket gör det möjligt att revidera varje steg vid säkerhets- och efterlevnadsgranskningar.

    Kontroller och revision

    För att säkerställa att ingen inferensdata lagras eller används för träning har vi infört:

    Kod- och konfigurationsgranskning

    Inferenskoden saknar skrivåtkomst till databaser och lagring för kundinnehåll. API-gw och loggplattform är konfigurerade att inte logga request- eller response-body.

    Separerade miljöer

    Kundspecifika namespaces och tydlig separation mellan test, staging och produktion för att undvika att debug-loggning råkar hamna i produktion.

    Loggpolicy

    Loggformaten innehåller endast teknisk metadata. Inga fält för prompts eller outputs i standardläget.

    Retention och auto-radering

    All loggdata ligger på tidsstyrd retention där data automatiskt raderas efter X dagar enligt kundens eller plattformens policy.

    Revisionsspår

    Ändringar i loggpolicy, konfiguration och kodbas loggas, vilket möjliggör både interna och externa revisioner (t.ex. inför ISO/SOC-certifieringar).

    Nätverk & Prestanda

    Plattformen är byggd för låg latens och hög genomströmning:

    • Direkta kopplingar mellan GPU-noder och lagring (NVLink, InfiniBand)
    • Token-genomströmning: 100-500 tokens/s för 7B-modeller, 50-200 för 70B
    • Latens: <10ms för första token, <1ms per efterföljande token

    Multimodell & Isolering

    Flera LLM:er kan köras samtidigt på samma infrastruktur. Resurs-pooling gör att modeller delar hårdvara när kapacitet finns, men varje kund har isolerade körningar. Schemaläggaren prioriterar låglatens-förfrågningar över batch-jobb.

    Integreringar & API

    REST API och gRPC för programmatisk åtkomst. Webhooks för event-notifieringar. SSO via OIDC för enkel integration med befintliga identitetssystem. SDK:er för Python, JavaScript och Go.

    Prissättning

    Token-baserad prissättning med tydlig kostnadskontroll. Du betalar per genererad token, med olika priser för olika modellstorlekar. Ingen uppsägningstid, skala upp och ner efter behov. Volymrabatter vid långsiktiga åtaganden.

    OpenAI-alternativ →

    Drift & Övervakning

    Metrics: Prometheus för metrics, Grafana för visualisering
    Tracing: OpenTelemetry för distribuerad tracing
    Autoscaling: Automatisk skalning baserat på belastning
    Larm: Proaktiva larm vid avvikelser, kapacitetsprognoser

    Use Case-exempel

    Kundsupport-bot i produktion

    Ett e-handelsföretag kör en 7B-modell för realtidssvar i sin chatt. Genomsnittlig latens <50ms, 99,9% uptime.

    Intern sök/RAG

    Ett konsultföretag indexerar interna dokument och kör RAG-frågor mot en 13B-modell. Säker, ingen data lämnar EU.

    Batch-generering av media

    En mediabyrå genererar tusentals produktbeskrivningar per dag med en 70B-modell. Batch-körningar på natten.

    Vanliga frågor

    Hur skyddas min data?

    All data stannar i EU. Ingen data loggas eller sparas utan ditt godkännande. Isolerade nätverk per kund.

    Vilka modeller kan jag köra?

    Alla öppna modeller (Llama, Mistral, etc.) och egna fine-tunade modeller. Vi hjälper till med deployment.

    Hur snabbt svarar modellerna?

    Första token <10ms, efterföljande <1ms. Batch-jobb skalar efter behov.

    Hur integrerar jag med er?

    REST API, gRPC, webhooks. SDK:er för Python, JS, Go. Full OpenAPI-dokumentation.

    Vad kostar det?

    Token-baserad prissättning. Kontakta oss för exakt prismodell baserat på dina behov.

    Redo att testa?

    Kontakta oss för en teknisk demo eller teknisk dokumentation.