Tech – Sådan fungerer Juice Factory AI

    Juice Factory AI er en europæisk AI-infrastrukturplatform til LLM-inferens, multimodale modeller, RAG og batch-kørsler. Platformen kører i EU-datacentre med fokus på datasikkerhed, lav latens og fuld kontrol over modeller og data.

    Privat AI til virksomheder →

    Arkitektur

    • Kontrolplan: API-gateway, autentifikation, kvoter, planlægning
    • Kørselsplan: Containeriserede modelkørsler på dedikeret hardware
    • Netværk: Lav-latens forbindelser mellem noder og lagring
    • Lagring: Objektlagring til modelvægte, cache til hurtig adgang
    • Observability: Metrics, logs, tracing til fuld synlighed

    Hardware

    TypeVRAMKonfiguration
    B20080-192 GB8×GPU, 2×CPU (128 kerner), 2 TB RAM
    NVIDIA RTX 6000-klasse96 GB4×GPU, 1×CPU (64 kerner), 512 GB RAM
    AMD MI300-klasse192 GB8×GPU, 2×CPU (128 kerner), 2 TB RAM

    Softwarestack

    Container-kørsel

    Kubernetes til orkestrering, Docker til isolation

    Drivere

    CUDA 12.x, ROCm 6.x til AMD

    Inferens-frameworks

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Modelhåndtering

    Automatisk download, kvantisering (INT8, FP16), caching

    Sikkerhed og compliance (EU/GDPR-først)

    Security By Default

    Dataplacering: Al data og behandling sker inden for EU. Ingen data forlader EU.

    Adgangskontrol: API-nøgler, JWT-tokens, rollebaseret adgang, MFA-support

    Netværkssegmentering: Isolerede netværk per kunde, ingen delt infrastruktur

    Log-politik: Ingen datalagring som standard. Kunden vælger selv retention-politik.

    Dataflow & kontroller

    Security By Default

    Inferens dataflow-kort

    Ved hver inferens-forespørgsel følger data et strengt defineret flow:

    Klient
    1. TLS-krypteret forespørgsel
    API Gateway
    2. Autentificering & validering
    Inferensmotor
    3. RAM-beregning
    4. Returner svar
    Hukommelse slettet
    5. Auto-sletning
    Logging
    Kun metadata: Kunde-ID, tokens, svartid
    1. Klienten sender en forespørgsel via vores API (TLS-krypteret).
    2. API-laget autentificerer kunden, validerer forespørgslen og sender kun nødvendig information videre til inferensmotoren.
    3. Inferensmotoren beregner svaret i RAM uden at skrive prompts eller outputs til disk.
    4. Svaret returneres til klienten og alt indhold slettes fra hukommelsen efter afsluttet forespørgsel.
    5. Kun teknisk metadata (f.eks. kunde-ID, modelnavn, antal tokens, svartid) kan logges til drift og fakturering – aldrig selve indholdet af prompts eller svar i standardtilstand.

    Dette dataflow-kort er dokumenteret og versionsstyret, hvilket gør det muligt at gennemgå hvert trin ved sikkerheds- og compliance-revisioner.

    Kontroller og revision

    For at sikre at ingen inferens-data gemmes eller bruges til træning har vi implementeret:

    Kode- & konfigurationsgennemgang

    Inferens-koden mangler skriveadgang til databaser og lagring af kundeindhold. API-gateway og logplatform er konfigureret til ikke at logge request- eller response-body.

    Adskilte miljøer

    Kundespecifikke namespaces og tydelig adskillelse mellem test, staging og produktion for at undgå at debug-logging kommer i produktion.

    Logpolitik

    Logformater indeholder kun teknisk metadata. Ingen felter for prompts eller outputs i standardtilstand.

    Retention og auto-sletning

    Al logdata er underlagt tidsbaseret retention hvor data automatisk slettes efter X dage i henhold til kunde- eller platformpolitik.

    Revisionsspor

    Ændringer i logpolitik, konfiguration og kodebase logges, hvilket muliggør både interne og eksterne revisioner (f.eks. til ISO/SOC-certificeringer).

    Netværk og ydeevne

    Platformen er bygget til lav latens og høj gennemstrømning:

    • Direkte forbindelser mellem GPU-noder og lagring (NVLink, InfiniBand)
    • Token-gennemstrømning: 100-500 tokens/s for 7B-modeller, 50-200 for 70B
    • Latens: <10ms for første token, <1ms per efterfølgende token

    Multimodel og isolering

    Flere LLM'er kan køre samtidigt på samme infrastruktur. Ressource-pooling gør at modeller deler hardware når kapacitet findes, men hver kunde har isolerede kørsler. Scheduleren prioriterer lav-latens forespørgsler over batch-jobs.

    Integrationer og API

    REST API og gRPC til programmatisk adgang. Webhooks til event-notifikationer. SSO via OIDC til nem integration med eksisterende identitetssystemer. SDK'er til Python, JavaScript og Go.

    Prissætning

    Token-baseret prissætning med tydelig omkostningskontrol. Du betaler per genereret token, med forskellige priser for forskellige modelstørrelser. Ingen opsigelsestid, skalér op og ned efter behov. Volumenrabatter ved langsigtede forpligtelser.

    OpenAI-alternativ →

    Drift og overvågning

    Metrics: Prometheus til metrics, Grafana til visualisering
    Tracing: OpenTelemetry til distribueret tracing
    Autoskalering: Automatisk skalering baseret på belastning
    Alarmer: Proaktive alarmer ved afvigelser, kapacitetsprognoser

    Use case-eksempler

    Kundesupport-bot i produktion

    En e-handelsvirksomhed kører en 7B-model til realtidssvar i deres chat. Gennemsnitlig latens <50ms, 99,9% uptime.

    Intern søgning/RAG

    Et konsulentfirma indekserer interne dokumenter og kører RAG-forespørgsler mod en 13B-model. Sikkert, ingen data forlader EU.

    Batch-generering af medier

    Et mediebureau genererer tusindvis af produktbeskrivelser om dagen med en 70B-model. Batch-kørsler om natten.

    Ofte stillede spørgsmål

    Hvordan beskyttes mine data?

    Al data forbliver i EU. Ingen data logges eller gemmes uden din godkendelse. Isolerede netværk per kunde.

    Hvilke modeller kan jeg køre?

    Alle åbne modeller (Llama, Mistral, etc.) og egne fine-tuned modeller. Vi hjælper med deployment.

    Hvor hurtigt svarer modellerne?

    Første token <10ms, efterfølgende <1ms. Batch-jobs skalerer efter behov.

    Hvordan integrerer jeg med jer?

    REST API, gRPC, webhooks. SDK'er til Python, JS, Go. Fuld OpenAPI-dokumentation.

    Hvad koster det?

    Token-baseret prissætning. Kontakt os for præcis prismodel baseret på dine behov.

    Klar til at teste?

    Kontakt os for en teknisk demo eller teknisk dokumentation.