Tech – Slik fungerer Juice Factory AI

    Juice Factory AI er en europeisk AI-infrastrukturplattform for LLM-inferens, multimodale modeller, RAG og batch-kjøringer. Plattformen kjører i EU-datasentre med fokus på datasikkerhet, lav latens og full kontroll over modeller og data.

    Privat AI for bedrifter →

    Arkitektur

    • Kontrollplan: API-gateway, autentisering, kvoter, planlegging
    • Kjøringsplan: Containeriserte modellkjøringer på dedikert maskinvare
    • Nettverk: Lav-latens forbindelser mellom noder og lagring
    • Lagring: Objektlagring for modellvekter, cache for rask tilgang
    • Observability: Metrics, logs, tracing for full synlighet

    Maskinvare

    TypeVRAMKonfigurasjon
    B20080-192 GB8×GPU, 2×CPU (128 kjerner), 2 TB RAM
    NVIDIA RTX 6000-klasse96 GB4×GPU, 1×CPU (64 kjerner), 512 GB RAM
    AMD MI300-klasse192 GB8×GPU, 2×CPU (128 kjerner), 2 TB RAM

    Programvarestack

    Container-kjøring

    Kubernetes for orkestrering, Docker for isolasjon

    Drivere

    CUDA 12.x, ROCm 6.x for AMD

    Inferens-rammeverk

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Modellhåndtering

    Automatisk nedlasting, kvantisering (INT8, FP16), caching

    Sikkerhet og compliance (EU/GDPR-først)

    Security By Default

    Dataposisjon: All data og behandling skjer innenfor EU. Ingen data forlater EU.

    Tilgangskontroll: API-nøkler, JWT-tokens, rollebasert tilgang, MFA-støtte

    Nettverkssegmentering: Isolerte nettverk per kunde, ingen delt infrastruktur

    Logg-policy: Ingen datalagring som standard. Kunden velger selv retention-policy.

    Dataflyt & kontroller

    Security By Default

    Inferens dataflyt-kart

    For hver inferens-forespørsel følger data en strengt definert flyt:

    Klient
    1. TLS-kryptert forespørsel
    API Gateway
    2. Autentisering & validering
    Inferensmotor
    3. RAM-beregning
    4. Returner svar
    Minne tømmes
    5. Auto-sletting
    Logging
    Kun metadata: Kunde-ID, tokens, svartid
    1. Klienten sender en forespørsel via vårt API (TLS-kryptert).
    2. API-laget autentiserer kunden, validerer forespørselen og sender kun nødvendig informasjon videre til inferensmotoren.
    3. Inferensmotoren beregner svaret i RAM uten å skrive prompts eller outputs til disk.
    4. Svaret returneres til klienten og alt innhold slettes fra minnet etter fullført forespørsel.
    5. Kun teknisk metadata (f.eks. kunde-ID, modellnavn, antall tokens, svartid) kan logges for drift og fakturering – aldri selve innholdet i prompts eller svar i standardmodus.

    Dette dataflyt-kartet er dokumentert og versjonskontrollert, noe som gjør det mulig å gjennomgå hvert trinn ved sikkerhets- og compliance-revisjoner.

    Kontroller og revisjon

    For å sikre at ingen inferens-data lagres eller brukes til trening har vi implementert:

    Kode- og konfigurasjonsgjennomgang

    Inferens-koden mangler skrivetilgang til databaser og lagring for kundeinnhold. API-gateway og loggplattform er konfigurert til ikke å logge request- eller response-body.

    Separerte miljøer

    Kundespesifikke namespaces og tydelig separasjon mellom test, staging og produksjon for å unngå at debug-logging havner i produksjon.

    Loggpolicy

    Loggformatene inneholder kun teknisk metadata. Ingen felter for prompts eller outputs i standardmodus.

    Retention og auto-sletting

    All loggdata er underlagt tidsbasert retention hvor data automatisk slettes etter X dager i henhold til kunde- eller plattformpolicy.

    Revisjonsspor

    Endringer i loggpolicy, konfigurasjon og kodebase logges, noe som muliggjør både interne og eksterne revisjoner (f.eks. for ISO/SOC-sertifiseringer).

    Nettverk og ytelse

    Plattformen er bygget for lav latens og høy gjennomstrømning:

    • Direkte forbindelser mellom noder og lagring (NVLink, InfiniBand)
    • Token-gjennomstrømning: 100-500 tokens/s for 7B-modeller, 50-200 for 70B
    • Latens: <10ms for første token, <1ms per etterfølgende token

    Multimodell og isolering

    Flere LLM-er kan kjøre samtidig på samme infrastruktur. Ressurs-pooling gjør at modeller deler maskinvare når kapasitet finnes, men hver kunde har isolerte kjøringer. Scheduleren prioriterer lav-latens forespørsler over batch-jobber.

    Integrasjoner og API

    REST API og gRPC for programmatisk tilgang. Webhooks for event-notifikasjoner. SSO via OIDC for enkel integrasjon med eksisterende identitetssystemer. SDK-er for Python, JavaScript og Go.

    Prissetting

    Token-basert prissetting med tydelig kostnadskontroll. Du betaler per generert token, med forskjellige priser for forskjellige modellstørrelser. Ingen oppsigelsestid, skaler opp og ned etter behov. Volumrabatter ved langsiktige forpliktelser.

    OpenAI-alternativ →

    Drift og overvåking

    Metrics: Prometheus for metrics, Grafana for visualisering
    Tracing: OpenTelemetry for distribuert tracing
    Autoskalering: Automatisk skalering basert på belastning
    Alarmer: Proaktive alarmer ved avvik, kapasitetsprognoser

    Use case-eksempler

    Kundeservice-bot i produksjon

    Et e-handelsselskap kjører en 7B-modell for sanntidssvar i chatten deres. Gjennomsnittlig latens <50ms, 99,9% uptime.

    Internt søk/RAG

    Et konsulentfirma indekserer interne dokumenter og kjører RAG-spørringer mot en 13B-modell. Sikkert, ingen data forlater EU.

    Batch-generering av medier

    Et mediebyrå genererer tusenvis av produktbeskrivelser per dag med en 70B-modell. Batch-kjøringer om natten.

    Ofte stilte spørsmål

    Hvordan beskyttes mine data?

    All data blir i EU. Ingen data logges eller lagres uten din godkjenning. Isolerte nettverk per kunde.

    Hvilke modeller kan jeg kjøre?

    Alle åpne modeller (Llama, Mistral, etc.) og egne fine-tuned modeller. Vi hjelper med deployment.

    Hvor raskt svarer modellene?

    Første token <10ms, etterfølgende <1ms. Batch-jobber skalerer etter behov.

    Hvordan integrerer jeg med dere?

    REST API, gRPC, webhooks. SDK-er for Python, JS, Go. Full OpenAPI-dokumentasjon.

    Hva koster det?

    Token-basert prissetting. Kontakt oss for eksakt prismodell basert på dine behov.

    Klar til å teste?

    Kontakt oss for en teknisk demo eller teknisk dokumentasjon.