Tech – Hoe Juice Factory AI werkt

    Juice Factory AI is een Europees AI-infrastructuurplatform voor LLM-inference, multimodale modellen, RAG en batchverwerking. Het platform draait in EU-datacenters met focus op databeveiliging, lage latentie en volledige controle over modellen en data.

    Private AI voor bedrijven →

    Architectuur

    • Controlelaag: API-gateway, authenticatie, quota's, planning
    • Uitvoeringslaag: Containerized modeluitvoeringen op dedicated hardware
    • Netwerk: Lage-latentie verbindingen tussen nodes en opslag
    • Opslag: Objectopslag voor modelgewichten, cache voor snelle toegang
    • Observability: Metrics, logs, tracing voor volledig inzicht

    Hardware

    TypeVRAMConfiguratie
    B20080-192 GB8×GPU, 2×CPU (128 cores), 2 TB RAM
    NVIDIA RTX 6000-klasse96 GB4×GPU, 1×CPU (64 cores), 512 GB RAM
    AMD MI300-klasse192 GB8×GPU, 2×CPU (128 cores), 2 TB RAM

    Softwarestack

    Container-uitvoering

    Kubernetes voor orkestratie, Docker voor isolatie

    Drivers

    CUDA 12.x, ROCm 6.x voor AMD

    Inference-frameworks

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Modelbeheer

    Automatische download, kwantisering (INT8, FP16), caching

    Beveiliging & Compliance (EU/AVG-eerst)

    Security By Default

    Data-locatie: Alle data en verwerking vindt plaats binnen de EU. Geen data verlaat de EU.

    Toegangscontrole: API-sleutels, JWT-tokens, rolgebaseerde toegang, MFA-ondersteuning

    Netwerksegmentatie: Geïsoleerde netwerken per klant, geen gedeelde infrastructuur

    Logbeleid: Geen data-opslag standaard. Klant kiest eigen retentiebeleid.

    Datastromen & controles

    Security By Default

    Inferentie datastroom-kaart

    Bij elke inferentie-aanvraag volgen data een strikt gedefinieerde stroom:

    Client
    1. TLS-versleutelde aanvraag
    API Gateway
    2. Authenticatie & validatie
    Inferentie-engine
    3. RAM-berekening
    4. Antwoord retourneren
    Geheugen gewist
    5. Auto-verwijdering
    Logging
    Alleen metadata: Klant-ID, tokens, responstijd
    1. De client stuurt een aanvraag via onze API (TLS-versleuteld).
    2. De API-laag authenticeert de klant, valideert de aanvraag en stuurt alleen noodzakelijke informatie door naar de inferentie-engine.
    3. De inferentie-engine berekent het antwoord in RAM zonder prompts of outputs naar schijf te schrijven.
    4. Het antwoord wordt geretourneerd naar de client en alle inhoud wordt uit het geheugen gewist na voltooiing van de aanvraag.
    5. Alleen technische metadata (bijv. klant-ID, modelnaam, token-aantal, responstijd) kan worden gelogd voor operaties en facturering – nooit de werkelijke inhoud van prompts of antwoorden in standaardmodus.

    Deze datastroom-kaart is gedocumenteerd en versiebeheerd, waardoor elke stap kan worden herzien tijdens beveiligings- en compliance-audits.

    Controles en audit

    Om ervoor te zorgen dat geen inferentiegegevens worden opgeslagen of gebruikt voor training, hebben we geïmplementeerd:

    Code- & configuratiebeoordeling

    De inferentiecode heeft geen schrijftoegang tot databases en opslag voor klantinhoud. API-gateway en logplatform zijn geconfigureerd om geen request- of response-bodies te loggen.

    Gescheiden omgevingen

    Klantspecifieke namespaces en duidelijke scheiding tussen test, staging en productie om te voorkomen dat debug-logging in productie terechtkomt.

    Logbeleid

    Logformaten bevatten alleen technische metadata. Geen velden voor prompts of outputs in standaardmodus.

    Bewaring en auto-verwijdering

    Alle loggegevens zijn onderworpen aan tijdgebonden bewaring waarbij gegevens automatisch worden verwijderd na X dagen volgens klant- of platformbeleid.

    Auditspoor

    Wijzigingen in logbeleid, configuratie en codebase worden gelogd, wat zowel interne als externe audits mogelijk maakt (bijv. voor ISO/SOC-certificeringen).

    Netwerk & Prestaties

    Het platform is gebouwd voor lage latentie en hoge doorvoer:

    • Directe verbindingen tussen nodes en opslag (NVLink, InfiniBand)
    • Token-doorvoer: 100-500 tokens/s voor 7B-modellen, 50-200 voor 70B
    • Latentie: <10ms voor eerste token, <1ms per volgende token

    Multi-model & Isolatie

    Meerdere LLM's kunnen gelijktijdig draaien op dezelfde infrastructuur. Resource-pooling zorgt ervoor dat modellen hardware delen wanneer capaciteit beschikbaar is, maar elke klant heeft geïsoleerde uitvoeringen. De scheduler geeft prioriteit aan lage-latentie verzoeken boven batch-jobs.

    Integraties & API

    REST API en gRPC voor programmatische toegang. Webhooks voor event-notificaties. SSO via OIDC voor eenvoudige integratie met bestaande identiteitssystemen. SDK's voor Python, JavaScript en Go.

    Prijzen

    Token-gebaseerde prijzen met duidelijke kostencontrole. Je betaalt per gegenereerde token, met verschillende prijzen voor verschillende modelgroottes. Geen lock-in, schaal op en neer zoals nodig. Volumekortingen bij langetermijnverbintenissen.

    OpenAI-alternatief →

    Operaties & Monitoring

    Metrics: Prometheus voor metrics, Grafana voor visualisatie
    Tracing: OpenTelemetry voor gedistribueerde tracing
    Autoscaling: Automatische schaling op basis van belasting
    Alarmen: Proactieve alarmen bij afwijkingen, capaciteitsprognoses

    Use Case Voorbeelden

    Productie Klantenondersteuningsbot

    Een e-commerce bedrijf draait een 7B-model voor realtime antwoorden in hun chat. Gemiddelde latentie <50ms, 99,9% uptime.

    Intern Zoeken/RAG

    Een adviesbureau indexeert interne documenten en voert RAG-queries uit tegen een 13B-model. Veilig, geen data verlaat de EU.

    Batch Mediageneratie

    Een mediabureau genereert dagelijks duizenden productbeschrijvingen met een 70B-model. Batch-uitvoeringen 's nachts.

    Veelgestelde Vragen

    Hoe wordt mijn data beschermd?

    Alle data blijft in de EU. Geen data wordt gelogd of opgeslagen zonder jouw goedkeuring. Geïsoleerde netwerken per klant.

    Welke modellen kan ik draaien?

    Alle open modellen (Llama, Mistral, etc.) en eigen fine-tuned modellen. We helpen met deployment.

    Hoe snel reageren de modellen?

    Eerste token <10ms, volgende <1ms. Batch-jobs schalen naar behoefte.

    Hoe integreer ik met jullie?

    REST API, gRPC, webhooks. SDK's voor Python, JS, Go. Volledige OpenAPI-documentatie.

    Wat kost het?

    Token-gebaseerde prijzen. Neem contact op voor exacte prijzen op basis van jouw behoeften.

    Klaar om te testen?

    Neem contact op voor een technische demo of technische documentatie.