Tech – Hoe Juice Factory AI werkt

Juice Factory AI is een Europees AI-infrastructuurplatform voor LLM-inference, multimodale modellen, RAG en batchverwerking. Het platform draait in EU-datacenters met focus op databeveiliging, lage latentie en volledige controle over modellen en data.

Private AI voor bedrijven →

Architectuur

• Controlelaag: API-gateway, authenticatie, quota's, planning
• Uitvoeringslaag: Containerized modeluitvoeringen op dedicated hardware
• Netwerk: Lage-latentie verbindingen tussen nodes en opslag
• Opslag: Objectopslag voor modelgewichten, cache voor snelle toegang
• Observability: Metrics, logs, tracing voor volledig inzicht

Hardware

Type	VRAM	Configuratie
B200	80-192 GB	8×GPU, 2×CPU (128 cores), 2 TB RAM
NVIDIA RTX 6000-klasse	96 GB	4×GPU, 1×CPU (64 cores), 512 GB RAM
AMD MI300-klasse	192 GB	8×GPU, 2×CPU (128 cores), 2 TB RAM

Softwarestack

Container-uitvoering

Kubernetes voor orkestratie, Docker voor isolatie

Drivers

CUDA 12.x, ROCm 6.x voor AMD

Inference-frameworks

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modelbeheer

Automatische download, kwantisering (INT8, FP16), caching

Beveiliging & Compliance (EU/AVG-eerst)

Security By Default

Data-locatie: Alle data en verwerking vindt plaats binnen de EU. Geen data verlaat de EU.

Toegangscontrole: API-sleutels, JWT-tokens, rolgebaseerde toegang, MFA-ondersteuning

Netwerksegmentatie: Geïsoleerde netwerken per klant, geen gedeelde infrastructuur

Logbeleid: Geen data-opslag standaard. Klant kiest eigen retentiebeleid.

Datastromen & controles

Security By Default

Inferentie datastroom-kaart

Bij elke inferentie-aanvraag volgen data een strikt gedefinieerde stroom:

Client

1. TLS-versleutelde aanvraag

API Gateway

2. Authenticatie & validatie

Inferentie-engine

3. RAM-berekening

4. Antwoord retourneren

Geheugen gewist

5. Auto-verwijdering

Logging

Alleen metadata: Klant-ID, tokens, responstijd

De client stuurt een aanvraag via onze API (TLS-versleuteld).
De API-laag authenticeert de klant, valideert de aanvraag en stuurt alleen noodzakelijke informatie door naar de inferentie-engine.
De inferentie-engine berekent het antwoord in RAM zonder prompts of outputs naar schijf te schrijven.
Het antwoord wordt geretourneerd naar de client en alle inhoud wordt uit het geheugen gewist na voltooiing van de aanvraag.
Alleen technische metadata (bijv. klant-ID, modelnaam, token-aantal, responstijd) kan worden gelogd voor operaties en facturering – nooit de werkelijke inhoud van prompts of antwoorden in standaardmodus.

Deze datastroom-kaart is gedocumenteerd en versiebeheerd, waardoor elke stap kan worden herzien tijdens beveiligings- en compliance-audits.

Controles en audit

Om ervoor te zorgen dat geen inferentiegegevens worden opgeslagen of gebruikt voor training, hebben we geïmplementeerd:

Code- & configuratiebeoordeling

De inferentiecode heeft geen schrijftoegang tot databases en opslag voor klantinhoud. API-gateway en logplatform zijn geconfigureerd om geen request- of response-bodies te loggen.

Gescheiden omgevingen

Klantspecifieke namespaces en duidelijke scheiding tussen test, staging en productie om te voorkomen dat debug-logging in productie terechtkomt.

Logbeleid

Logformaten bevatten alleen technische metadata. Geen velden voor prompts of outputs in standaardmodus.

Bewaring en auto-verwijdering

Alle loggegevens zijn onderworpen aan tijdgebonden bewaring waarbij gegevens automatisch worden verwijderd na X dagen volgens klant- of platformbeleid.

Auditspoor

Wijzigingen in logbeleid, configuratie en codebase worden gelogd, wat zowel interne als externe audits mogelijk maakt (bijv. voor ISO/SOC-certificeringen).

Netwerk & Prestaties

Het platform is gebouwd voor lage latentie en hoge doorvoer:

• Directe verbindingen tussen nodes en opslag (NVLink, InfiniBand)
• Token-doorvoer: 100-500 tokens/s voor 7B-modellen, 50-200 voor 70B
• Latentie: <10ms voor eerste token, <1ms per volgende token

Multi-model & Isolatie

Meerdere LLM's kunnen gelijktijdig draaien op dezelfde infrastructuur. Resource-pooling zorgt ervoor dat modellen hardware delen wanneer capaciteit beschikbaar is, maar elke klant heeft geïsoleerde uitvoeringen. De scheduler geeft prioriteit aan lage-latentie verzoeken boven batch-jobs.

Integraties & API

REST API en gRPC voor programmatische toegang. Webhooks voor event-notificaties. SSO via OIDC voor eenvoudige integratie met bestaande identiteitssystemen. SDK's voor Python, JavaScript en Go.

Prijzen

Token-gebaseerde prijzen met duidelijke kostencontrole. Je betaalt per gegenereerde token, met verschillende prijzen voor verschillende modelgroottes. Geen lock-in, schaal op en neer zoals nodig. Volumekortingen bij langetermijnverbintenissen.

OpenAI-alternatief →

Operaties & Monitoring

Metrics: Prometheus voor metrics, Grafana voor visualisatie

Tracing: OpenTelemetry voor gedistribueerde tracing

Autoscaling: Automatische schaling op basis van belasting

Alarmen: Proactieve alarmen bij afwijkingen, capaciteitsprognoses

Use Case Voorbeelden

Productie Klantenondersteuningsbot

Een e-commerce bedrijf draait een 7B-model voor realtime antwoorden in hun chat. Gemiddelde latentie <50ms, 99,9% uptime.

Intern Zoeken/RAG

Een adviesbureau indexeert interne documenten en voert RAG-queries uit tegen een 13B-model. Veilig, geen data verlaat de EU.

Batch Mediageneratie

Een mediabureau genereert dagelijks duizenden productbeschrijvingen met een 70B-model. Batch-uitvoeringen 's nachts.

Veelgestelde Vragen

Hoe wordt mijn data beschermd?

Alle data blijft in de EU. Geen data wordt gelogd of opgeslagen zonder jouw goedkeuring. Geïsoleerde netwerken per klant.

Welke modellen kan ik draaien?

Alle open modellen (Llama, Mistral, etc.) en eigen fine-tuned modellen. We helpen met deployment.

Hoe snel reageren de modellen?

Eerste token <10ms, volgende <1ms. Batch-jobs schalen naar behoefte.

Hoe integreer ik met jullie?

REST API, gRPC, webhooks. SDK's voor Python, JS, Go. Volledige OpenAPI-documentatie.

Wat kost het?

Token-gebaseerde prijzen. Neem contact op voor exacte prijzen op basis van jouw behoeften.

Klaar om te testen?

Neem contact op voor een technische demo of technische documentatie.

Aan de slag