Tech – Hoe Juice Factory AI werkt

Juice Factory AI is een Europees AI-infrastructuurplatform voor LLM-inference, multimodale modellen, RAG en batchverwerking. Het platform draait in EU-datacenters met focus op databeveiliging, lage latentie en volledige controle over modellen en data.

Private AI voor bedrijven

Architectuur

Hardware

TypeVRAMConfiguratie
B20080-192 GB8×GPU, 2×CPU (128 cores), 2 TB RAM
NVIDIA RTX 6000-klasse96 GB4×GPU, 1×CPU (64 cores), 512 GB RAM
AMD MI300-klasse192 GB8×GPU, 2×CPU (128 cores), 2 TB RAM

Softwarestack

Container-uitvoering

Kubernetes voor orkestratie, Docker voor isolatie

Drivers

CUDA 12.x, ROCm 6.x voor AMD

Inference-frameworks

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modelbeheer

Automatische download, kwantisering (INT8, FP16), caching

Beveiliging & Compliance (EU/AVG-eerst)

Security By Default

Data-locatie: Alle data en verwerking vindt plaats binnen de EU. Geen data verlaat de EU.

Toegangscontrole: API-sleutels, JWT-tokens, rolgebaseerde toegang, MFA-ondersteuning

Netwerksegmentatie: Geïsoleerde netwerken per klant, geen gedeelde infrastructuur

Logbeleid: Geen data-opslag standaard. Klant kiest eigen retentiebeleid.

Datastromen & controles

Security By Default

Inferentie datastroom-kaart

Bij elke inferentie-aanvraag volgen data een strikt gedefinieerde stroom:

Client
1. TLS-versleutelde aanvraag
API Gateway
2. Authenticatie & validatie
Inferentie-engine
3. RAM-berekening
4. Antwoord retourneren
Geheugen gewist
5. Auto-verwijdering
Logging
Alleen metadata: Klant-ID, tokens, responstijd
  1. De client stuurt een aanvraag via onze API (TLS-versleuteld).
  2. De API-laag authenticeert de klant, valideert de aanvraag en stuurt alleen noodzakelijke informatie door naar de inferentie-engine.
  3. De inferentie-engine berekent het antwoord in RAM zonder prompts of outputs naar schijf te schrijven.
  4. Het antwoord wordt geretourneerd naar de client en alle inhoud wordt uit het geheugen gewist na voltooiing van de aanvraag.
  5. Alleen technische metadata (bijv. klant-ID, modelnaam, token-aantal, responstijd) kan worden gelogd voor operaties en facturering – nooit de werkelijke inhoud van prompts of antwoorden in standaardmodus.

Deze datastroom-kaart is gedocumenteerd en versiebeheerd, waardoor elke stap kan worden herzien tijdens beveiligings- en compliance-audits.

Controles en audit

Om ervoor te zorgen dat geen inferentiegegevens worden opgeslagen of gebruikt voor training, hebben we geïmplementeerd:

Code- & configuratiebeoordeling

De inferentiecode heeft geen schrijftoegang tot databases en opslag voor klantinhoud. API-gateway en logplatform zijn geconfigureerd om geen request- of response-bodies te loggen.

Gescheiden omgevingen

Klantspecifieke namespaces en duidelijke scheiding tussen test, staging en productie om te voorkomen dat debug-logging in productie terechtkomt.

Logbeleid

Logformaten bevatten alleen technische metadata. Geen velden voor prompts of outputs in standaardmodus.

Bewaring en auto-verwijdering

Alle loggegevens zijn onderworpen aan tijdgebonden bewaring waarbij gegevens automatisch worden verwijderd na X dagen volgens klant- of platformbeleid.

Auditspoor

Wijzigingen in logbeleid, configuratie en codebase worden gelogd, wat zowel interne als externe audits mogelijk maakt (bijv. voor ISO/SOC-certificeringen).

Netwerk & Prestaties

Het platform is gebouwd voor lage latentie en hoge doorvoer:

Multi-model & Isolatie

Meerdere LLM's kunnen gelijktijdig draaien op dezelfde infrastructuur. Resource-pooling zorgt ervoor dat modellen hardware delen wanneer capaciteit beschikbaar is, maar elke klant heeft geïsoleerde uitvoeringen. De scheduler geeft prioriteit aan lage-latentie verzoeken boven batch-jobs.

Integraties & API

REST API en gRPC voor programmatische toegang. Webhooks voor event-notificaties. SSO via OIDC voor eenvoudige integratie met bestaande identiteitssystemen. SDK's voor Python, JavaScript en Go.

Prijzen

Token-gebaseerde prijzen met duidelijke kostencontrole. Je betaalt per gegenereerde token, met verschillende prijzen voor verschillende modelgroottes. Geen lock-in, schaal op en neer zoals nodig. Volumekortingen bij langetermijnverbintenissen.

OpenAI-alternatief

Operaties & Monitoring

Metrics: Prometheus voor metrics, Grafana voor visualisatie
Tracing: OpenTelemetry voor gedistribueerde tracing
Autoscaling: Automatische schaling op basis van belasting
Alarmen: Proactieve alarmen bij afwijkingen, capaciteitsprognoses

Use Case Voorbeelden

Productie Klantenondersteuningsbot

Een e-commerce bedrijf draait een 7B-model voor realtime antwoorden in hun chat. Gemiddelde latentie <50ms, 99,9% uptime.

Intern Zoeken/RAG

Een adviesbureau indexeert interne documenten en voert RAG-queries uit tegen een 13B-model. Veilig, geen data verlaat de EU.

Batch Mediageneratie

Een mediabureau genereert dagelijks duizenden productbeschrijvingen met een 70B-model. Batch-uitvoeringen 's nachts.

Veelgestelde Vragen

Hoe wordt mijn data beschermd?

Alle data blijft in de EU. Geen data wordt gelogd of opgeslagen zonder jouw goedkeuring. Geïsoleerde netwerken per klant.

Welke modellen kan ik draaien?

Alle open modellen (Llama, Mistral, etc.) en eigen fine-tuned modellen. We helpen met deployment.

Hoe snel reageren de modellen?

Eerste token <10ms, volgende <1ms. Batch-jobs schalen naar behoefte.

Hoe integreer ik met jullie?

REST API, gRPC, webhooks. SDK's voor Python, JS, Go. Volledige OpenAPI-documentatie.

Wat kost het?

Token-gebaseerde prijzen. Neem contact op voor exacte prijzen op basis van jouw behoeften.

Klaar om te testen?

Neem contact op voor een technische demo of technische documentatie.

Aan de slag