Juice Factory AI is een Europees AI-infrastructuurplatform voor LLM-inference, multimodale modellen, RAG en batchverwerking. Het platform draait in EU-datacenters met focus op databeveiliging, lage latentie en volledige controle over modellen en data.
| Type | VRAM | Configuratie |
|---|---|---|
| B200 | 80-192 GB | 8×GPU, 2×CPU (128 cores), 2 TB RAM |
| NVIDIA RTX 6000-klasse | 96 GB | 4×GPU, 1×CPU (64 cores), 512 GB RAM |
| AMD MI300-klasse | 192 GB | 8×GPU, 2×CPU (128 cores), 2 TB RAM |
Kubernetes voor orkestratie, Docker voor isolatie
CUDA 12.x, ROCm 6.x voor AMD
vLLM, TensorRT-LLM, Text-Gen WebUI, TGI
Automatische download, kwantisering (INT8, FP16), caching
Security By Default
Data-locatie: Alle data en verwerking vindt plaats binnen de EU. Geen data verlaat de EU.
Toegangscontrole: API-sleutels, JWT-tokens, rolgebaseerde toegang, MFA-ondersteuning
Netwerksegmentatie: Geïsoleerde netwerken per klant, geen gedeelde infrastructuur
Logbeleid: Geen data-opslag standaard. Klant kiest eigen retentiebeleid.
Security By Default
Bij elke inferentie-aanvraag volgen data een strikt gedefinieerde stroom:
Deze datastroom-kaart is gedocumenteerd en versiebeheerd, waardoor elke stap kan worden herzien tijdens beveiligings- en compliance-audits.
Om ervoor te zorgen dat geen inferentiegegevens worden opgeslagen of gebruikt voor training, hebben we geïmplementeerd:
De inferentiecode heeft geen schrijftoegang tot databases en opslag voor klantinhoud. API-gateway en logplatform zijn geconfigureerd om geen request- of response-bodies te loggen.
Klantspecifieke namespaces en duidelijke scheiding tussen test, staging en productie om te voorkomen dat debug-logging in productie terechtkomt.
Logformaten bevatten alleen technische metadata. Geen velden voor prompts of outputs in standaardmodus.
Alle loggegevens zijn onderworpen aan tijdgebonden bewaring waarbij gegevens automatisch worden verwijderd na X dagen volgens klant- of platformbeleid.
Wijzigingen in logbeleid, configuratie en codebase worden gelogd, wat zowel interne als externe audits mogelijk maakt (bijv. voor ISO/SOC-certificeringen).
Het platform is gebouwd voor lage latentie en hoge doorvoer:
Meerdere LLM's kunnen gelijktijdig draaien op dezelfde infrastructuur. Resource-pooling zorgt ervoor dat modellen hardware delen wanneer capaciteit beschikbaar is, maar elke klant heeft geïsoleerde uitvoeringen. De scheduler geeft prioriteit aan lage-latentie verzoeken boven batch-jobs.
REST API en gRPC voor programmatische toegang. Webhooks voor event-notificaties. SSO via OIDC voor eenvoudige integratie met bestaande identiteitssystemen. SDK's voor Python, JavaScript en Go.
Token-gebaseerde prijzen met duidelijke kostencontrole. Je betaalt per gegenereerde token, met verschillende prijzen voor verschillende modelgroottes. Geen lock-in, schaal op en neer zoals nodig. Volumekortingen bij langetermijnverbintenissen.
Een e-commerce bedrijf draait een 7B-model voor realtime antwoorden in hun chat. Gemiddelde latentie <50ms, 99,9% uptime.
Een adviesbureau indexeert interne documenten en voert RAG-queries uit tegen een 13B-model. Veilig, geen data verlaat de EU.
Een mediabureau genereert dagelijks duizenden productbeschrijvingen met een 70B-model. Batch-uitvoeringen 's nachts.
Alle data blijft in de EU. Geen data wordt gelogd of opgeslagen zonder jouw goedkeuring. Geïsoleerde netwerken per klant.
Alle open modellen (Llama, Mistral, etc.) en eigen fine-tuned modellen. We helpen met deployment.
Eerste token <10ms, volgende <1ms. Batch-jobs schalen naar behoefte.
REST API, gRPC, webhooks. SDK's voor Python, JS, Go. Volledige OpenAPI-documentatie.
Token-gebaseerde prijzen. Neem contact op voor exacte prijzen op basis van jouw behoeften.
Neem contact op voor een technische demo of technische documentatie.