Juice Factory AI är en europeisk AI-infrastrukturplattform för LLM-inference, multimodala modeller, RAG och batch-körningar. Plattformen körs i EU-datacenter med fokus på datasäkerhet, låg latens och full kontroll över modeller och data.
| Typ | VRAM | Konfiguration |
|---|---|---|
| B200 | 80-192 GB | 8×GPU, 2×CPU (128 kärnor), 2 TB RAM |
| NVIDIA RTX 6000-klass | 96 GB | 4×GPU, 1×CPU (64 kärnor), 512 GB RAM |
| AMD MI300-klass | 192 GB | 8×GPU, 2×CPU (128 kärnor), 2 TB RAM |
Kubernetes för orkestrering, Docker för isolation
CUDA 12.x, ROCm 6.x för AMD
vLLM, TensorRT-LLM, Text-Gen WebUI, TGI
Automatisk nedladdning, kvantisering (INT8, FP16), cachning
Security By Default
Dataplacering: All data och all bearbetning sker inom EU. Ingen data lämnar EU.
Åtkomstkontroll: API-nycklar, JWT-tokens, rollbaserad åtkomst, MFA-stöd
Nätsegmentering: Isolerade nätverk per kund, ingen delad infrastruktur
Loggpolicy: Ingen datalagring som standard. Kunden väljer själv retention-policy.
Security By Default
Vid varje inferensförfrågan följer data ett strikt definierat flöde:
Denna dataflödeskarta är dokumenterad och versionshanteras, vilket gör det möjligt att revidera varje steg vid säkerhets- och efterlevnadsgranskningar.
För att säkerställa att ingen inferensdata lagras eller används för träning har vi infört:
Inferenskoden saknar skrivåtkomst till databaser och lagring för kundinnehåll. API-gw och loggplattform är konfigurerade att inte logga request- eller response-body.
Kundspecifika namespaces och tydlig separation mellan test, staging och produktion för att undvika att debug-loggning råkar hamna i produktion.
Loggformaten innehåller endast teknisk metadata. Inga fält för prompts eller outputs i standardläget.
All loggdata ligger på tidsstyrd retention där data automatiskt raderas efter X dagar enligt kundens eller plattformens policy.
Ändringar i loggpolicy, konfiguration och kodbas loggas, vilket möjliggör både interna och externa revisioner (t.ex. inför ISO/SOC-certifieringar).
Plattformen är byggd för låg latens och hög genomströmning:
Flera LLM:er kan köras samtidigt på samma infrastruktur. Resurs-pooling gör att modeller delar hårdvara när kapacitet finns, men varje kund har isolerade körningar. Schemaläggaren prioriterar låglatens-förfrågningar över batch-jobb.
REST API och gRPC för programmatisk åtkomst. Webhooks för event-notifieringar. SSO via OIDC för enkel integration med befintliga identitetssystem. SDK:er för Python, JavaScript och Go.
Token-baserad prissättning med tydlig kostnadskontroll. Du betalar per genererad token, med olika priser för olika modellstorlekar. Ingen uppsägningstid, skala upp och ner efter behov. Volymrabatter vid långsiktiga åtaganden.
Ett e-handelsföretag kör en 7B-modell för realtidssvar i sin chatt. Genomsnittlig latens <50ms, 99,9% uptime.
Ett konsultföretag indexerar interna dokument och kör RAG-frågor mot en 13B-modell. Säker, ingen data lämnar EU.
En mediabyrå genererar tusentals produktbeskrivningar per dag med en 70B-modell. Batch-körningar på natten.
All data stannar i EU. Ingen data loggas eller sparas utan ditt godkännande. Isolerade nätverk per kund.
Alla öppna modeller (Llama, Mistral, etc.) och egna fine-tunade modeller. Vi hjälper till med deployment.
Första token <10ms, efterföljande <1ms. Batch-jobb skalar efter behov.
REST API, gRPC, webhooks. SDK:er för Python, JS, Go. Full OpenAPI-dokumentation.
Token-baserad prissättning. Kontakta oss för exakt prismodell baserat på dina behov.
Kontakta oss för en teknisk demo eller teknisk dokumentation.