Juice Factory AI ist eine europäische AI-Infrastrukturplattform für LLM-Inferenz, multimodale Modelle, RAG und Batch-Verarbeitung. Die Plattform läuft in EU-Rechenzentren mit Fokus auf Datensicherheit, niedrige Latenz und volle Kontrolle über Modelle und Daten.
| Typ | VRAM | Konfiguration |
|---|---|---|
| B200 | 80-192 GB | 8×GPU, 2×CPU (128 Kerne), 2 TB RAM |
| NVIDIA RTX 6000-Klasse | 96 GB | 4×GPU, 1×CPU (64 Kerne), 512 GB RAM |
| AMD MI300-Klasse | 192 GB | 8×GPU, 2×CPU (128 Kerne), 2 TB RAM |
Kubernetes für Orchestrierung, Docker für Isolation
CUDA 12.x, ROCm 6.x für AMD
vLLM, TensorRT-LLM, Text-Gen WebUI, TGI
Automatischer Download, Quantisierung (INT8, FP16), Caching
Security By Default
Datenstandort: Alle Daten und Verarbeitung erfolgen innerhalb der EU. Keine Daten verlassen die EU.
Zugriffskontrolle: API-Schlüssel, JWT-Tokens, rollenbasierter Zugriff, MFA-Unterstützung
Netzwerksegmentierung: Isolierte Netzwerke pro Kunde, keine gemeinsame Infrastruktur
Log-Richtlinie: Keine Datenspeicherung standardmäßig. Kunde wählt eigene Aufbewahrungsrichtlinie.
Security By Default
Bei jeder Inferenz-Anfrage folgen Daten einem streng definierten Ablauf:
Diese Datenflusskarte ist dokumentiert und versioniert, sodass jeder Schritt bei Sicherheits- und Compliance-Audits überprüft werden kann.
Um sicherzustellen, dass keine Inferenz-Daten gespeichert oder für Training verwendet werden, haben wir implementiert:
Der Inferenz-Code hat keinen Schreibzugriff auf Datenbanken und Speicher für Kundeninhalte. API-Gateway und Logging-Plattform sind so konfiguriert, dass sie keine Request- oder Response-Bodies protokollieren.
Kundenspezifische Namespaces und klare Trennung zwischen Test, Staging und Produktion, um zu vermeiden, dass Debug-Logging versehentlich in die Produktion gelangt.
Logformate enthalten nur technische Metadaten. Keine Felder für Prompts oder Outputs im Standardmodus.
Alle Logdaten unterliegen zeitbasierter Aufbewahrung, wobei Daten nach X Tagen gemäß Kunden- oder Plattformrichtlinie automatisch gelöscht werden.
Änderungen an Log-Richtlinien, Konfiguration und Codebase werden protokolliert, was sowohl interne als auch externe Audits ermöglicht (z.B. für ISO/SOC-Zertifizierungen).
Die Plattform ist für niedrige Latenz und hohen Durchsatz gebaut:
Mehrere LLMs können gleichzeitig auf derselben Infrastruktur laufen. Ressourcen-Pooling ermöglicht es Modellen, Hardware zu teilen, wenn Kapazität vorhanden ist, aber jeder Kunde hat isolierte Ausführungen. Der Scheduler priorisiert Niedriglatenz-Anfragen über Batch-Jobs.
REST API und gRPC für programmatischen Zugriff. Webhooks für Event-Benachrichtigungen. SSO via OIDC für einfache Integration mit bestehenden Identitätssystemen. SDKs für Python, JavaScript und Go.
Token-basierte Preisgestaltung mit klarer Kostenkontrolle. Sie zahlen pro generiertem Token, mit unterschiedlichen Preisen für verschiedene Modellgrößen. Keine Bindung, skalieren Sie nach Bedarf. Mengenrabatte bei langfristigen Verpflichtungen.
Ein E-Commerce-Unternehmen betreibt ein 7B-Modell für Echtzeit-Antworten in ihrem Chat. Durchschnittliche Latenz <50ms, 99,9% Uptime.
Eine Beratungsfirma indexiert interne Dokumente und führt RAG-Abfragen gegen ein 13B-Modell aus. Sicher, keine Daten verlassen die EU.
Eine Medienagentur generiert täglich Tausende von Produktbeschreibungen mit einem 70B-Modell. Batch-Läufe nachts.
Alle Daten bleiben in der EU. Keine Daten werden ohne Ihre Zustimmung protokolliert oder gespeichert. Isolierte Netzwerke pro Kunde.
Alle offenen Modelle (Llama, Mistral, etc.) und eigene fine-tuned Modelle. Wir helfen bei der Bereitstellung.
Erstes Token <10ms, folgende <1ms. Batch-Jobs skalieren nach Bedarf.
REST API, gRPC, Webhooks. SDKs für Python, JS, Go. Vollständige OpenAPI-Dokumentation.
Token-basierte Preisgestaltung. Kontaktieren Sie uns für genaue Preise basierend auf Ihren Bedürfnissen.
Kontaktieren Sie uns für eine technische Demo oder technische Dokumentation.