Tech – So funktioniert Juice Factory AI

Juice Factory AI ist eine europäische AI-Infrastrukturplattform für LLM-Inferenz, multimodale Modelle, RAG und Batch-Verarbeitung. Die Plattform läuft in EU-Rechenzentren mit Fokus auf Datensicherheit, niedrige Latenz und volle Kontrolle über Modelle und Daten.

Private KI für Unternehmen

Architektur

Hardware

TypVRAMKonfiguration
B20080-192 GB8×GPU, 2×CPU (128 Kerne), 2 TB RAM
NVIDIA RTX 6000-Klasse96 GB4×GPU, 1×CPU (64 Kerne), 512 GB RAM
AMD MI300-Klasse192 GB8×GPU, 2×CPU (128 Kerne), 2 TB RAM

Software-Stack

Container-Ausführung

Kubernetes für Orchestrierung, Docker für Isolation

Treiber

CUDA 12.x, ROCm 6.x für AMD

Inferenz-Frameworks

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellverwaltung

Automatischer Download, Quantisierung (INT8, FP16), Caching

Sicherheit & Compliance (EU/DSGVO-zuerst)

Security By Default

Datenstandort: Alle Daten und Verarbeitung erfolgen innerhalb der EU. Keine Daten verlassen die EU.

Zugriffskontrolle: API-Schlüssel, JWT-Tokens, rollenbasierter Zugriff, MFA-Unterstützung

Netzwerksegmentierung: Isolierte Netzwerke pro Kunde, keine gemeinsame Infrastruktur

Log-Richtlinie: Keine Datenspeicherung standardmäßig. Kunde wählt eigene Aufbewahrungsrichtlinie.

Datenflüsse & Kontrollen

Security By Default

Inferenz-Datenflusskarte

Bei jeder Inferenz-Anfrage folgen Daten einem streng definierten Ablauf:

Client
1. TLS-verschlüsselte Anfrage
API Gateway
2. Authentifizierung & Validierung
Inferenz-Engine
3. RAM-Berechnung
4. Antwort zurückgeben
Speicher gelöscht
5. Auto-Löschung
Logging
Nur Metadaten: Kunden-ID, Tokens, Antwortzeit
  1. Der Client sendet eine Anfrage über unsere API (TLS-verschlüsselt).
  2. Die API-Schicht authentifiziert den Kunden, validiert die Anfrage und leitet nur notwendige Informationen an die Inferenz-Engine weiter.
  3. Die Inferenz-Engine berechnet die Antwort im RAM, ohne Prompts oder Outputs auf die Festplatte zu schreiben.
  4. Die Antwort wird an den Client zurückgegeben und alle Inhalte werden nach Abschluss der Anfrage aus dem Speicher gelöscht.
  5. Nur technische Metadaten (z.B. Kunden-ID, Modellname, Token-Anzahl, Antwortzeit) können für Betrieb und Abrechnung protokolliert werden – niemals der tatsächliche Inhalt von Prompts oder Antworten im Standardmodus.

Diese Datenflusskarte ist dokumentiert und versioniert, sodass jeder Schritt bei Sicherheits- und Compliance-Audits überprüft werden kann.

Kontrollen und Audits

Um sicherzustellen, dass keine Inferenz-Daten gespeichert oder für Training verwendet werden, haben wir implementiert:

Code- & Konfigurations-Review

Der Inferenz-Code hat keinen Schreibzugriff auf Datenbanken und Speicher für Kundeninhalte. API-Gateway und Logging-Plattform sind so konfiguriert, dass sie keine Request- oder Response-Bodies protokollieren.

Getrennte Umgebungen

Kundenspezifische Namespaces und klare Trennung zwischen Test, Staging und Produktion, um zu vermeiden, dass Debug-Logging versehentlich in die Produktion gelangt.

Log-Richtlinie

Logformate enthalten nur technische Metadaten. Keine Felder für Prompts oder Outputs im Standardmodus.

Aufbewahrung & Auto-Löschung

Alle Logdaten unterliegen zeitbasierter Aufbewahrung, wobei Daten nach X Tagen gemäß Kunden- oder Plattformrichtlinie automatisch gelöscht werden.

Audit-Trail

Änderungen an Log-Richtlinien, Konfiguration und Codebase werden protokolliert, was sowohl interne als auch externe Audits ermöglicht (z.B. für ISO/SOC-Zertifizierungen).

Netzwerk & Leistung

Die Plattform ist für niedrige Latenz und hohen Durchsatz gebaut:

Multi-Modell & Isolation

Mehrere LLMs können gleichzeitig auf derselben Infrastruktur laufen. Ressourcen-Pooling ermöglicht es Modellen, Hardware zu teilen, wenn Kapazität vorhanden ist, aber jeder Kunde hat isolierte Ausführungen. Der Scheduler priorisiert Niedriglatenz-Anfragen über Batch-Jobs.

Integrationen & API

REST API und gRPC für programmatischen Zugriff. Webhooks für Event-Benachrichtigungen. SSO via OIDC für einfache Integration mit bestehenden Identitätssystemen. SDKs für Python, JavaScript und Go.

Preisgestaltung

Token-basierte Preisgestaltung mit klarer Kostenkontrolle. Sie zahlen pro generiertem Token, mit unterschiedlichen Preisen für verschiedene Modellgrößen. Keine Bindung, skalieren Sie nach Bedarf. Mengenrabatte bei langfristigen Verpflichtungen.

OpenAI-Alternative

Betrieb & Überwachung

Metriken: Prometheus für Metriken, Grafana für Visualisierung
Tracing: OpenTelemetry für verteiltes Tracing
Autoscaling: Automatische Skalierung basierend auf Last
Alarme: Proaktive Alarme bei Anomalien, Kapazitätsprognosen

Use Case Beispiele

Produktions-Kundensupport-Bot

Ein E-Commerce-Unternehmen betreibt ein 7B-Modell für Echtzeit-Antworten in ihrem Chat. Durchschnittliche Latenz <50ms, 99,9% Uptime.

Interne Suche/RAG

Eine Beratungsfirma indexiert interne Dokumente und führt RAG-Abfragen gegen ein 13B-Modell aus. Sicher, keine Daten verlassen die EU.

Batch-Mediengenerierung

Eine Medienagentur generiert täglich Tausende von Produktbeschreibungen mit einem 70B-Modell. Batch-Läufe nachts.

Häufig gestellte Fragen

Wie werden meine Daten geschützt?

Alle Daten bleiben in der EU. Keine Daten werden ohne Ihre Zustimmung protokolliert oder gespeichert. Isolierte Netzwerke pro Kunde.

Welche Modelle kann ich ausführen?

Alle offenen Modelle (Llama, Mistral, etc.) und eigene fine-tuned Modelle. Wir helfen bei der Bereitstellung.

Wie schnell reagieren die Modelle?

Erstes Token <10ms, folgende <1ms. Batch-Jobs skalieren nach Bedarf.

Wie integriere ich mit Ihnen?

REST API, gRPC, Webhooks. SDKs für Python, JS, Go. Vollständige OpenAPI-Dokumentation.

Was kostet es?

Token-basierte Preisgestaltung. Kontaktieren Sie uns für genaue Preise basierend auf Ihren Bedürfnissen.

Bereit zum Testen?

Kontaktieren Sie uns für eine technische Demo oder technische Dokumentation.

Jetzt starten