Tech – So funktioniert Juice Factory AI

Juice Factory AI ist eine europäische AI-Infrastrukturplattform für LLM-Inferenz, multimodale Modelle, RAG und Batch-Verarbeitung. Die Plattform läuft in EU-Rechenzentren mit Fokus auf Datensicherheit, niedrige Latenz und volle Kontrolle über Modelle und Daten.

Private KI für Unternehmen →

Architektur

• Kontrollebene: API-Gateway, Authentifizierung, Kontingente, Planung
• Ausführungsebene: Containerisierte Modellausführungen auf dedizierter Hardware
• Netzwerk: Niedriglatenz-Verbindungen zwischen Knoten und Speicher
• Speicher: Objektspeicher für Modellgewichte, Cache für schnellen Zugriff
• Observability: Metriken, Logs, Tracing für volle Transparenz

Hardware

Typ	VRAM	Konfiguration
B200	80-192 GB	8×GPU, 2×CPU (128 Kerne), 2 TB RAM
NVIDIA RTX 6000-Klasse	96 GB	4×GPU, 1×CPU (64 Kerne), 512 GB RAM
AMD MI300-Klasse	192 GB	8×GPU, 2×CPU (128 Kerne), 2 TB RAM

Software-Stack

Container-Ausführung

Kubernetes für Orchestrierung, Docker für Isolation

Treiber

CUDA 12.x, ROCm 6.x für AMD

Inferenz-Frameworks

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Modellverwaltung

Automatischer Download, Quantisierung (INT8, FP16), Caching

Sicherheit & Compliance (EU/DSGVO-zuerst)

Security By Default

Datenstandort: Alle Daten und Verarbeitung erfolgen innerhalb der EU. Keine Daten verlassen die EU.

Zugriffskontrolle: API-Schlüssel, JWT-Tokens, rollenbasierter Zugriff, MFA-Unterstützung

Netzwerksegmentierung: Isolierte Netzwerke pro Kunde, keine gemeinsame Infrastruktur

Log-Richtlinie: Keine Datenspeicherung standardmäßig. Kunde wählt eigene Aufbewahrungsrichtlinie.

Datenflüsse & Kontrollen

Security By Default

Inferenz-Datenflusskarte

Bei jeder Inferenz-Anfrage folgen Daten einem streng definierten Ablauf:

Client

1. TLS-verschlüsselte Anfrage

API Gateway

2. Authentifizierung & Validierung

Inferenz-Engine

3. RAM-Berechnung

4. Antwort zurückgeben

Speicher gelöscht

5. Auto-Löschung

Logging

Nur Metadaten: Kunden-ID, Tokens, Antwortzeit

Der Client sendet eine Anfrage über unsere API (TLS-verschlüsselt).
Die API-Schicht authentifiziert den Kunden, validiert die Anfrage und leitet nur notwendige Informationen an die Inferenz-Engine weiter.
Die Inferenz-Engine berechnet die Antwort im RAM, ohne Prompts oder Outputs auf die Festplatte zu schreiben.
Die Antwort wird an den Client zurückgegeben und alle Inhalte werden nach Abschluss der Anfrage aus dem Speicher gelöscht.
Nur technische Metadaten (z.B. Kunden-ID, Modellname, Token-Anzahl, Antwortzeit) können für Betrieb und Abrechnung protokolliert werden – niemals der tatsächliche Inhalt von Prompts oder Antworten im Standardmodus.

Diese Datenflusskarte ist dokumentiert und versioniert, sodass jeder Schritt bei Sicherheits- und Compliance-Audits überprüft werden kann.

Kontrollen und Audits

Um sicherzustellen, dass keine Inferenz-Daten gespeichert oder für Training verwendet werden, haben wir implementiert:

Code- & Konfigurations-Review

Der Inferenz-Code hat keinen Schreibzugriff auf Datenbanken und Speicher für Kundeninhalte. API-Gateway und Logging-Plattform sind so konfiguriert, dass sie keine Request- oder Response-Bodies protokollieren.

Getrennte Umgebungen

Kundenspezifische Namespaces und klare Trennung zwischen Test, Staging und Produktion, um zu vermeiden, dass Debug-Logging versehentlich in die Produktion gelangt.

Log-Richtlinie

Logformate enthalten nur technische Metadaten. Keine Felder für Prompts oder Outputs im Standardmodus.

Aufbewahrung & Auto-Löschung

Alle Logdaten unterliegen zeitbasierter Aufbewahrung, wobei Daten nach X Tagen gemäß Kunden- oder Plattformrichtlinie automatisch gelöscht werden.

Audit-Trail

Änderungen an Log-Richtlinien, Konfiguration und Codebase werden protokolliert, was sowohl interne als auch externe Audits ermöglicht (z.B. für ISO/SOC-Zertifizierungen).

Netzwerk & Leistung

Die Plattform ist für niedrige Latenz und hohen Durchsatz gebaut:

• Direkte Verbindungen zwischen Knoten und Speicher (NVLink, InfiniBand)
• Token-Durchsatz: 100-500 Tokens/s für 7B-Modelle, 50-200 für 70B
• Latenz: <10ms für erstes Token, <1ms pro folgendes Token

Multi-Modell & Isolation

Mehrere LLMs können gleichzeitig auf derselben Infrastruktur laufen. Ressourcen-Pooling ermöglicht es Modellen, Hardware zu teilen, wenn Kapazität vorhanden ist, aber jeder Kunde hat isolierte Ausführungen. Der Scheduler priorisiert Niedriglatenz-Anfragen über Batch-Jobs.

Integrationen & API

REST API und gRPC für programmatischen Zugriff. Webhooks für Event-Benachrichtigungen. SSO via OIDC für einfache Integration mit bestehenden Identitätssystemen. SDKs für Python, JavaScript und Go.

Preisgestaltung

Token-basierte Preisgestaltung mit klarer Kostenkontrolle. Sie zahlen pro generiertem Token, mit unterschiedlichen Preisen für verschiedene Modellgrößen. Keine Bindung, skalieren Sie nach Bedarf. Mengenrabatte bei langfristigen Verpflichtungen.

OpenAI-Alternative →

Betrieb & Überwachung

Metriken: Prometheus für Metriken, Grafana für Visualisierung

Tracing: OpenTelemetry für verteiltes Tracing

Autoscaling: Automatische Skalierung basierend auf Last

Alarme: Proaktive Alarme bei Anomalien, Kapazitätsprognosen

Use Case Beispiele

Produktions-Kundensupport-Bot

Ein E-Commerce-Unternehmen betreibt ein 7B-Modell für Echtzeit-Antworten in ihrem Chat. Durchschnittliche Latenz <50ms, 99,9% Uptime.

Interne Suche/RAG

Eine Beratungsfirma indexiert interne Dokumente und führt RAG-Abfragen gegen ein 13B-Modell aus. Sicher, keine Daten verlassen die EU.

Batch-Mediengenerierung

Eine Medienagentur generiert täglich Tausende von Produktbeschreibungen mit einem 70B-Modell. Batch-Läufe nachts.

Häufig gestellte Fragen

Wie werden meine Daten geschützt?

Alle Daten bleiben in der EU. Keine Daten werden ohne Ihre Zustimmung protokolliert oder gespeichert. Isolierte Netzwerke pro Kunde.

Welche Modelle kann ich ausführen?

Alle offenen Modelle (Llama, Mistral, etc.) und eigene fine-tuned Modelle. Wir helfen bei der Bereitstellung.

Wie schnell reagieren die Modelle?

Erstes Token <10ms, folgende <1ms. Batch-Jobs skalieren nach Bedarf.

Wie integriere ich mit Ihnen?

REST API, gRPC, Webhooks. SDKs für Python, JS, Go. Vollständige OpenAPI-Dokumentation.

Was kostet es?

Token-basierte Preisgestaltung. Kontaktieren Sie uns für genaue Preise basierend auf Ihren Bedürfnissen.

Bereit zum Testen?

Kontaktieren Sie uns für eine technische Demo oder technische Dokumentation.

Jetzt starten