Tech – So funktioniert Juice Factory AI

    Juice Factory AI ist eine europäische AI-Infrastrukturplattform für LLM-Inferenz, multimodale Modelle, RAG und Batch-Verarbeitung. Die Plattform läuft in EU-Rechenzentren mit Fokus auf Datensicherheit, niedrige Latenz und volle Kontrolle über Modelle und Daten.

    Private KI für Unternehmen →

    Architektur

    • Kontrollebene: API-Gateway, Authentifizierung, Kontingente, Planung
    • Ausführungsebene: Containerisierte Modellausführungen auf dedizierter Hardware
    • Netzwerk: Niedriglatenz-Verbindungen zwischen Knoten und Speicher
    • Speicher: Objektspeicher für Modellgewichte, Cache für schnellen Zugriff
    • Observability: Metriken, Logs, Tracing für volle Transparenz

    Hardware

    TypVRAMKonfiguration
    B20080-192 GB8×GPU, 2×CPU (128 Kerne), 2 TB RAM
    NVIDIA RTX 6000-Klasse96 GB4×GPU, 1×CPU (64 Kerne), 512 GB RAM
    AMD MI300-Klasse192 GB8×GPU, 2×CPU (128 Kerne), 2 TB RAM

    Software-Stack

    Container-Ausführung

    Kubernetes für Orchestrierung, Docker für Isolation

    Treiber

    CUDA 12.x, ROCm 6.x für AMD

    Inferenz-Frameworks

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Modellverwaltung

    Automatischer Download, Quantisierung (INT8, FP16), Caching

    Sicherheit & Compliance (EU/DSGVO-zuerst)

    Security By Default

    Datenstandort: Alle Daten und Verarbeitung erfolgen innerhalb der EU. Keine Daten verlassen die EU.

    Zugriffskontrolle: API-Schlüssel, JWT-Tokens, rollenbasierter Zugriff, MFA-Unterstützung

    Netzwerksegmentierung: Isolierte Netzwerke pro Kunde, keine gemeinsame Infrastruktur

    Log-Richtlinie: Keine Datenspeicherung standardmäßig. Kunde wählt eigene Aufbewahrungsrichtlinie.

    Datenflüsse & Kontrollen

    Security By Default

    Inferenz-Datenflusskarte

    Bei jeder Inferenz-Anfrage folgen Daten einem streng definierten Ablauf:

    Client
    1. TLS-verschlüsselte Anfrage
    API Gateway
    2. Authentifizierung & Validierung
    Inferenz-Engine
    3. RAM-Berechnung
    4. Antwort zurückgeben
    Speicher gelöscht
    5. Auto-Löschung
    Logging
    Nur Metadaten: Kunden-ID, Tokens, Antwortzeit
    1. Der Client sendet eine Anfrage über unsere API (TLS-verschlüsselt).
    2. Die API-Schicht authentifiziert den Kunden, validiert die Anfrage und leitet nur notwendige Informationen an die Inferenz-Engine weiter.
    3. Die Inferenz-Engine berechnet die Antwort im RAM, ohne Prompts oder Outputs auf die Festplatte zu schreiben.
    4. Die Antwort wird an den Client zurückgegeben und alle Inhalte werden nach Abschluss der Anfrage aus dem Speicher gelöscht.
    5. Nur technische Metadaten (z.B. Kunden-ID, Modellname, Token-Anzahl, Antwortzeit) können für Betrieb und Abrechnung protokolliert werden – niemals der tatsächliche Inhalt von Prompts oder Antworten im Standardmodus.

    Diese Datenflusskarte ist dokumentiert und versioniert, sodass jeder Schritt bei Sicherheits- und Compliance-Audits überprüft werden kann.

    Kontrollen und Audits

    Um sicherzustellen, dass keine Inferenz-Daten gespeichert oder für Training verwendet werden, haben wir implementiert:

    Code- & Konfigurations-Review

    Der Inferenz-Code hat keinen Schreibzugriff auf Datenbanken und Speicher für Kundeninhalte. API-Gateway und Logging-Plattform sind so konfiguriert, dass sie keine Request- oder Response-Bodies protokollieren.

    Getrennte Umgebungen

    Kundenspezifische Namespaces und klare Trennung zwischen Test, Staging und Produktion, um zu vermeiden, dass Debug-Logging versehentlich in die Produktion gelangt.

    Log-Richtlinie

    Logformate enthalten nur technische Metadaten. Keine Felder für Prompts oder Outputs im Standardmodus.

    Aufbewahrung & Auto-Löschung

    Alle Logdaten unterliegen zeitbasierter Aufbewahrung, wobei Daten nach X Tagen gemäß Kunden- oder Plattformrichtlinie automatisch gelöscht werden.

    Audit-Trail

    Änderungen an Log-Richtlinien, Konfiguration und Codebase werden protokolliert, was sowohl interne als auch externe Audits ermöglicht (z.B. für ISO/SOC-Zertifizierungen).

    Netzwerk & Leistung

    Die Plattform ist für niedrige Latenz und hohen Durchsatz gebaut:

    • Direkte Verbindungen zwischen Knoten und Speicher (NVLink, InfiniBand)
    • Token-Durchsatz: 100-500 Tokens/s für 7B-Modelle, 50-200 für 70B
    • Latenz: <10ms für erstes Token, <1ms pro folgendes Token

    Multi-Modell & Isolation

    Mehrere LLMs können gleichzeitig auf derselben Infrastruktur laufen. Ressourcen-Pooling ermöglicht es Modellen, Hardware zu teilen, wenn Kapazität vorhanden ist, aber jeder Kunde hat isolierte Ausführungen. Der Scheduler priorisiert Niedriglatenz-Anfragen über Batch-Jobs.

    Integrationen & API

    REST API und gRPC für programmatischen Zugriff. Webhooks für Event-Benachrichtigungen. SSO via OIDC für einfache Integration mit bestehenden Identitätssystemen. SDKs für Python, JavaScript und Go.

    Preisgestaltung

    Token-basierte Preisgestaltung mit klarer Kostenkontrolle. Sie zahlen pro generiertem Token, mit unterschiedlichen Preisen für verschiedene Modellgrößen. Keine Bindung, skalieren Sie nach Bedarf. Mengenrabatte bei langfristigen Verpflichtungen.

    OpenAI-Alternative →

    Betrieb & Überwachung

    Metriken: Prometheus für Metriken, Grafana für Visualisierung
    Tracing: OpenTelemetry für verteiltes Tracing
    Autoscaling: Automatische Skalierung basierend auf Last
    Alarme: Proaktive Alarme bei Anomalien, Kapazitätsprognosen

    Use Case Beispiele

    Produktions-Kundensupport-Bot

    Ein E-Commerce-Unternehmen betreibt ein 7B-Modell für Echtzeit-Antworten in ihrem Chat. Durchschnittliche Latenz <50ms, 99,9% Uptime.

    Interne Suche/RAG

    Eine Beratungsfirma indexiert interne Dokumente und führt RAG-Abfragen gegen ein 13B-Modell aus. Sicher, keine Daten verlassen die EU.

    Batch-Mediengenerierung

    Eine Medienagentur generiert täglich Tausende von Produktbeschreibungen mit einem 70B-Modell. Batch-Läufe nachts.

    Häufig gestellte Fragen

    Wie werden meine Daten geschützt?

    Alle Daten bleiben in der EU. Keine Daten werden ohne Ihre Zustimmung protokolliert oder gespeichert. Isolierte Netzwerke pro Kunde.

    Welche Modelle kann ich ausführen?

    Alle offenen Modelle (Llama, Mistral, etc.) und eigene fine-tuned Modelle. Wir helfen bei der Bereitstellung.

    Wie schnell reagieren die Modelle?

    Erstes Token <10ms, folgende <1ms. Batch-Jobs skalieren nach Bedarf.

    Wie integriere ich mit Ihnen?

    REST API, gRPC, Webhooks. SDKs für Python, JS, Go. Vollständige OpenAPI-Dokumentation.

    Was kostet es?

    Token-basierte Preisgestaltung. Kontaktieren Sie uns für genaue Preise basierend auf Ihren Bedürfnissen.

    Bereit zum Testen?

    Kontaktieren Sie uns für eine technische Demo oder technische Dokumentation.