Tech – Jak funguje Juice Factory AI

    Juice Factory AI je evropská platforma AI infrastruktury pro LLM inferenci, multimodální modely, RAG a dávkové zpracování. Platforma běží v EU datacentrech se zaměřením na bezpečnost dat, nízkou latenci a plnou kontrolu nad modely a daty.

    Soukromé AI pro firmy →

    Architektura

    • Řídicí rovina: API brána, autentizace, kvóty, plánování
    • Výkonná rovina: Kontejnerizované běhy modelů na dedikovaném hardwaru
    • Síť: Nízkolatencní spojení mezi uzly a úložištěm
    • Úložiště: Objektové úložiště pro váhy modelů, cache pro rychlý přístup
    • Pozorovatelnost: Metriky, logy, trasování pro plnou viditelnost

    Hardware

    TypVRAMKonfigurace
    B20080-192 GB8×GPU, 2×CPU (128 jader), 2 TB RAM
    Třída NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 jader), 512 GB RAM
    Třída AMD MI300192 GB8×GPU, 2×CPU (128 jader), 2 TB RAM

    Softwarový stack

    Spouštění kontejnerů

    Kubernetes pro orchestraci, Docker pro izolaci

    Ovladače

    CUDA 12.x, ROCm 6.x pro AMD

    Inferenční frameworky

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Správa modelů

    Automatické stahování, kvantizace (INT8, FP16), cachování

    Bezpečnost a shoda (EU/GDPR-first)

    Security By Default

    Umístění dat: Všechna data a zpracování probíhá v rámci EU. Žádná data neopouštějí EU.

    Řízení přístupu: API klíče, JWT tokeny, přístup na základě rolí, podpora MFA

    Síťová segmentace: Izolované sítě pro zákazníka, žádná sdílená infrastruktura

    Politika logů: Žádné ukládání dat standardně. Zákazník si volí vlastní retenční politiku.

    Toky dat & kontroly

    Security By Default

    Mapa toku dat inference

    Při každém požadavku na inferenci data následují přísně definovaný tok:

    Klient
    1. TLS šifrovaný požadavek
    API Gateway
    2. Autentizace & validace
    Inferenční engine
    3. RAM výpočet
    4. Vrátit odpověď
    Paměť vymazána
    5. Automatické mazání
    Logování
    Pouze metadata: ID zákazníka, tokeny, doba odezvy
    1. Klient odešle požadavek přes naše API (šifrované TLS).
    2. API vrstva autentizuje zákazníka, validuje požadavek a přeposílá pouze nezbytné informace do inferenčního enginu.
    3. Inferenční engine vypočítá odpověď v RAM bez zápisu promptů nebo výstupů na disk.
    4. Odpověď je vrácena klientovi a veškerý obsah je vymazán z paměti po dokončení požadavku.
    5. Pouze technická metadata (např. ID zákazníka, název modelu, počet tokenů, doba odezvy) mohou být zaznamenána pro operace a fakturaci – nikdy skutečný obsah promptů nebo odpovědí ve standardním režimu.

    Tato mapa toku dat je dokumentována a verzována, což umožňuje revizi každého kroku při bezpečnostních a compliance auditech.

    Kontroly a audit

    Abychom zajistili, že žádná inferenční data nejsou ukládána ani používána pro trénování, implementovali jsme:

    Revize kódu & konfigurace

    Inferenční kód nemá přístup k zápisu do databází a úložiště zákaznického obsahu. API gateway a logovací platforma jsou nakonfigurovány tak, aby nezaznamenávaly těla požadavků nebo odpovědí.

    Oddělená prostředí

    Zákaznicky specifické jmenné prostory a jasné oddělení mezi testem, stagingem a produkcí, aby se zabránilo náhodnému ukládání debug logování do produkce.

    Logovací politika

    Formáty logů obsahují pouze technická metadata. Žádná pole pro prompty nebo výstupy ve standardním režimu.

    Retence a automatické mazání

    Všechna logovací data podléhají časově omezené retenci, kde jsou data automaticky mazána po X dnech podle politiky zákazníka nebo platformy.

    Auditní stopa

    Změny v logovací politice, konfiguraci a kódové bázi jsou zaznamenávány, což umožňuje jak interní, tak externí audity (např. pro ISO/SOC certifikace).

    Síť a výkon

    Platforma je postavena pro nízkou latenci a vysokou propustnost:

    • Přímá spojení mezi uzly a úložištěm (NVLink, InfiniBand)
    • Propustnost tokenů: 100-500 tokenů/s pro 7B modely, 50-200 pro 70B
    • Latence: <10ms pro první token, <1ms pro následující tokeny

    Multi-model a izolace

    Více LLM může běžet současně na stejné infrastruktuře. Sdružování zdrojů umožňuje modelům sdílet hardware, když je k dispozici kapacita, ale každý zákazník má izolované exekuce. Plánovač prioritizuje nízkolatencní požadavky před dávkovými úlohami.

    Integrace a API

    REST API a gRPC pro programový přístup. Webhooky pro oznámení událostí. SSO přes OIDC pro snadnou integraci se stávajícími systémy identit. SDK pro Python, JavaScript a Go.

    Ceny

    Ceny založené na tokenech s jasnou kontrolou nákladů. Platíte za vygenerovaný token, s různými cenami pro různé velikosti modelů. Žádné uzamčení, škálujte nahoru a dolů podle potřeby. Objemové slevy pro dlouhodobé závazky.

    Alternativa k OpenAI →

    Provoz a monitorování

    Metriky: Prometheus pro metriky, Grafana pro vizualizaci
    Trasování: OpenTelemetry pro distribuované trasování
    Automatické škálování: Automatické škálování na základě zátěže
    Upozornění: Proaktivní upozornění na anomálie, prognózy kapacity

    Příklady případů použití

    Produkční bot zákaznické podpory

    E-commerce společnost provozuje 7B model pro odpovědi v reálném čase ve svém chatu. Průměrná latence <50ms, 99,9% dostupnost.

    Interní vyhledávání/RAG

    Poradenská firma indexuje interní dokumenty a provádí RAG dotazy proti 13B modelu. Bezpečné, žádná data neopouštějí EU.

    Dávkové generování médií

    Mediální agentura generuje tisíce popisů produktů denně s 70B modelem. Dávková spuštění v noci.

    FAQ

    Jak jsou moje data chráněna?

    Všechna data zůstávají v EU. Žádná data nejsou logována ani ukládána bez vašeho souhlasu. Izolované sítě pro zákazníka.

    Jaké modely mohu provozovat?

    Všechny otevřené modely (Llama, Mistral, atd.) a vlastní fine-tuned modely. Pomáháme s nasazením.

    Jak rychle modely odpovídají?

    První token <10ms, následující <1ms. Dávkové úlohy se škálují podle potřeby.

    Jak se integruji s vámi?

    REST API, gRPC, webhooky. SDK pro Python, JS, Go. Plná dokumentace OpenAPI.

    Kolik to stojí?

    Ceny založené na tokenech. Kontaktujte nás pro přesné ceny na základě vašich potřeb.

    Připraveni testovat?

    Kontaktujte nás pro technické demo nebo technickou dokumentaci.