Tech – Jak funguje Juice Factory AI

Juice Factory AI je evropská platforma AI infrastruktury pro LLM inferenci, multimodální modely, RAG a dávkové zpracování. Platforma běží v EU datacentrech se zaměřením na bezpečnost dat, nízkou latenci a plnou kontrolu nad modely a daty.

Soukromé AI pro firmy →

Architektura

• Řídicí rovina: API brána, autentizace, kvóty, plánování
• Výkonná rovina: Kontejnerizované běhy modelů na dedikovaném hardwaru
• Síť: Nízkolatencí spojení mezi uzly a úložištěm
• Úložiště: Objektové úložiště pro váhy modelů, cache pro rychlý přístup
• Pozorovatelnost: Metriky, logy, trasování pro plnou viditelnost

Hardware

Typ	VRAM	Konfigurace
B200	80-192 GB	8×GPU, 2×CPU (128 jader), 2 TB RAM
Třída NVIDIA RTX 6000	96 GB	4×GPU, 1×CPU (64 jader), 512 GB RAM
Třída AMD MI300	192 GB	8×GPU, 2×CPU (128 jader), 2 TB RAM

Softwarový stack

Spouštění kontejnerů

Kubernetes pro orchestraci, Docker pro izolaci

Ovladače

CUDA 12.x, ROCm 6.x pro AMD

Inferenční frameworky

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Správa modelů

Automatické stahování, kvantizace (INT8, FP16), cachování

Bezpečnost a shoda (EU/GDPR-first)

Security By Default

Umístění dat: Všechna data a zpracování probíhá v rámci EU. Žádná data neopouštějí EU.

Řízení přístupu: API klíče, JWT tokeny, přístup na základě rolí, podpora MFA

Síťová segmentace: Izolované sítě pro zákazníka, žádná sdílená infrastruktura

Politika logů: Žádné ukládání dat standardně. Zákazník si volí vlastní retenční politiku.

Toky dat & kontroly

Security By Default

Mapa toku dat inference

Při každém požadavku na inferenci data následují přísně definovaný tok:

Klient

1. TLS šifrovaný požadavek

API Gateway

2. Autentizace & validace

Inferenční engine

3. RAM výpočet

4. Vrátit odpověď

Paměť vymazána

5. Automatické mazání

Logování

Pouze metadata: ID zákazníka, tokeny, doba odezvy

Klient odešle požadavek přes naše API (šifrované TLS).
API vrstva autentizuje zákazníka, validuje požadavek a přeposílá pouze nezbytné informace do inferenčního enginu.
Inferenční engine vypočítá odpověď v RAM bez zápisu promptů nebo výstupů na disk.
Odpověď je vrácena klientovi a veškerý obsah je vymazán z paměti po dokončení požadavku.
Pouze technická metadata (např. ID zákazníka, název modelu, počet tokenů, doba odezvy) mohou být zaznamenána pro operace a fakturaci – nikdy skutečný obsah promptů nebo odpovědí ve standardním režimu.

Tato mapa toku dat je dokumentována a verzována, což umožňuje revizi každého kroku při bezpečnostních a compliance auditech.

Kontroly a audit

Abychom zajistili, že žádná inferenční data nejsou ukládána ani používána pro trénování, implementovali jsme:

Revize kódu & konfigurace

Inferenční kód nemá přístup k zápisu do databází a úložiště zákaznického obsahu. API gateway a logovací platforma jsou nakonfigurovány tak, aby nezaznamenávaly těla požadavků nebo odpovědí.

Oddělená prostředí

Zákaznicky specifické jmenné prostory a jasné oddělení mezi testem, stagingem a produkcí, aby se zabránilo náhodnému ukládání debug logování do produkce.

Logovací politika

Formáty logů obsahují pouze technická metadata. Žádná pole pro prompty nebo výstupy ve standardním režimu.

Retence a automatické mazání

Všechna logovací data podléhají časově omezené retenci, kde jsou data automaticky mazána po X dnech podle politiky zákazníka nebo platformy.

Auditní stopa

Změny v logovací politice, konfiguraci a kódové bázi jsou zaznamenávány, což umožňuje jak interní, tak externí audity (např. pro ISO/SOC certifikace).

Síť a výkon

Platforma je postavena pro nízkou latenci a vysokou propustnost:

• Přímá spojení mezi uzly a úložištěm (NVLink, InfiniBand)
• Propustnost tokenů: 100-500 tokenů/s pro 7B modely, 50-200 pro 70B
• Latence: <10ms pro první token, <1ms pro následující tokeny

Multi-model a izolace

Více LLM může běžet současně na stejné infrastruktuře. Sdružování zdrojů umožňuje modelům sdílet hardware, když je k dispozici kapacita, ale každý zákazník má izolované exekuce. Plánovač prioritizuje nízkolatencí požadavky před dávkovými úlohami.

Integrace a API

REST API a gRPC pro programový přístup. Webhooky pro oznámení událostí. SSO přes OIDC pro snadnou integraci se stávajícími systémy identit. SDK pro Python, JavaScript a Go.

Ceny

Ceny založené na tokenech s jasnou kontrolou nákladů. Platíte za vygenerovaný token, s různými cenami pro různé velikosti modelů. Žádné uzamčení, škálujte nahoru a dolů podle potřeby. Objemové slevy pro dlouhodobé závazky.

Alternativa k OpenAI →

Provoz a monitorování

Metriky: Prometheus pro metriky, Grafana pro vizualizaci

Trasování: OpenTelemetry pro distribuované trasování

Automatické škálování: Automatické škálování na základě zátěže

Upozornění: Proaktivní upozornění na anomálie, prognózy kapacity

Příklady případů použití

Produkční bot zákaznické podpory

E-commerce společnost provozuje 7B model pro odpovědi v reálném čase ve svém chatu. Průměrná latence <50ms, 99,9% dostupnost.

Interní vyhledávání/RAG

Poradenská firma indexuje interní dokumenty a provádí RAG dotazy proti 13B modelu. Bezpečné, žádná data neopouštějí EU.

Dávkové generování médií

Mediální agentura generuje tisíce popisů produktů denně s 70B modelem. Dávková spuštění v noci.

FAQ

Jak jsou moje data chráněna?

Všechna data zůstávají v EU. Žádná data nejsou logována ani ukládána bez vašeho souhlasu. Izolované sítě pro zákazníka.

Jaké modely mohu provozovat?

Všechny otevřené modely (Llama, Mistral, atd.) a vlastní fine-tuned modely. Pomáháme s nasazením.

Jak rychle modely odpovídají?

První token <10ms, následující <1ms. Dávkové úlohy se škálují podle potřeby.

Jak se integruji s vámi?

REST API, gRPC, webhooky. SDK pro Python, JS, Go. Plná dokumentace OpenAPI.

Kolik to stojí?

Ceny založené na tokenech. Kontaktujte nás pro přesné ceny na základě vašich potřeb.

Připraveni testovat?

Kontaktujte nás pro technické demo nebo technickou dokumentaci.

Začít