Tech – Come funziona Juice Factory AI

Juice Factory AI è una piattaforma di infrastruttura AI europea per inferenza LLM, modelli multimodali, RAG ed elaborazione batch. La piattaforma funziona in data center UE con focus su sicurezza dei dati, bassa latenza e controllo completo su modelli e dati.

AI privata per le aziende →

Architettura

• Piano di controllo: Gateway API, autenticazione, quote, pianificazione
• Piano di esecuzione: Esecuzioni di modelli containerizzati su hardware dedicato
• Rete: Connessioni a bassa latenza tra nodi e storage
• Storage: Storage di oggetti per pesi del modello, cache per accesso rapido
• Osservabilità: Metriche, log, tracciamento per visibilità completa

Hardware

Tipo	VRAM	Configurazione
B200	80-192 GB	8×GPU, 2×CPU (128 core), 2 TB RAM
Classe NVIDIA RTX 6000	96 GB	4×GPU, 1×CPU (64 core), 512 GB RAM
Classe AMD MI300	192 GB	8×GPU, 2×CPU (128 core), 2 TB RAM

Stack software

Esecuzione container

Kubernetes per orchestrazione, Docker per isolamento

Driver

CUDA 12.x, ROCm 6.x per AMD

Framework di inferenza

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Gestione modelli

Download automatico, quantizzazione (INT8, FP16), caching

Sicurezza e Conformità (UE/GDPR first)

Security By Default

Posizione dati: Tutti i dati e l'elaborazione avvengono nell'UE. Nessun dato lascia l'UE.

Controllo accessi: Chiavi API, token JWT, accesso basato su ruoli, supporto MFA

Segmentazione rete: Reti isolate per cliente, nessuna infrastruttura condivisa

Politica log: Nessuna archiviazione dati per impostazione predefinita. Il cliente sceglie la propria politica di conservazione.

Flussi di dati & controlli

Security By Default

Mappa del flusso dati di inferenza

Per ogni richiesta di inferenza, i dati seguono un flusso rigorosamente definito:

Client

1. Richiesta crittografata TLS

API Gateway

2. Autenticazione e convalida

Motore di inferenza

3. Calcolo RAM

4. Restituisci risposta

Memoria cancellata

5. Cancellazione automatica

Logging

Solo metadati: ID cliente, token, tempo di risposta

Il client invia una richiesta tramite la nostra API (crittografata TLS).
Il livello API autentica il cliente, convalida la richiesta e inoltra solo le informazioni necessarie al motore di inferenza.
Il motore di inferenza calcola la risposta in RAM senza scrivere prompt o output su disco.
La risposta viene restituita al client e tutti i contenuti vengono cancellati dalla memoria dopo il completamento della richiesta.
Solo i metadati tecnici (ad es. ID cliente, nome del modello, conteggio token, tempo di risposta) possono essere registrati per operazioni e fatturazione – mai il contenuto effettivo di prompt o risposte in modalità standard.

Questa mappa del flusso dati è documentata e versionata, rendendo possibile rivedere ogni passaggio durante gli audit di sicurezza e conformità.

Controlli e audit

Per garantire che nessun dato di inferenza venga archiviato o utilizzato per l'addestramento, abbiamo implementato:

Revisione del codice e della configurazione

Il codice di inferenza non ha accesso in scrittura ai database e allo storage dei contenuti dei clienti. L'API gateway e la piattaforma di logging sono configurati per non registrare i corpi di richiesta o risposta.

Ambienti separati

Namespace specifici per cliente e chiara separazione tra test, staging e produzione per evitare che il logging di debug finisca in produzione.

Policy di logging

I formati di log contengono solo metadati tecnici. Nessun campo per prompt o output in modalità standard.

Conservazione e cancellazione automatica

Tutti i dati di log sono soggetti a conservazione temporale in cui i dati vengono automaticamente eliminati dopo X giorni secondo la policy del cliente o della piattaforma.

Traccia di audit

Le modifiche alla policy di logging, configurazione e codebase vengono registrate, consentendo audit interni ed esterni (ad es. per certificazioni ISO/SOC).

Rete e Prestazioni

La piattaforma è costruita per bassa latenza e alto throughput:

• Connessioni dirette tra nodi e storage (NVLink, InfiniBand)
• Throughput token: 100-500 token/s per modelli 7B, 50-200 per 70B
• Latenza: <10ms per primo token, <1ms per token successivi

Multi-modello e Isolamento

Più LLM possono funzionare simultaneamente sulla stessa infrastruttura. Il pooling di risorse consente ai modelli di condividere hardware quando la capacità esiste, ma ogni cliente ha esecuzioni isolate. Lo scheduler prioritizza le richieste a bassa latenza rispetto ai job batch.

Integrazioni e API

REST API e gRPC per accesso programmatico. Webhook per notifiche di eventi. SSO tramite OIDC per integrazione facile con sistemi di identità esistenti. SDK per Python, JavaScript e Go.

Prezzi

Prezzi basati su token con controllo chiaro dei costi. Paghi per token generato, con prezzi diversi per diverse dimensioni di modelli. Nessun lock-in, scala su e giù secondo necessità. Sconti sul volume per impegni a lungo termine.

Alternativa a OpenAI →

Operazioni e Monitoraggio

Metriche: Prometheus per metriche, Grafana per visualizzazione

Tracciamento: OpenTelemetry per tracciamento distribuito

Autoscaling: Scaling automatico basato sul carico

Allarmi: Allarmi proattivi su anomalie, previsioni di capacità

Esempi di casi d'uso

Bot di supporto clienti in produzione

Un'azienda e-commerce esegue un modello 7B per risposte in tempo reale nella loro chat. Latenza media <50ms, 99,9% uptime.

Ricerca interna/RAG

Una società di consulenza indicizza documenti interni ed esegue query RAG contro un modello 13B. Sicuro, nessun dato lascia l'UE.

Generazione media batch

Un'agenzia media genera migliaia di descrizioni di prodotti quotidianamente con un modello 70B. Esecuzioni batch di notte.

FAQ

Come vengono protetti i miei dati?

Tutti i dati rimangono nell'UE. Nessun dato viene registrato o archiviato senza la tua approvazione. Reti isolate per cliente.

Quali modelli posso eseguire?

Tutti i modelli aperti (Llama, Mistral, ecc.) e modelli fine-tuned personalizzati. Aiutiamo con il deployment.

Quanto velocemente rispondono i modelli?

Primo token <10ms, successivi <1ms. I job batch scalano secondo necessità.

Come mi integro con voi?

REST API, gRPC, webhook. SDK per Python, JS, Go. Documentazione OpenAPI completa.

Quanto costa?

Prezzi basati su token. Contattaci per prezzi esatti in base alle tue esigenze.

Pronto a testare?

Contattaci per una demo tecnica o documentazione tecnica.

Inizia ora