Tech – Come funziona Juice Factory AI

Juice Factory AI è una piattaforma di infrastruttura AI europea per inferenza LLM, modelli multimodali, RAG ed elaborazione batch. La piattaforma funziona in data center UE con focus su sicurezza dei dati, bassa latenza e controllo completo su modelli e dati.

AI privata per le aziende

Architettura

Hardware

TipoVRAMConfigurazione
B20080-192 GB8×GPU, 2×CPU (128 core), 2 TB RAM
Classe NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 core), 512 GB RAM
Classe AMD MI300192 GB8×GPU, 2×CPU (128 core), 2 TB RAM

Stack software

Esecuzione container

Kubernetes per orchestrazione, Docker per isolamento

Driver

CUDA 12.x, ROCm 6.x per AMD

Framework di inferenza

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Gestione modelli

Download automatico, quantizzazione (INT8, FP16), caching

Sicurezza e Conformità (UE/GDPR first)

Security By Default

Posizione dati: Tutti i dati e l'elaborazione avvengono nell'UE. Nessun dato lascia l'UE.

Controllo accessi: Chiavi API, token JWT, accesso basato su ruoli, supporto MFA

Segmentazione rete: Reti isolate per cliente, nessuna infrastruttura condivisa

Politica log: Nessuna archiviazione dati per impostazione predefinita. Il cliente sceglie la propria politica di conservazione.

Flussi di dati & controlli

Security By Default

Mappa del flusso dati di inferenza

Per ogni richiesta di inferenza, i dati seguono un flusso rigorosamente definito:

Client
1. Richiesta crittografata TLS
API Gateway
2. Autenticazione e convalida
Motore di inferenza
3. Calcolo RAM
4. Restituisci risposta
Memoria cancellata
5. Cancellazione automatica
Logging
Solo metadati: ID cliente, token, tempo di risposta
  1. Il client invia una richiesta tramite la nostra API (crittografata TLS).
  2. Il livello API autentica il cliente, convalida la richiesta e inoltra solo le informazioni necessarie al motore di inferenza.
  3. Il motore di inferenza calcola la risposta in RAM senza scrivere prompt o output su disco.
  4. La risposta viene restituita al client e tutti i contenuti vengono cancellati dalla memoria dopo il completamento della richiesta.
  5. Solo i metadati tecnici (ad es. ID cliente, nome del modello, conteggio token, tempo di risposta) possono essere registrati per operazioni e fatturazione – mai il contenuto effettivo di prompt o risposte in modalità standard.

Questa mappa del flusso dati è documentata e versionata, rendendo possibile rivedere ogni passaggio durante gli audit di sicurezza e conformità.

Controlli e audit

Per garantire che nessun dato di inferenza venga archiviato o utilizzato per l'addestramento, abbiamo implementato:

Revisione del codice e della configurazione

Il codice di inferenza non ha accesso in scrittura ai database e allo storage dei contenuti dei clienti. L'API gateway e la piattaforma di logging sono configurati per non registrare i corpi di richiesta o risposta.

Ambienti separati

Namespace specifici per cliente e chiara separazione tra test, staging e produzione per evitare che il logging di debug finisca in produzione.

Policy di logging

I formati di log contengono solo metadati tecnici. Nessun campo per prompt o output in modalità standard.

Conservazione e cancellazione automatica

Tutti i dati di log sono soggetti a conservazione temporale in cui i dati vengono automaticamente eliminati dopo X giorni secondo la policy del cliente o della piattaforma.

Traccia di audit

Le modifiche alla policy di logging, configurazione e codebase vengono registrate, consentendo audit interni ed esterni (ad es. per certificazioni ISO/SOC).

Rete e Prestazioni

La piattaforma è costruita per bassa latenza e alto throughput:

Multi-modello e Isolamento

Più LLM possono funzionare simultaneamente sulla stessa infrastruttura. Il pooling di risorse consente ai modelli di condividere hardware quando la capacità esiste, ma ogni cliente ha esecuzioni isolate. Lo scheduler prioritizza le richieste a bassa latenza rispetto ai job batch.

Integrazioni e API

REST API e gRPC per accesso programmatico. Webhook per notifiche di eventi. SSO tramite OIDC per integrazione facile con sistemi di identità esistenti. SDK per Python, JavaScript e Go.

Prezzi

Prezzi basati su token con controllo chiaro dei costi. Paghi per token generato, con prezzi diversi per diverse dimensioni di modelli. Nessun lock-in, scala su e giù secondo necessità. Sconti sul volume per impegni a lungo termine.

Alternativa a OpenAI

Operazioni e Monitoraggio

Metriche: Prometheus per metriche, Grafana per visualizzazione
Tracciamento: OpenTelemetry per tracciamento distribuito
Autoscaling: Scaling automatico basato sul carico
Allarmi: Allarmi proattivi su anomalie, previsioni di capacità

Esempi di casi d'uso

Bot di supporto clienti in produzione

Un'azienda e-commerce esegue un modello 7B per risposte in tempo reale nella loro chat. Latenza media <50ms, 99,9% uptime.

Ricerca interna/RAG

Una società di consulenza indicizza documenti interni ed esegue query RAG contro un modello 13B. Sicuro, nessun dato lascia l'UE.

Generazione media batch

Un'agenzia media genera migliaia di descrizioni di prodotti quotidianamente con un modello 70B. Esecuzioni batch di notte.

FAQ

Come vengono protetti i miei dati?

Tutti i dati rimangono nell'UE. Nessun dato viene registrato o archiviato senza la tua approvazione. Reti isolate per cliente.

Quali modelli posso eseguire?

Tutti i modelli aperti (Llama, Mistral, ecc.) e modelli fine-tuned personalizzati. Aiutiamo con il deployment.

Quanto velocemente rispondono i modelli?

Primo token <10ms, successivi <1ms. I job batch scalano secondo necessità.

Come mi integro con voi?

REST API, gRPC, webhook. SDK per Python, JS, Go. Documentazione OpenAPI completa.

Quanto costa?

Prezzi basati su token. Contattaci per prezzi esatti in base alle tue esigenze.

Pronto a testare?

Contattaci per una demo tecnica o documentazione tecnica.

Inizia ora