Tech – Come funziona Juice Factory AI

    Juice Factory AI è una piattaforma di infrastruttura AI europea per inferenza LLM, modelli multimodali, RAG ed elaborazione batch. La piattaforma funziona in data center UE con focus su sicurezza dei dati, bassa latenza e controllo completo su modelli e dati.

    AI privata per le aziende →

    Architettura

    • Piano di controllo: Gateway API, autenticazione, quote, pianificazione
    • Piano di esecuzione: Esecuzioni di modelli containerizzati su hardware dedicato
    • Rete: Connessioni a bassa latenza tra nodi e storage
    • Storage: Storage di oggetti per pesi del modello, cache per accesso rapido
    • Osservabilità: Metriche, log, tracciamento per visibilità completa

    Hardware

    TipoVRAMConfigurazione
    B20080-192 GB8×GPU, 2×CPU (128 core), 2 TB RAM
    Classe NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 core), 512 GB RAM
    Classe AMD MI300192 GB8×GPU, 2×CPU (128 core), 2 TB RAM

    Stack software

    Esecuzione container

    Kubernetes per orchestrazione, Docker per isolamento

    Driver

    CUDA 12.x, ROCm 6.x per AMD

    Framework di inferenza

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Gestione modelli

    Download automatico, quantizzazione (INT8, FP16), caching

    Sicurezza e Conformità (UE/GDPR first)

    Security By Default

    Posizione dati: Tutti i dati e l'elaborazione avvengono nell'UE. Nessun dato lascia l'UE.

    Controllo accessi: Chiavi API, token JWT, accesso basato su ruoli, supporto MFA

    Segmentazione rete: Reti isolate per cliente, nessuna infrastruttura condivisa

    Politica log: Nessuna archiviazione dati per impostazione predefinita. Il cliente sceglie la propria politica di conservazione.

    Flussi di dati & controlli

    Security By Default

    Mappa del flusso dati di inferenza

    Per ogni richiesta di inferenza, i dati seguono un flusso rigorosamente definito:

    Client
    1. Richiesta crittografata TLS
    API Gateway
    2. Autenticazione e convalida
    Motore di inferenza
    3. Calcolo RAM
    4. Restituisci risposta
    Memoria cancellata
    5. Cancellazione automatica
    Logging
    Solo metadati: ID cliente, token, tempo di risposta
    1. Il client invia una richiesta tramite la nostra API (crittografata TLS).
    2. Il livello API autentica il cliente, convalida la richiesta e inoltra solo le informazioni necessarie al motore di inferenza.
    3. Il motore di inferenza calcola la risposta in RAM senza scrivere prompt o output su disco.
    4. La risposta viene restituita al client e tutti i contenuti vengono cancellati dalla memoria dopo il completamento della richiesta.
    5. Solo i metadati tecnici (ad es. ID cliente, nome del modello, conteggio token, tempo di risposta) possono essere registrati per operazioni e fatturazione – mai il contenuto effettivo di prompt o risposte in modalità standard.

    Questa mappa del flusso dati è documentata e versionata, rendendo possibile rivedere ogni passaggio durante gli audit di sicurezza e conformità.

    Controlli e audit

    Per garantire che nessun dato di inferenza venga archiviato o utilizzato per l'addestramento, abbiamo implementato:

    Revisione del codice e della configurazione

    Il codice di inferenza non ha accesso in scrittura ai database e allo storage dei contenuti dei clienti. L'API gateway e la piattaforma di logging sono configurati per non registrare i corpi di richiesta o risposta.

    Ambienti separati

    Namespace specifici per cliente e chiara separazione tra test, staging e produzione per evitare che il logging di debug finisca in produzione.

    Policy di logging

    I formati di log contengono solo metadati tecnici. Nessun campo per prompt o output in modalità standard.

    Conservazione e cancellazione automatica

    Tutti i dati di log sono soggetti a conservazione temporale in cui i dati vengono automaticamente eliminati dopo X giorni secondo la policy del cliente o della piattaforma.

    Traccia di audit

    Le modifiche alla policy di logging, configurazione e codebase vengono registrate, consentendo audit interni ed esterni (ad es. per certificazioni ISO/SOC).

    Rete e Prestazioni

    La piattaforma è costruita per bassa latenza e alto throughput:

    • Connessioni dirette tra nodi e storage (NVLink, InfiniBand)
    • Throughput token: 100-500 token/s per modelli 7B, 50-200 per 70B
    • Latenza: <10ms per primo token, <1ms per token successivi

    Multi-modello e Isolamento

    Più LLM possono funzionare simultaneamente sulla stessa infrastruttura. Il pooling di risorse consente ai modelli di condividere hardware quando la capacità esiste, ma ogni cliente ha esecuzioni isolate. Lo scheduler prioritizza le richieste a bassa latenza rispetto ai job batch.

    Integrazioni e API

    REST API e gRPC per accesso programmatico. Webhook per notifiche di eventi. SSO tramite OIDC per integrazione facile con sistemi di identità esistenti. SDK per Python, JavaScript e Go.

    Prezzi

    Prezzi basati su token con controllo chiaro dei costi. Paghi per token generato, con prezzi diversi per diverse dimensioni di modelli. Nessun lock-in, scala su e giù secondo necessità. Sconti sul volume per impegni a lungo termine.

    Alternativa a OpenAI →

    Operazioni e Monitoraggio

    Metriche: Prometheus per metriche, Grafana per visualizzazione
    Tracciamento: OpenTelemetry per tracciamento distribuito
    Autoscaling: Scaling automatico basato sul carico
    Allarmi: Allarmi proattivi su anomalie, previsioni di capacità

    Esempi di casi d'uso

    Bot di supporto clienti in produzione

    Un'azienda e-commerce esegue un modello 7B per risposte in tempo reale nella loro chat. Latenza media <50ms, 99,9% uptime.

    Ricerca interna/RAG

    Una società di consulenza indicizza documenti interni ed esegue query RAG contro un modello 13B. Sicuro, nessun dato lascia l'UE.

    Generazione media batch

    Un'agenzia media genera migliaia di descrizioni di prodotti quotidianamente con un modello 70B. Esecuzioni batch di notte.

    FAQ

    Come vengono protetti i miei dati?

    Tutti i dati rimangono nell'UE. Nessun dato viene registrato o archiviato senza la tua approvazione. Reti isolate per cliente.

    Quali modelli posso eseguire?

    Tutti i modelli aperti (Llama, Mistral, ecc.) e modelli fine-tuned personalizzati. Aiutiamo con il deployment.

    Quanto velocemente rispondono i modelli?

    Primo token <10ms, successivi <1ms. I job batch scalano secondo necessità.

    Come mi integro con voi?

    REST API, gRPC, webhook. SDK per Python, JS, Go. Documentazione OpenAPI completa.

    Quanto costa?

    Prezzi basati su token. Contattaci per prezzi esatti in base alle tue esigenze.

    Pronto a testare?

    Contattaci per una demo tecnica o documentazione tecnica.