Tech – Comment fonctionne Juice Factory AI

    Juice Factory AI est une plateforme d'infrastructure AI européenne pour l'inférence LLM, les modèles multimodaux, RAG et le traitement par lots. La plateforme fonctionne dans des centres de données de l'UE avec un accent sur la sécurité des données, la faible latence et le contrôle total des modèles et des données.

    IA privée pour les entreprises →

    Architecture

    • Plan de contrôle: Passerelle API, authentification, quotas, planification
    • Plan d'exécution: Exécutions de modèles conteneurisées sur matériel dédié
    • Réseau: Connexions à faible latence entre nœuds et stockage
    • Stockage: Stockage d'objets pour les poids de modèles, cache pour accès rapide
    • Observabilité: Métriques, logs, traçage pour visibilité complète

    Matériel

    TypeVRAMConfiguration
    B20080-192 GB8×GPU, 2×CPU (128 cœurs), 2 TB RAM
    Classe NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 cœurs), 512 GB RAM
    Classe AMD MI300192 GB8×GPU, 2×CPU (128 cœurs), 2 TB RAM

    Stack logiciel

    Exécution de conteneurs

    Kubernetes pour l'orchestration, Docker pour l'isolation

    Pilotes

    CUDA 12.x, ROCm 6.x pour AMD

    Frameworks d'inférence

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Gestion des modèles

    Téléchargement automatique, quantification (INT8, FP16), mise en cache

    Sécurité & Conformité (UE/RGPD d'abord)

    Security By Default

    Localisation des données: Toutes les données et le traitement se déroulent dans l'UE. Aucune donnée ne quitte l'UE.

    Contrôle d'accès: Clés API, jetons JWT, accès basé sur les rôles, support MFA

    Segmentation réseau: Réseaux isolés par client, pas d'infrastructure partagée

    Politique de logs: Pas de stockage de données par défaut. Le client choisit sa politique de rétention.

    Flux de données & contrôles

    Security By Default

    Carte de flux de données d'inférence

    Pour chaque requête d'inférence, les données suivent un flux strictement défini:

    Client
    1. Requête cryptée TLS
    API Gateway
    2. Authentification & validation
    Moteur d'inférence
    3. Calcul RAM
    4. Renvoyer la réponse
    Mémoire effacée
    5. Suppression auto
    Journalisation
    Métadonnées uniquement: ID client, tokens, temps de réponse
    1. Le client envoie une requête via notre API (cryptée TLS).
    2. La couche API authentifie le client, valide la requête et transmet uniquement les informations nécessaires au moteur d'inférence.
    3. Le moteur d'inférence calcule la réponse en RAM sans écrire les prompts ou les sorties sur le disque.
    4. La réponse est renvoyée au client et tout le contenu est effacé de la mémoire après la fin de la requête.
    5. Seules les métadonnées techniques (par ex. ID client, nom du modèle, nombre de tokens, temps de réponse) peuvent être enregistrées pour les opérations et la facturation – jamais le contenu réel des prompts ou des réponses en mode standard.

    Cette carte de flux de données est documentée et versionnée, permettant de réviser chaque étape lors des audits de sécurité et de conformité.

    Contrôles et audit

    Pour garantir qu'aucune donnée d'inférence n'est stockée ou utilisée pour l'entraînement, nous avons mis en place:

    Révision du code & de la configuration

    Le code d'inférence n'a pas d'accès en écriture aux bases de données et au stockage du contenu client. La passerelle API et la plateforme de journalisation sont configurées pour ne pas enregistrer les corps de requête ou de réponse.

    Environnements séparés

    Espaces de noms spécifiques aux clients et séparation claire entre test, staging et production pour éviter que la journalisation de débogage ne se retrouve en production.

    Politique de journalisation

    Les formats de journalisation contiennent uniquement des métadonnées techniques. Aucun champ pour les prompts ou les sorties en mode standard.

    Rétention et suppression automatique

    Toutes les données de journalisation sont soumises à une rétention basée sur le temps où les données sont automatiquement supprimées après X jours selon la politique du client ou de la plateforme.

    Piste d'audit

    Les modifications de la politique de journalisation, de la configuration et de la base de code sont enregistrées, permettant des audits internes et externes (par ex. pour les certifications ISO/SOC).

    Réseau & Performance

    La plateforme est conçue pour une faible latence et un débit élevé:

    • Connexions directes entre nœuds et stockage (NVLink, InfiniBand)
    • Débit de tokens: 100-500 tokens/s pour les modèles 7B, 50-200 pour 70B
    • Latence: <10ms pour le premier token, <1ms par token suivant

    Multi-modèle & Isolation

    Plusieurs LLMs peuvent fonctionner simultanément sur la même infrastructure. Le pooling de ressources permet aux modèles de partager le matériel lorsque la capacité existe, mais chaque client dispose d'exécutions isolées. Le planificateur priorise les demandes à faible latence par rapport aux tâches par lots.

    Intégrations & API

    REST API et gRPC pour accès programmatique. Webhooks pour notifications d'événements. SSO via OIDC pour intégration facile avec les systèmes d'identité existants. SDKs pour Python, JavaScript et Go.

    Tarification

    Tarification basée sur les tokens avec contrôle clair des coûts. Vous payez par token généré, avec des prix différents pour différentes tailles de modèles. Pas de verrouillage, évoluez selon vos besoins. Remises sur volume pour engagements à long terme.

    Alternative à OpenAI →

    Opérations & Surveillance

    Métriques: Prometheus pour les métriques, Grafana pour la visualisation
    Traçage: OpenTelemetry pour le traçage distribué
    Autoscaling: Mise à l'échelle automatique basée sur la charge
    Alertes: Alertes proactives sur les anomalies, prévisions de capacité

    Exemples de cas d'usage

    Bot de support client en production

    Une entreprise e-commerce exécute un modèle 7B pour des réponses en temps réel dans leur chat. Latence moyenne <50ms, 99,9% uptime.

    Recherche interne/RAG

    Un cabinet de conseil indexe des documents internes et exécute des requêtes RAG contre un modèle 13B. Sécurisé, aucune donnée ne quitte l'UE.

    Génération de médias par lots

    Une agence média génère des milliers de descriptions de produits quotidiennement avec un modèle 70B. Exécutions par lots la nuit.

    FAQ

    Comment mes données sont-elles protégées?

    Toutes les données restent dans l'UE. Aucune donnée n'est enregistrée ou stockée sans votre approbation. Réseaux isolés par client.

    Quels modèles puis-je exécuter?

    Tous les modèles ouverts (Llama, Mistral, etc.) et les modèles personnalisés fine-tuned. Nous aidons au déploiement.

    Quelle est la vitesse de réponse des modèles?

    Premier token <10ms, suivants <1ms. Les tâches par lots s'adaptent selon les besoins.

    Comment puis-je m'intégrer avec vous?

    REST API, gRPC, webhooks. SDKs pour Python, JS, Go. Documentation OpenAPI complète.

    Quel est le coût?

    Tarification basée sur les tokens. Contactez-nous pour une tarification exacte selon vos besoins.

    Prêt à tester?

    Contactez-nous pour une démo technique ou de la documentation technique.