Tech – Comment fonctionne Juice Factory AI

Juice Factory AI est une plateforme d'infrastructure AI européenne pour l'inférence LLM, les modèles multimodaux, RAG et le traitement par lots. La plateforme fonctionne dans des centres de données de l'UE avec un accent sur la sécurité des données, la faible latence et le contrôle total des modèles et des données.

IA privée pour les entreprises →

Architecture

• Plan de contrôle: Passerelle API, authentification, quotas, planification
• Plan d'exécution: Exécutions de modèles conteneurisées sur matériel dédié
• Réseau: Connexions à faible latence entre nœuds et stockage
• Stockage: Stockage d'objets pour les poids de modèles, cache pour accès rapide
• Observabilité: Métriques, logs, traçage pour visibilité complète

Matériel

Type	VRAM	Configuration
B200	80-192 GB	8×GPU, 2×CPU (128 cœurs), 2 TB RAM
Classe NVIDIA RTX 6000	96 GB	4×GPU, 1×CPU (64 cœurs), 512 GB RAM
Classe AMD MI300	192 GB	8×GPU, 2×CPU (128 cœurs), 2 TB RAM

Stack logiciel

Exécution de conteneurs

Kubernetes pour l'orchestration, Docker pour l'isolation

Pilotes

CUDA 12.x, ROCm 6.x pour AMD

Frameworks d'inférence

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Gestion des modèles

Téléchargement automatique, quantification (INT8, FP16), mise en cache

Sécurité & Conformité (UE/RGPD d'abord)

Security By Default

Localisation des données: Toutes les données et le traitement se déroulent dans l'UE. Aucune donnée ne quitte l'UE.

Contrôle d'accès: Clés API, jetons JWT, accès basé sur les rôles, support MFA

Segmentation réseau: Réseaux isolés par client, pas d'infrastructure partagée

Politique de logs: Pas de stockage de données par défaut. Le client choisit sa politique de rétention.

Flux de données & contrôles

Security By Default

Carte de flux de données d'inférence

Pour chaque requête d'inférence, les données suivent un flux strictement défini:

Client

1. Requête cryptée TLS

API Gateway

2. Authentification & validation

Moteur d'inférence

3. Calcul RAM

4. Renvoyer la réponse

Mémoire effacée

5. Suppression auto

Journalisation

Métadonnées uniquement: ID client, tokens, temps de réponse

Le client envoie une requête via notre API (cryptée TLS).
La couche API authentifie le client, valide la requête et transmet uniquement les informations nécessaires au moteur d'inférence.
Le moteur d'inférence calcule la réponse en RAM sans écrire les prompts ou les sorties sur le disque.
La réponse est renvoyée au client et tout le contenu est effacé de la mémoire après la fin de la requête.
Seules les métadonnées techniques (par ex. ID client, nom du modèle, nombre de tokens, temps de réponse) peuvent être enregistrées pour les opérations et la facturation – jamais le contenu réel des prompts ou des réponses en mode standard.

Cette carte de flux de données est documentée et versionnée, permettant de réviser chaque étape lors des audits de sécurité et de conformité.

Contrôles et audit

Pour garantir qu'aucune donnée d'inférence n'est stockée ou utilisée pour l'entraînement, nous avons mis en place:

Révision du code & de la configuration

Le code d'inférence n'a pas d'accès en écriture aux bases de données et au stockage du contenu client. La passerelle API et la plateforme de journalisation sont configurées pour ne pas enregistrer les corps de requête ou de réponse.

Environnements séparés

Espaces de noms spécifiques aux clients et séparation claire entre test, staging et production pour éviter que la journalisation de débogage ne se retrouve en production.

Politique de journalisation

Les formats de journalisation contiennent uniquement des métadonnées techniques. Aucun champ pour les prompts ou les sorties en mode standard.

Rétention et suppression automatique

Toutes les données de journalisation sont soumises à une rétention basée sur le temps où les données sont automatiquement supprimées après X jours selon la politique du client ou de la plateforme.

Piste d'audit

Les modifications de la politique de journalisation, de la configuration et de la base de code sont enregistrées, permettant des audits internes et externes (par ex. pour les certifications ISO/SOC).

Réseau & Performance

La plateforme est conçue pour une faible latence et un débit élevé:

• Connexions directes entre nœuds et stockage (NVLink, InfiniBand)
• Débit de tokens: 100-500 tokens/s pour les modèles 7B, 50-200 pour 70B
• Latence: <10ms pour le premier token, <1ms par token suivant

Multi-modèle & Isolation

Plusieurs LLMs peuvent fonctionner simultanément sur la même infrastructure. Le pooling de ressources permet aux modèles de partager le matériel lorsque la capacité existe, mais chaque client dispose d'exécutions isolées. Le planificateur priorise les demandes à faible latence par rapport aux tâches par lots.

Intégrations & API

REST API et gRPC pour accès programmatique. Webhooks pour notifications d'événements. SSO via OIDC pour intégration facile avec les systèmes d'identité existants. SDKs pour Python, JavaScript et Go.

Tarification

Tarification basée sur les tokens avec contrôle clair des coûts. Vous payez par token généré, avec des prix différents pour différentes tailles de modèles. Pas de verrouillage, évoluez selon vos besoins. Remises sur volume pour engagements à long terme.

Alternative à OpenAI →

Opérations & Surveillance

Métriques: Prometheus pour les métriques, Grafana pour la visualisation

Traçage: OpenTelemetry pour le traçage distribué

Autoscaling: Mise à l'échelle automatique basée sur la charge

Alertes: Alertes proactives sur les anomalies, prévisions de capacité

Exemples de cas d'usage

Bot de support client en production

Une entreprise e-commerce exécute un modèle 7B pour des réponses en temps réel dans leur chat. Latence moyenne <50ms, 99,9% uptime.

Recherche interne/RAG

Un cabinet de conseil indexe des documents internes et exécute des requêtes RAG contre un modèle 13B. Sécurisé, aucune donnée ne quitte l'UE.

Génération de médias par lots

Une agence média génère des milliers de descriptions de produits quotidiennement avec un modèle 70B. Exécutions par lots la nuit.

FAQ

Comment mes données sont-elles protégées?

Toutes les données restent dans l'UE. Aucune donnée n'est enregistrée ou stockée sans votre approbation. Réseaux isolés par client.

Quels modèles puis-je exécuter?

Tous les modèles ouverts (Llama, Mistral, etc.) et les modèles personnalisés fine-tuned. Nous aidons au déploiement.

Quelle est la vitesse de réponse des modèles?

Premier token <10ms, suivants <1ms. Les tâches par lots s'adaptent selon les besoins.

Comment puis-je m'intégrer avec vous?

REST API, gRPC, webhooks. SDKs pour Python, JS, Go. Documentation OpenAPI complète.

Quel est le coût?

Tarification basée sur les tokens. Contactez-nous pour une tarification exacte selon vos besoins.

Prêt à tester?

Contactez-nous pour une démo technique ou de la documentation technique.

Commencer