Juice Factory AI est une plateforme d'infrastructure AI européenne pour l'inférence LLM, les modèles multimodaux, RAG et le traitement par lots. La plateforme fonctionne dans des centres de données de l'UE avec un accent sur la sécurité des données, la faible latence et le contrôle total des modèles et des données.
| Type | VRAM | Configuration |
|---|---|---|
| B200 | 80-192 GB | 8×GPU, 2×CPU (128 cœurs), 2 TB RAM |
| Classe NVIDIA RTX 6000 | 96 GB | 4×GPU, 1×CPU (64 cœurs), 512 GB RAM |
| Classe AMD MI300 | 192 GB | 8×GPU, 2×CPU (128 cœurs), 2 TB RAM |
Kubernetes pour l'orchestration, Docker pour l'isolation
CUDA 12.x, ROCm 6.x pour AMD
vLLM, TensorRT-LLM, Text-Gen WebUI, TGI
Téléchargement automatique, quantification (INT8, FP16), mise en cache
Security By Default
Localisation des données: Toutes les données et le traitement se déroulent dans l'UE. Aucune donnée ne quitte l'UE.
Contrôle d'accès: Clés API, jetons JWT, accès basé sur les rôles, support MFA
Segmentation réseau: Réseaux isolés par client, pas d'infrastructure partagée
Politique de logs: Pas de stockage de données par défaut. Le client choisit sa politique de rétention.
Security By Default
Pour chaque requête d'inférence, les données suivent un flux strictement défini:
Cette carte de flux de données est documentée et versionnée, permettant de réviser chaque étape lors des audits de sécurité et de conformité.
Pour garantir qu'aucune donnée d'inférence n'est stockée ou utilisée pour l'entraînement, nous avons mis en place:
Le code d'inférence n'a pas d'accès en écriture aux bases de données et au stockage du contenu client. La passerelle API et la plateforme de journalisation sont configurées pour ne pas enregistrer les corps de requête ou de réponse.
Espaces de noms spécifiques aux clients et séparation claire entre test, staging et production pour éviter que la journalisation de débogage ne se retrouve en production.
Les formats de journalisation contiennent uniquement des métadonnées techniques. Aucun champ pour les prompts ou les sorties en mode standard.
Toutes les données de journalisation sont soumises à une rétention basée sur le temps où les données sont automatiquement supprimées après X jours selon la politique du client ou de la plateforme.
Les modifications de la politique de journalisation, de la configuration et de la base de code sont enregistrées, permettant des audits internes et externes (par ex. pour les certifications ISO/SOC).
La plateforme est conçue pour une faible latence et un débit élevé:
Plusieurs LLMs peuvent fonctionner simultanément sur la même infrastructure. Le pooling de ressources permet aux modèles de partager le matériel lorsque la capacité existe, mais chaque client dispose d'exécutions isolées. Le planificateur priorise les demandes à faible latence par rapport aux tâches par lots.
REST API et gRPC pour accès programmatique. Webhooks pour notifications d'événements. SSO via OIDC pour intégration facile avec les systèmes d'identité existants. SDKs pour Python, JavaScript et Go.
Tarification basée sur les tokens avec contrôle clair des coûts. Vous payez par token généré, avec des prix différents pour différentes tailles de modèles. Pas de verrouillage, évoluez selon vos besoins. Remises sur volume pour engagements à long terme.
Une entreprise e-commerce exécute un modèle 7B pour des réponses en temps réel dans leur chat. Latence moyenne <50ms, 99,9% uptime.
Un cabinet de conseil indexe des documents internes et exécute des requêtes RAG contre un modèle 13B. Sécurisé, aucune donnée ne quitte l'UE.
Une agence média génère des milliers de descriptions de produits quotidiennement avec un modèle 70B. Exécutions par lots la nuit.
Toutes les données restent dans l'UE. Aucune donnée n'est enregistrée ou stockée sans votre approbation. Réseaux isolés par client.
Tous les modèles ouverts (Llama, Mistral, etc.) et les modèles personnalisés fine-tuned. Nous aidons au déploiement.
Premier token <10ms, suivants <1ms. Les tâches par lots s'adaptent selon les besoins.
REST API, gRPC, webhooks. SDKs pour Python, JS, Go. Documentation OpenAPI complète.
Tarification basée sur les tokens. Contactez-nous pour une tarification exacte selon vos besoins.
Contactez-nous pour une démo technique ou de la documentation technique.