Tech – Cómo funciona Juice Factory AI

Juice Factory AI es una plataforma de infraestructura de IA europea para inferencia LLM, modelos multimodales, RAG y procesamiento por lotes. La plataforma funciona en centros de datos de la UE con enfoque en seguridad de datos, baja latencia y control total sobre modelos y datos.

IA privada para empresas →

Arquitectura

• Plano de control: Gateway API, autenticación, cuotas, programación
• Plano de ejecución: Ejecuciones de modelos en contenedores en hardware dedicado
• Red: Conexiones de baja latencia entre nodos y almacenamiento
• Almacenamiento: Almacenamiento de objetos para pesos de modelos, caché para acceso rápido
• Observabilidad: Métricas, logs, trazabilidad para visibilidad completa

Hardware

Tipo	VRAM	Configuración
B200	80-192 GB	8×GPU, 2×CPU (128 núcleos), 2 TB RAM
Clase NVIDIA RTX 6000	96 GB	4×GPU, 1×CPU (64 núcleos), 512 GB RAM
Clase AMD MI300	192 GB	8×GPU, 2×CPU (128 núcleos), 2 TB RAM

Pila de software

Ejecución de contenedores

Kubernetes para orquestación, Docker para aislamiento

Controladores

CUDA 12.x, ROCm 6.x para AMD

Frameworks de inferencia

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Gestión de modelos

Descarga automática, cuantización (INT8, FP16), almacenamiento en caché

Seguridad y Cumplimiento (UE/GDPR primero)

Security By Default

Ubicación de datos: Todos los datos y procesamiento ocurren dentro de la UE. Ningún dato sale de la UE.

Control de acceso: Claves API, tokens JWT, acceso basado en roles, soporte MFA

Segmentación de red: Redes aisladas por cliente, sin infraestructura compartida

Política de registros: Sin almacenamiento de datos por defecto. El cliente elige su política de retención.

Flujos de datos & controles

Security By Default

Mapa de flujo de datos de inferencia

Para cada solicitud de inferencia, los datos siguen un flujo estrictamente definido:

Cliente

1. Solicitud cifrada TLS

API Gateway

2. Autenticación y validación

Motor de inferencia

3. Cálculo RAM

4. Devolver respuesta

Memoria borrada

5. Eliminación automática

Registro

Solo metadatos: ID de cliente, tokens, tiempo de respuesta

El cliente envía una solicitud a través de nuestra API (cifrada TLS).
La capa API autentica al cliente, valida la solicitud y envía solo la información necesaria al motor de inferencia.
El motor de inferencia calcula la respuesta en RAM sin escribir prompts o salidas en el disco.
La respuesta se devuelve al cliente y todo el contenido se borra de la memoria después de completar la solicitud.
Solo los metadatos técnicos (por ej. ID de cliente, nombre del modelo, recuento de tokens, tiempo de respuesta) se pueden registrar para operaciones y facturación – nunca el contenido real de prompts o respuestas en modo estándar.

Este mapa de flujo de datos está documentado y versionado, lo que permite revisar cada paso durante las auditorías de seguridad y cumplimiento.

Controles y auditoría

Para garantizar que no se almacenen ni utilicen datos de inferencia para entrenamiento, hemos implementado:

Revisión de código y configuración

El código de inferencia carece de acceso de escritura a bases de datos y almacenamiento de contenido del cliente. La puerta de enlace API y la plataforma de registro están configuradas para no registrar cuerpos de solicitud o respuesta.

Entornos separados

Espacios de nombres específicos del cliente y separación clara entre prueba, preparación y producción para evitar que el registro de depuración termine en producción.

Política de registro

Los formatos de registro contienen solo metadatos técnicos. Sin campos para prompts o salidas en modo estándar.

Retención y eliminación automática

Todos los datos de registro están sujetos a retención basada en el tiempo donde los datos se eliminan automáticamente después de X días según la política del cliente o de la plataforma.

Pista de auditoría

Los cambios en la política de registro, configuración y base de código se registran, lo que permite auditorías internas y externas (por ej. para certificaciones ISO/SOC).

Red y Rendimiento

La plataforma está construida para baja latencia y alto rendimiento:

• Conexiones directas entre nodos y almacenamiento (NVLink, InfiniBand)
• Rendimiento de tokens: 100-500 tokens/s para modelos 7B, 50-200 para 70B
• Latencia: <10ms para el primer token, <1ms por token subsiguiente

Multi-modelo y Aislamiento

Múltiples LLMs pueden ejecutarse simultáneamente en la misma infraestructura. El pooling de recursos permite que los modelos compartan hardware cuando hay capacidad disponible, pero cada cliente tiene ejecuciones aisladas. El programador prioriza solicitudes de baja latencia sobre trabajos por lotes.

Integraciones y API

REST API y gRPC para acceso programático. Webhooks para notificaciones de eventos. SSO mediante OIDC para integración fácil con sistemas de identidad existentes. SDKs para Python, JavaScript y Go.

Precios

Precios basados en tokens con control claro de costos. Pagas por token generado, con diferentes precios para diferentes tamaños de modelos. Sin ataduras, escala según necesites. Descuentos por volumen para compromisos a largo plazo.

Alternativa a OpenAI →

Operaciones y Monitoreo

Métricas: Prometheus para métricas, Grafana para visualización

Trazabilidad: OpenTelemetry para trazabilidad distribuida

Autoescalado: Escalado automático basado en carga

Alertas: Alertas proactivas sobre anomalías, pronósticos de capacidad

Ejemplos de casos de uso

Bot de soporte al cliente en producción

Una empresa de e-commerce ejecuta un modelo 7B para respuestas en tiempo real en su chat. Latencia promedio <50ms, 99.9% uptime.

Búsqueda interna/RAG

Una consultora indexa documentos internos y ejecuta consultas RAG contra un modelo 13B. Seguro, ningún dato sale de la UE.

Generación de medios por lotes

Una agencia de medios genera miles de descripciones de productos diariamente con un modelo 70B. Ejecuciones por lotes nocturnas.

Preguntas frecuentes

¿Cómo se protegen mis datos?

Todos los datos permanecen en la UE. Ningún dato se registra o almacena sin tu aprobación. Redes aisladas por cliente.

¿Qué modelos puedo ejecutar?

Todos los modelos abiertos (Llama, Mistral, etc.) y modelos personalizados fine-tuned. Ayudamos con el despliegue.

¿Qué tan rápido responden los modelos?

Primer token <10ms, subsiguientes <1ms. Los trabajos por lotes escalan según necesidad.

¿Cómo me integro con ustedes?

REST API, gRPC, webhooks. SDKs para Python, JS, Go. Documentación OpenAPI completa.

¿Cuánto cuesta?

Precios basados en tokens. Contáctanos para precios exactos según tus necesidades.

¿Listo para probar?

Contáctanos para una demostración técnica o documentación técnica.

Empezar