Tech – Cómo funciona Juice Factory AI

    Juice Factory AI es una plataforma de infraestructura de IA europea para inferencia LLM, modelos multimodales, RAG y procesamiento por lotes. La plataforma funciona en centros de datos de la UE con enfoque en seguridad de datos, baja latencia y control total sobre modelos y datos.

    IA privada para empresas →

    Arquitectura

    • Plano de control: Gateway API, autenticación, cuotas, programación
    • Plano de ejecución: Ejecuciones de modelos en contenedores en hardware dedicado
    • Red: Conexiones de baja latencia entre nodos y almacenamiento
    • Almacenamiento: Almacenamiento de objetos para pesos de modelos, caché para acceso rápido
    • Observabilidad: Métricas, logs, trazabilidad para visibilidad completa

    Hardware

    TipoVRAMConfiguración
    B20080-192 GB8×GPU, 2×CPU (128 núcleos), 2 TB RAM
    Clase NVIDIA RTX 600096 GB4×GPU, 1×CPU (64 núcleos), 512 GB RAM
    Clase AMD MI300192 GB8×GPU, 2×CPU (128 núcleos), 2 TB RAM

    Pila de software

    Ejecución de contenedores

    Kubernetes para orquestación, Docker para aislamiento

    Controladores

    CUDA 12.x, ROCm 6.x para AMD

    Frameworks de inferencia

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Gestión de modelos

    Descarga automática, cuantización (INT8, FP16), almacenamiento en caché

    Seguridad y Cumplimiento (UE/GDPR primero)

    Security By Default

    Ubicación de datos: Todos los datos y procesamiento ocurren dentro de la UE. Ningún dato sale de la UE.

    Control de acceso: Claves API, tokens JWT, acceso basado en roles, soporte MFA

    Segmentación de red: Redes aisladas por cliente, sin infraestructura compartida

    Política de registros: Sin almacenamiento de datos por defecto. El cliente elige su política de retención.

    Flujos de datos & controles

    Security By Default

    Mapa de flujo de datos de inferencia

    Para cada solicitud de inferencia, los datos siguen un flujo estrictamente definido:

    Cliente
    1. Solicitud cifrada TLS
    API Gateway
    2. Autenticación y validación
    Motor de inferencia
    3. Cálculo RAM
    4. Devolver respuesta
    Memoria borrada
    5. Eliminación automática
    Registro
    Solo metadatos: ID de cliente, tokens, tiempo de respuesta
    1. El cliente envía una solicitud a través de nuestra API (cifrada TLS).
    2. La capa API autentica al cliente, valida la solicitud y envía solo la información necesaria al motor de inferencia.
    3. El motor de inferencia calcula la respuesta en RAM sin escribir prompts o salidas en el disco.
    4. La respuesta se devuelve al cliente y todo el contenido se borra de la memoria después de completar la solicitud.
    5. Solo los metadatos técnicos (por ej. ID de cliente, nombre del modelo, recuento de tokens, tiempo de respuesta) se pueden registrar para operaciones y facturación – nunca el contenido real de prompts o respuestas en modo estándar.

    Este mapa de flujo de datos está documentado y versionado, lo que permite revisar cada paso durante las auditorías de seguridad y cumplimiento.

    Controles y auditoría

    Para garantizar que no se almacenen ni utilicen datos de inferencia para entrenamiento, hemos implementado:

    Revisión de código y configuración

    El código de inferencia carece de acceso de escritura a bases de datos y almacenamiento de contenido del cliente. La puerta de enlace API y la plataforma de registro están configuradas para no registrar cuerpos de solicitud o respuesta.

    Entornos separados

    Espacios de nombres específicos del cliente y separación clara entre prueba, preparación y producción para evitar que el registro de depuración termine en producción.

    Política de registro

    Los formatos de registro contienen solo metadatos técnicos. Sin campos para prompts o salidas en modo estándar.

    Retención y eliminación automática

    Todos los datos de registro están sujetos a retención basada en el tiempo donde los datos se eliminan automáticamente después de X días según la política del cliente o de la plataforma.

    Pista de auditoría

    Los cambios en la política de registro, configuración y base de código se registran, lo que permite auditorías internas y externas (por ej. para certificaciones ISO/SOC).

    Red y Rendimiento

    La plataforma está construida para baja latencia y alto rendimiento:

    • Conexiones directas entre nodos y almacenamiento (NVLink, InfiniBand)
    • Rendimiento de tokens: 100-500 tokens/s para modelos 7B, 50-200 para 70B
    • Latencia: <10ms para el primer token, <1ms por token subsiguiente

    Multi-modelo y Aislamiento

    Múltiples LLMs pueden ejecutarse simultáneamente en la misma infraestructura. El pooling de recursos permite que los modelos compartan hardware cuando hay capacidad disponible, pero cada cliente tiene ejecuciones aisladas. El programador prioriza solicitudes de baja latencia sobre trabajos por lotes.

    Integraciones y API

    REST API y gRPC para acceso programático. Webhooks para notificaciones de eventos. SSO mediante OIDC para integración fácil con sistemas de identidad existentes. SDKs para Python, JavaScript y Go.

    Precios

    Precios basados en tokens con control claro de costos. Pagas por token generado, con diferentes precios para diferentes tamaños de modelos. Sin ataduras, escala según necesites. Descuentos por volumen para compromisos a largo plazo.

    Alternativa a OpenAI →

    Operaciones y Monitoreo

    Métricas: Prometheus para métricas, Grafana para visualización
    Trazabilidad: OpenTelemetry para trazabilidad distribuida
    Autoescalado: Escalado automático basado en carga
    Alertas: Alertas proactivas sobre anomalías, pronósticos de capacidad

    Ejemplos de casos de uso

    Bot de soporte al cliente en producción

    Una empresa de e-commerce ejecuta un modelo 7B para respuestas en tiempo real en su chat. Latencia promedio <50ms, 99.9% uptime.

    Búsqueda interna/RAG

    Una consultora indexa documentos internos y ejecuta consultas RAG contra un modelo 13B. Seguro, ningún dato sale de la UE.

    Generación de medios por lotes

    Una agencia de medios genera miles de descripciones de productos diariamente con un modelo 70B. Ejecuciones por lotes nocturnas.

    Preguntas frecuentes

    ¿Cómo se protegen mis datos?

    Todos los datos permanecen en la UE. Ningún dato se registra o almacena sin tu aprobación. Redes aisladas por cliente.

    ¿Qué modelos puedo ejecutar?

    Todos los modelos abiertos (Llama, Mistral, etc.) y modelos personalizados fine-tuned. Ayudamos con el despliegue.

    ¿Qué tan rápido responden los modelos?

    Primer token <10ms, subsiguientes <1ms. Los trabajos por lotes escalan según necesidad.

    ¿Cómo me integro con ustedes?

    REST API, gRPC, webhooks. SDKs para Python, JS, Go. Documentación OpenAPI completa.

    ¿Cuánto cuesta?

    Precios basados en tokens. Contáctanos para precios exactos según tus necesidades.

    ¿Listo para probar?

    Contáctanos para una demostración técnica o documentación técnica.