Tech – Näin Juice Factory AI toimii

Juice Factory AI on eurooppalainen tekoäly-infrastruktuurialusta LLM-päättelyä, multimodaalisia malleja, RAG:ia ja eräajoa varten. Alusta toimii EU:n datakeskuksissa keskittyen tietoturvaan, alhaiseen viiveeseen ja täyteen hallintaan malleista ja datasta.

Yksityinen tekoäly yrityksille →

Arkkitehtuuri

• Ohjauskerros: API-yhdyskäytävä, autentikointi, kiintiöt, ajoitus
• Suorituskerros: Kontteihin pakatut malliajoitukset omistetulla laitteistolla
• Verkko: Matalan viiveen yhteydet solmujen ja tallennuksen välillä
• Tallennus: Objektitallennus mallien painoille, välimuisti nopeaan käyttöön
• Havainnoitavuus: Mittarit, lokit, jäljitys täydelliseen näkyvyyteen

Laitteisto

Tyyppi	VRAM	Kokoonpano
B200	80-192 GB	8×GPU, 2×CPU (128 ydintä), 2 TB RAM
NVIDIA RTX 6000-luokka	96 GB	4×GPU, 1×CPU (64 ydintä), 512 GB RAM
AMD MI300-luokka	192 GB	8×GPU, 2×CPU (128 ydintä), 2 TB RAM

Ohjelmistopino

Konttien suoritus

Kubernetes orkestrointiin, Docker eristykseen

Ajurit

CUDA 12.x, ROCm 6.x AMD:lle

Päättelykehykset

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Mallienhallinta

Automaattinen lataus, kvantisointi (INT8, FP16), välimuistitus

Turvallisuus ja vaatimustenmukaisuus (EU/GDPR ensin)

Security By Default

Datan sijainti: Kaikki data ja käsittely tapahtuu EU:ssa. Data ei poistu EU:sta.

Pääsynhallinta: API-avaimet, JWT-tokenit, roolipohjainen pääsy, MFA-tuki

Verkon segmentointi: Eristetyt verkot asiakasta kohden, ei jaettua infrastruktuuria

Lokikäytäntö: Ei datan tallennusta oletuksena. Asiakas valitsee oman säilytys-käytännön.

Datavirrat & kontrollit

Security By Default

Päättelyn datavirtakartta

Jokaisessa päättelypyynnössä data seuraa tiukasti määriteltyä kulkua:

Asiakas

1. TLS-salattu pyyntö

API Gateway

2. Todennus & validointi

Päättelymoottori

3. RAM-laskenta

4. Palauta vastaus

Muisti tyhjennetty

5. Automaattinen poisto

Lokitus

Vain metatiedot: Asiakas-ID, tokenit, vastausaika

Asiakas lähettää pyynnön API:mme kautta (TLS-salattu).
API-taso todentaa asiakkaan, validoi pyynnön ja lähettää vain tarvittavat tiedot päättelymoottorille.
Päättelymoottori laskee vastauksen RAM-muistissa kirjoittamatta prompteja tai tuloksia levylle.
Vastaus palautetaan asiakkaalle ja kaikki sisältö poistetaan muistista pyynnön päätyttyä.
Vain tekniset metatiedot (esim. asiakas-ID, mallin nimi, token-määrä, vastausaika) voidaan kirjata käyttöön ja laskutukseen – ei koskaan promptien tai vastausten todellista sisältöä vakiotilassa.

Tämä datavirtakartta on dokumentoitu ja versionhallinnassa, mikä mahdollistaa jokaisen vaiheen tarkistamisen turvallisuus- ja vaatimustenmukaisuusauditoinneissa.

Kontrollit ja auditointi

Varmistaaksemme, ettei päättelydataa tallenneta tai käytetä koulutukseen, olemme ottaneet käyttöön:

Koodin & konfiguraation tarkistus

Päättelykoodilta puuttuu kirjoitusoikeus tietokantoihin ja asiakassisällön tallennukseen. API-gateway ja lokialusta on konfiguroitu olemaan kirjaamatta pyyntö- tai vastausrunkoja.

Eristetyt ympäristöt

Asiakaskohtaiset nimiavaruudet ja selvä erottelu testin, stagingn ja tuotannon välillä välttääksemme debug-lokituksen päätymisen tuotantoon.

Lokipolitiikka

Lokiformaatit sisältävät vain teknisiä metatietoja. Ei kenttiä prompteille tai tulosteille vakiotilassa.

Säilytys ja automaattinen poisto

Kaikki lokidata on aikapohjaisen säilytyksen alaista, jossa data poistetaan automaattisesti X päivän jälkeen asiakkaan tai alustan politiikan mukaisesti.

Auditointijälki

Muutokset lokipolitiikassa, konfiguraatiossa ja koodipohjassa kirjataan, mikä mahdollistaa sekä sisäiset että ulkoiset auditoinnit (esim. ISO/SOC-sertifikaatteja varten).

Verkko ja suorituskyky

Alusta on rakennettu alhaiselle viiveelle ja korkealle läpimenomäärälle:

• Suorat yhteydet solmujen ja tallennuksen välillä (NVLink, InfiniBand)
• Token-läpimeno: 100-500 tokenia/s 7B-malleille, 50-200 70B:lle
• Viive: <10ms ensimmäiselle tokenille, <1ms seuraaville tokeneille

Monimalli ja eristys

Useita LLM:iä voi ajaa samanaikaisesti samalla infrastruktuurilla. Resurssien yhdistäminen mahdollistaa mallien laitteiston jakamisen kun kapasiteettia on, mutta jokaisella asiakkaalla on eristetyt suoritukset. Ajoitin priorisoi matalan viiveen pyynnöt erätyötehtävien yli.

Integraatiot ja API

REST API ja gRPC ohjelmalliseen käyttöön. Webhookit tapahtumanotifikaatioihin. SSO OIDC:n kautta helppooon integrointiin olemassa olevien identiteettijärjestelmien kanssa. SDK:t Pythonille, JavaScriptille ja Golle.

Hinnoittelu

Token-pohjainen hinnoittelu selkeällä kustannusten hallinnalla. Maksat per generoitu token, eri hinnoilla eri mallikokoille. Ei lukitusta, skaalaa ylös ja alas tarpeen mukaan. Volyymimuuttujat pitkäaikaisille sitoumuksille.

OpenAI-vaihtoehto →

Toiminta ja valvonta

Mittarit: Prometheus mittareille, Grafana visualisointiin

Jäljitys: OpenTelemetry hajautetulle jäljitykselle

Autoskaalaus: Automaattinen skaalaus kuormituksen perusteella

Hälytykset: Proaktiiviset hälytykset poikkeamista, kapasiteettiennusteet

Käyttötapausesimerkkejä

Tuotannon asiakastukibotti

Verkkokauppayritys ajaa 7B-mallia reaaliaikaisiin vastauksiin chatissaan. Keskimääräinen viive <50ms, 99,9% käytettävyys.

Sisäinen haku/RAG

Konsulttiyritys indeksoi sisäisiä dokumentteja ja suorittaa RAG-kyselyjä 13B-mallia vastaan. Turvallinen, data ei poistu EU:sta.

Erämedian generointi

Mediatoimisto generoi tuhansia tuotekuvauksia päivittäin 70B-mallilla. Eräajot öisin.

UKK

Miten datani suojataan?

Kaikki data pysyy EU:ssa. Dataa ei kirjata tai tallenneta ilman hyväksyntääsi. Eristetyt verkot asiakasta kohden.

Mitä malleja voin ajaa?

Kaikki avoimet mallit (Llama, Mistral jne.) ja omat hienosäädetyt mallit. Autamme käyttöönotossa.

Kuinka nopeasti mallit vastaavat?

Ensimmäinen token <10ms, seuraavat <1ms. Erätyöt skaalautuvat tarpeen mukaan.

Miten integroidun teihin?

REST API, gRPC, webhookit. SDK:t Pythonille, JS:lle, Golle. Täysi OpenAPI-dokumentaatio.

Paljonko se maksaa?

Token-pohjainen hinnoittelu. Ota yhteyttä tarkkojen hintojen saamiseksi tarpeidesi perusteella.

Valmis testaamaan?

Ota yhteyttä teknistä demoa tai teknistä dokumentaatiota varten.

Aloita nyt