Tech – Näin Juice Factory AI toimii

    Juice Factory AI on eurooppalainen tekoäly-infrastruktuurialusta LLM-päättelyä, multimodaalisia malleja, RAG:ia ja eräajoa varten. Alusta toimii EU:n datakeskuksissa keskittyen tietoturvaan, alhaiseen viiveeseen ja täyteen hallintaan malleista ja datasta.

    Yksityinen tekoäly yrityksille →

    Arkkitehtuuri

    • Ohjauskerros: API-yhdyskäytävä, autentikointi, kiintiöt, ajoitus
    • Suorituskerros: Kontteihin pakatut malliajoitukset omistetulla laitteistolla
    • Verkko: Matalan viiveen yhteydet solmujen ja tallennuksen välillä
    • Tallennus: Objektitallennus mallien painoille, välimuisti nopeaan käyttöön
    • Havainnoitavuus: Mittarit, lokit, jäljitys täydelliseen näkyvyyteen

    Laitteisto

    TyyppiVRAMKokoonpano
    B20080-192 GB8×GPU, 2×CPU (128 ydintä), 2 TB RAM
    NVIDIA RTX 6000-luokka96 GB4×GPU, 1×CPU (64 ydintä), 512 GB RAM
    AMD MI300-luokka192 GB8×GPU, 2×CPU (128 ydintä), 2 TB RAM

    Ohjelmistopino

    Konttien suoritus

    Kubernetes orkestrointiin, Docker eristykseen

    Ajurit

    CUDA 12.x, ROCm 6.x AMD:lle

    Päättelykehykset

    vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

    Mallienhallinta

    Automaattinen lataus, kvantisointi (INT8, FP16), välimuistitus

    Turvallisuus ja vaatimustenmukaisuus (EU/GDPR ensin)

    Security By Default

    Datan sijainti: Kaikki data ja käsittely tapahtuu EU:ssa. Data ei poistu EU:sta.

    Pääsynhallinta: API-avaimet, JWT-tokenit, roolipohjainen pääsy, MFA-tuki

    Verkon segmentointi: Eristetyt verkot asiakasta kohden, ei jaettua infrastruktuuria

    Lokikäytäntö: Ei datan tallennusta oletuksena. Asiakas valitsee oman säilytyskäytännön.

    Datavirrat & kontrollit

    Security By Default

    Päättelyn datavirtakartta

    Jokaisessa päättelypyynnössä data seuraa tiukasti määriteltyä kulkua:

    Asiakas
    1. TLS-salattu pyyntö
    API Gateway
    2. Todennus & validointi
    Päättelymoottori
    3. RAM-laskenta
    4. Palauta vastaus
    Muisti tyhjennetty
    5. Automaattinen poisto
    Lokitus
    Vain metatiedot: Asiakas-ID, tokenit, vastausaika
    1. Asiakas lähettää pyynnön API:mme kautta (TLS-salattu).
    2. API-taso todentaa asiakkaan, validoi pyynnön ja lähettää vain tarvittavat tiedot päättelymoottorille.
    3. Päättelymoottori laskee vastauksen RAM-muistissa kirjoittamatta prompteja tai tuloksia levylle.
    4. Vastaus palautetaan asiakkaalle ja kaikki sisältö poistetaan muistista pyynnön päätyttyä.
    5. Vain tekniset metatiedot (esim. asiakas-ID, mallin nimi, token-määrä, vastausaika) voidaan kirjata käyttöön ja laskutukseen – ei koskaan promptien tai vastausten todellista sisältöä vakiotilassa.

    Tämä datavirtakartta on dokumentoitu ja versionhallinnassa, mikä mahdollistaa jokaisen vaiheen tarkistamisen turvallisuus- ja vaatimustenmukaisuusauditoinneissa.

    Kontrollit ja auditointi

    Varmistaaksemme, ettei päättelydataa tallenneta tai käytetä koulutukseen, olemme ottaneet käyttöön:

    Koodin & konfiguraation tarkistus

    Päättelykoodilta puuttuu kirjoitusoikeus tietokantoihin ja asiakassisällön tallennukseen. API-gateway ja lokialusta on konfiguroitu olemaan kirjaamatta pyyntö- tai vastausrunkoja.

    Eristetyt ympäristöt

    Asiakaskohtaiset nimiavaruudet ja selvä erottelu testin, stagingn ja tuotannon välillä välttääksemme debug-lokituksen päätymisen tuotantoon.

    Lokipolitiikka

    Lokiformaatit sisältävät vain teknisiä metatietoja. Ei kenttiä prompteille tai tulosteille vakiotilassa.

    Säilytys ja automaattinen poisto

    Kaikki lokidata on aikapohjaisen säilytyksen alaista, jossa data poistetaan automaattisesti X päivän jälkeen asiakkaan tai alustan politiikan mukaisesti.

    Auditointijälki

    Muutokset lokipolitiikassa, konfiguraatiossa ja koodipohjassa kirjataan, mikä mahdollistaa sekä sisäiset että ulkoiset auditoinnit (esim. ISO/SOC-sertifikaatteja varten).

    Verkko ja suorituskyky

    Alusta on rakennettu alhaiselle viiveelle ja korkealle läpimenomäärälle:

    • Suorat yhteydet solmujen ja tallennuksen välillä (NVLink, InfiniBand)
    • Token-läpimeno: 100-500 tokenia/s 7B-malleille, 50-200 70B:lle
    • Viive: <10ms ensimmäiselle tokenille, <1ms seuraaville tokeneille

    Monimalli ja eristys

    Useita LLM:iä voi ajaa samanaikaisesti samalla infrastruktuurilla. Resurssien yhdistäminen mahdollistaa mallien laitteiston jakamisen kun kapasiteettia on, mutta jokaisella asiakkaalla on eristetyt suoritukset. Ajoitin priorisoi matalan viiveen pyynnöt erätyötehtävien yli.

    Integraatiot ja API

    REST API ja gRPC ohjelmalliseen käyttöön. Webhookit tapahtumanotifikaatioihin. SSO OIDC:n kautta helppooon integrointiin olemassa olevien identiteettijärjestelmien kanssa. SDK:t Pythonille, JavaScriptille ja Golle.

    Hinnoittelu

    Token-pohjainen hinnoittelu selkeällä kustannusten hallinnalla. Maksat per generoitu token, eri hinnoilla eri mallikokoille. Ei lukitusta, skaalaa ylös ja alas tarpeen mukaan. Volyymimuuttujat pitkäaikaisille sitoumuksille.

    OpenAI-vaihtoehto →

    Toiminta ja valvonta

    Mittarit: Prometheus mittareille, Grafana visualisointiin
    Jäljitys: OpenTelemetry hajautetulle jäljitykselle
    Autoskaalaus: Automaattinen skaalaus kuormituksen perusteella
    Hälytykset: Proaktiiviset hälytykset poikkeamista, kapasiteettiennusteet

    Käyttötapausesimerkkejä

    Tuotannon asiakastukibotti

    Verkkokauppayritys ajaa 7B-mallia reaaliaikaisiin vastauksiin chatissaan. Keskimääräinen viive <50ms, 99,9% käytettävyys.

    Sisäinen haku/RAG

    Konsulttiyritys indeksoi sisäisiä dokumentteja ja suorittaa RAG-kyselyjä 13B-mallia vastaan. Turvallinen, data ei poistu EU:sta.

    Erämedian generointi

    Mediatoimisto generoi tuhansia tuotekuvauksia päivittäin 70B-mallilla. Eräajot öisin.

    UKK

    Miten datani suojataan?

    Kaikki data pysyy EU:ssa. Dataa ei kirjata tai tallenneta ilman hyväksyntääsi. Eristetyt verkot asiakasta kohden.

    Mitä malleja voin ajaa?

    Kaikki avoimet mallit (Llama, Mistral jne.) ja omat hienosäädetyt mallit. Autamme käyttöönotossa.

    Kuinka nopeasti mallit vastaavat?

    Ensimmäinen token <10ms, seuraavat <1ms. Erätyöt skaalautuvat tarpeen mukaan.

    Miten integroidun teihin?

    REST API, gRPC, webhookit. SDK:t Pythonille, JS:lle, Golle. Täysi OpenAPI-dokumentaatio.

    Paljonko se maksaa?

    Token-pohjainen hinnoittelu. Ota yhteyttä tarkkojen hintojen saamiseksi tarpeidesi perusteella.

    Valmis testaamaan?

    Ota yhteyttä teknistä demoa tai teknistä dokumentaatiota varten.