Tech – Näin Juice Factory AI toimii

Juice Factory AI on eurooppalainen tekoäly-infrastruktuurialusta LLM-päättelyä, multimodaalisia malleja, RAG:ia ja eräajoa varten. Alusta toimii EU:n datakeskuksissa keskittyen tietoturvaan, alhaiseen viiveeseen ja täyteen hallintaan malleista ja datasta.

Yksityinen tekoäly yrityksille

Arkkitehtuuri

Laitteisto

TyyppiVRAMKokoonpano
B20080-192 GB8×GPU, 2×CPU (128 ydintä), 2 TB RAM
NVIDIA RTX 6000-luokka96 GB4×GPU, 1×CPU (64 ydintä), 512 GB RAM
AMD MI300-luokka192 GB8×GPU, 2×CPU (128 ydintä), 2 TB RAM

Ohjelmistopino

Konttien suoritus

Kubernetes orkestrointiin, Docker eristykseen

Ajurit

CUDA 12.x, ROCm 6.x AMD:lle

Päättelykehykset

vLLM, TensorRT-LLM, Text-Gen WebUI, TGI

Mallienhallinta

Automaattinen lataus, kvantisointi (INT8, FP16), välimuistitus

Turvallisuus ja vaatimustenmukaisuus (EU/GDPR ensin)

Security By Default

Datan sijainti: Kaikki data ja käsittely tapahtuu EU:ssa. Data ei poistu EU:sta.

Pääsynhallinta: API-avaimet, JWT-tokenit, roolipohjainen pääsy, MFA-tuki

Verkon segmentointi: Eristetyt verkot asiakasta kohden, ei jaettua infrastruktuuria

Lokikäytäntö: Ei datan tallennusta oletuksena. Asiakas valitsee oman säilytys-käytännön.

Datavirrat & kontrollit

Security By Default

Päättelyn datavirtakartta

Jokaisessa päättelypyynnössä data seuraa tiukasti määriteltyä kulkua:

Asiakas
1. TLS-salattu pyyntö
API Gateway
2. Todennus & validointi
Päättelymoottori
3. RAM-laskenta
4. Palauta vastaus
Muisti tyhjennetty
5. Automaattinen poisto
Lokitus
Vain metatiedot: Asiakas-ID, tokenit, vastausaika
  1. Asiakas lähettää pyynnön API:mme kautta (TLS-salattu).
  2. API-taso todentaa asiakkaan, validoi pyynnön ja lähettää vain tarvittavat tiedot päättelymoottorille.
  3. Päättelymoottori laskee vastauksen RAM-muistissa kirjoittamatta prompteja tai tuloksia levylle.
  4. Vastaus palautetaan asiakkaalle ja kaikki sisältö poistetaan muistista pyynnön päätyttyä.
  5. Vain tekniset metatiedot (esim. asiakas-ID, mallin nimi, token-määrä, vastausaika) voidaan kirjata käyttöön ja laskutukseen – ei koskaan promptien tai vastausten todellista sisältöä vakiotilassa.

Tämä datavirtakartta on dokumentoitu ja versionhallinnassa, mikä mahdollistaa jokaisen vaiheen tarkistamisen turvallisuus- ja vaatimustenmukaisuusauditoinneissa.

Kontrollit ja auditointi

Varmistaaksemme, ettei päättelydataa tallenneta tai käytetä koulutukseen, olemme ottaneet käyttöön:

Koodin & konfiguraation tarkistus

Päättelykoodilta puuttuu kirjoitusoikeus tietokantoihin ja asiakassisällön tallennukseen. API-gateway ja lokialusta on konfiguroitu olemaan kirjaamatta pyyntö- tai vastausrunkoja.

Eristetyt ympäristöt

Asiakaskohtaiset nimiavaruudet ja selvä erottelu testin, stagingn ja tuotannon välillä välttääksemme debug-lokituksen päätymisen tuotantoon.

Lokipolitiikka

Lokiformaatit sisältävät vain teknisiä metatietoja. Ei kenttiä prompteille tai tulosteille vakiotilassa.

Säilytys ja automaattinen poisto

Kaikki lokidata on aikapohjaisen säilytyksen alaista, jossa data poistetaan automaattisesti X päivän jälkeen asiakkaan tai alustan politiikan mukaisesti.

Auditointijälki

Muutokset lokipolitiikassa, konfiguraatiossa ja koodipohjassa kirjataan, mikä mahdollistaa sekä sisäiset että ulkoiset auditoinnit (esim. ISO/SOC-sertifikaatteja varten).

Verkko ja suorituskyky

Alusta on rakennettu alhaiselle viiveelle ja korkealle läpimenomäärälle:

Monimalli ja eristys

Useita LLM:iä voi ajaa samanaikaisesti samalla infrastruktuurilla. Resurssien yhdistäminen mahdollistaa mallien laitteiston jakamisen kun kapasiteettia on, mutta jokaisella asiakkaalla on eristetyt suoritukset. Ajoitin priorisoi matalan viiveen pyynnöt erätyötehtävien yli.

Integraatiot ja API

REST API ja gRPC ohjelmalliseen käyttöön. Webhookit tapahtumanotifikaatioihin. SSO OIDC:n kautta helppooon integrointiin olemassa olevien identiteettijärjestelmien kanssa. SDK:t Pythonille, JavaScriptille ja Golle.

Hinnoittelu

Token-pohjainen hinnoittelu selkeällä kustannusten hallinnalla. Maksat per generoitu token, eri hinnoilla eri mallikokoille. Ei lukitusta, skaalaa ylös ja alas tarpeen mukaan. Volyymimuuttujat pitkäaikaisille sitoumuksille.

OpenAI-vaihtoehto

Toiminta ja valvonta

Mittarit: Prometheus mittareille, Grafana visualisointiin
Jäljitys: OpenTelemetry hajautetulle jäljitykselle
Autoskaalaus: Automaattinen skaalaus kuormituksen perusteella
Hälytykset: Proaktiiviset hälytykset poikkeamista, kapasiteettiennusteet

Käyttötapausesimerkkejä

Tuotannon asiakastukibotti

Verkkokauppayritys ajaa 7B-mallia reaaliaikaisiin vastauksiin chatissaan. Keskimääräinen viive <50ms, 99,9% käytettävyys.

Sisäinen haku/RAG

Konsulttiyritys indeksoi sisäisiä dokumentteja ja suorittaa RAG-kyselyjä 13B-mallia vastaan. Turvallinen, data ei poistu EU:sta.

Erämedian generointi

Mediatoimisto generoi tuhansia tuotekuvauksia päivittäin 70B-mallilla. Eräajot öisin.

UKK

Miten datani suojataan?

Kaikki data pysyy EU:ssa. Dataa ei kirjata tai tallenneta ilman hyväksyntääsi. Eristetyt verkot asiakasta kohden.

Mitä malleja voin ajaa?

Kaikki avoimet mallit (Llama, Mistral jne.) ja omat hienosäädetyt mallit. Autamme käyttöönotossa.

Kuinka nopeasti mallit vastaavat?

Ensimmäinen token <10ms, seuraavat <1ms. Erätyöt skaalautuvat tarpeen mukaan.

Miten integroidun teihin?

REST API, gRPC, webhookit. SDK:t Pythonille, JS:lle, Golle. Täysi OpenAPI-dokumentaatio.

Paljonko se maksaa?

Token-pohjainen hinnoittelu. Ota yhteyttä tarkkojen hintojen saamiseksi tarpeidesi perusteella.

Valmis testaamaan?

Ota yhteyttä teknistä demoa tai teknistä dokumentaatiota varten.

Aloita nyt