Begrippen

Inference

Inference is het draaien van een getraind model om een output te produceren, in tegenstelling tot het trainen van het model zelf. In productie-AI-features zit hier de runtime-kost — per token, per call, elke keer dat een gebruiker het systeem raakt.

Training is de eenmalige, dure daad van een model iets leren. Inference is alles wat daarna gebeurt: een gebruiker stelt een vraag, het large language model leest de prompt, genereert tokens en stuurt een antwoord terug. Vanuit financieel oogpunt is training een investering en inference de variabele kost die lineair meeschaalt met gebruik. Dat is waarom een AI-product dat in de demo goedkoop leek, ongemakkelijk kan worden op de factuur zodra er echt verkeer komt.

De eerlijke kijk: snellere en goedkopere inference betekent meestal een kleiner of gekwantiseerd model, en een kleiner model betekent vaak lagere kwaliteit op de echt moeilijke taken. De juiste modelgrootte is een bewuste keuze, geen default — een foundation model voor de harde vragen, een goedkoper model voor de eenvoudige, en routing daartussen op basis van wat de aanvraag werkelijk nodig heeft.

Hier verdient MLOps zijn geld: het monitoren van inference-latency, kost per request en kwaliteit door de tijd heen, zodat je ziet wanneer een fine-getuned kleiner model hetzelfde werk voor een fractie van de prijs doet, of wanneer het goedkope model de gebruikerservaring stilletjes degradeert en vervangen moet worden.

Innotalent: curated, not placed

Een team nodig dat levert op jouw klok?