Evals
Evals zijn geautomatiseerde tests voor LLM-functionaliteit die nauwkeurigheid, veiligheid en regressie meten op een zorgvuldig gekozen set representatieve inputs. Ze zijn wat prompt engineering verandert in productie-engineering: zonder evals weet je niet of je laatste wijziging het systeem beter of slechter heeft gemaakt.
Een bruikbare evalset is klein, gecureerd en bewust saai: een paar tientallen tot een paar honderd echte inputs met bekend verwacht gedrag, bij elke wijziging automatisch uitgevoerd. Sommige checks zijn deterministisch (parseert de JSON, bevat het antwoord het vereiste veld), sommige worden beoordeeld door een ander model, en sommige hebben een human in the loop nodig voor de echt afwegingsgevoelige gevallen. De vorm doet er minder toe dan de discipline om ze daadwerkelijk te draaien.
Evals zitten een laag boven prompt engineering en een laag onder MLOps. Ze zijn de manier waarop je een regressie opvangt wanneer een fine-tuned model zich anders gedraagt op edge cases, of wanneer een nieuwe prompt per ongeluk het aantal hallucinaties verhoogt op een bekend-lastige doorsnede van de inputs.
De eerlijke kijk: evals zijn het meest onderbelichte onderdeel van de meeste AI-projecten, en tegelijk het meest diagnostisch. Teams besteden vaak weken aan het tunen van een prompt op gevoel, voordat ze één dag besteden aan het bouwen van de testset die hen had kunnen vertellen of iets daarvan werkte. LLM-features uitleveren zonder evals is blind uitleveren — de vuistregel is om de evalset op dag één op te zetten, ook als die maar twintig voorbeelden bevat, en hem te laten groeien elke keer dat er iets breekt.