Context window · Innotalent

Het context window is het werkgeheugen van een LLM voor één enkele aanvraag. Alles wat het model moet meewegen — de systeemprompt, de gespreksgeschiedenis, bijgevoegde documenten, tool-output en het antwoord zelf — moet erin passen. Toen windows nog klein waren, ging een groot deel van prompt engineering over het meedogenloos uitkleden van wat je meestuurde. Nu windows oprekken tot honderdduizenden tokens verschuift de vraag van "wat laat ik weg" naar "wat is eigenlijk nuttig om mee te geven".

Grotere windows maken het mogelijk om hele codebases, contracten of kennisbanken in één call te proppen en soms helemaal geen retrieval te bouwen. Voor eenmalige analyses en prototypes is dat echt nuttig, omdat de eenvoud van "plak alles erin" wint van het bouwen van een retrieval-pijplijn.

De ruil komt in productie boven water. Grotere inputs kosten meer per call, vertragen inference, en de antwoordkwaliteit zakt bij erg lange inputs — modellen beginnen dingen te missen die ergens in het midden begraven liggen, ook als het technisch nog past. De vuistregel: behandel het window als een budget, niet als een bestemming. Stop er alleen in wat het model voor déze vraag nodig heeft, en gebruik retrieval voor de rest.

Een team nodig dat levert op jouw klok?