Leiden twee citotoetsen tot tweedeling?

De vorige Minister van Onderwijs, Cultuur en Wetenschap heeft het initiatief genomen om te komen tot een Eindtoets Basisonderwijs die voor alle leerlingen in groep acht van de basisschool verplicht moet worden. De citotoets zoals we die kennen is een product dat scholen bij het Cito kunnen kopen. Een behoorlijk aantal scholen doet niet mee aan de citotoets en ook wordt bij veel leerlingen de toets niet afgenomen. Een belangrijk argument is dat de toets een nutteloze en frustrerende ervaring is voor de zwakkere leerlingen. Een probleem is dat hierdoor scholen lastig te vergelijken zijn. Uit de literatuur komt naar voren dat centrale toetsen zeer nuttig zijn, omdat ze het beeld dat leraren hebben van hun leerling bijstellen. Scholen die denken dat ze het goed doen in vergelijking met andere scholen en leraren die zonder dat ze het zelf in de gaten hebben de mogelijkheden van bepaalde groepen leerlingen te laag inschatten krijgen zo een spiegel voorgehouden. De potentie van landelijke toetsen is nog veel groter. Het geeft middelbare scholen de mogelijkheid bij de vergelijking van hun resultaten rekening te houden met de instroomkennis van leerlingen, uitgevers kunnen hun methodes onderling vergelijken en er ontstaat – mits de toets goed vergelijkbaar is over de tijd – een landelijk beeld over de ontwikkeling van de schoolprestaties in Nederland. Vorig jaar heb ik in ESB geschreven dat een goed opgezette toets een grote impuls aan onderwijsinnovatie kan geven.

Om aan het bezwaar tegemoet te komen dat één gezamenlijke toets te moeilijk en daardoor frustrerend is voor zwakkere leerlingen is het idee ontstaan om de toets op twee niveaus aan te bieden. Door een aantal vragen in beide toetsen op te nemen zouden de resultaten door middel van equivalering onderling op één schaal kunnen worden gezet. Vanmorgen stond er in de Volkskrant een ingezonden brief van Jaap Dronkers waarin hij betoogde dat dit een slecht idee is. Met twee toetsen zouden er volgens hem al vroegtijdig twee groepjes in iedere klas ontstaan. Eén groepje dat zich voorbereid op de HAVO/VWO-toets en één groepje dat zich voorbereid op de VMBO-toets. Daarmee worden subjectieve oordelen van de docent die vaak samenhangen met het ouderlijk milieu van het kind weer veel bepalender voor de kansen die kinderen krijgen in het vervolgonderwijs.

Het voorstel van het Cito is veel subtieler dan het invoeren van twee verschillende toetsen, maar toch denk ik dat als je de economie van het toetsen maken in de analyse betrekt, Dronkers een belangrijk punt heeft. Als je een groep leerlingen op willekeurige wijze in twee groepen verdeelt en ze beide een andere toets laat maken met deels een overlap in vragen, kan met zogenaamde IRT-technieken één schaal worden gemaakt waarop alle leerlingen onderling kunnen worden vergeleken. In het voorstel dat er nu ligt zal echter de leraar kiezen welke toets hij het meest geschikt vindt voor een bepaalde leerling. Dit betekent dat hij met deze keuze een signaal geeft over zijn inschatting van dit kind. Omdat de basisschool sowieso een rapport doorstuurt naar de middelbare school, maakt dit misschien niet zo veel uit. De keuze van de toets beïnvloedt echter ook de equivaleringprocedure. Bij deze procedure wordt bij de leerlingen die de moeilijke toets hebben gemaakt het verband vastgesteld tussen hun score op de vragen die ook in de makkelijke toets zaten en de vragen die alleen in de moeilijke toets zaten. Dit verband wordt gebruikt om ook voor de leerlingen die de vragen uit de moeilijke toets niet hebben gemaakt te schatten wat hun scores zouden zijn geweest. Toetsscores worden bepaald door zowel het niveau van de leerling als toeval. Doordat de leerlingen die de moeilijke toets maken gemiddeld veel beter zijn dan de leerlingen die de makkelijke toets maken, is het lastig ze te vergelijken. Als een leerling bij de makkelijke toets dezelfde score haalt als een andere leerling bij de moeilijke toets, is de kans groot dat bij de eerste leerling het toeval een positief effect heeft gehad op de score, terwijl de tweede leerling bij deze makkelijke vragen waarschijnlijk juist pech heeft gehad. Deze vertekening kan worden aangetoond en dus kan men er voor corrigeren, maar daarmee wordt de keuze die de leraar heeft gemaakt mede bepalend voor de uitslag op de toets. Terwijl juist het doel was om een leraar-onafhankelijke meting te krijgen.

Een belangrijke veronderstelling is ook dat beide toetsen dezelfde soort kennis meten. Als dat niet zo is, dan schat de equivaleringsprocedure de kennis van de leerlingen op het terrein waarop ze niet worden getoetst op basis van hun prestaties op het terrein waarop ze wel worden getoetst. Door goed te presteren op het ene terrein kan dan dus de indruk worden gewekt dat men goed is op het andere terrein. Als dit zo is, is het risico van twee groepjes inderdaad aanwezig.

Het is heel goed mogelijk om één toets voor iedereen te maken die toch voor leerlingen op alle niveaus interessant en uitdagend is. Daarvoor zou de toets adaptief moeten worden gemaakt. Dat betekent dat afhankelijk van de antwoorden die leerlingen geven op vragen, nieuwe vragen geselecteerd worden die passen bij het niveau van de leerling. Samen met Trudie Schils heb ik een schets geschreven over hoe zo’n toets er uit zou kunnen zien. De belangrijkste voorwaarde is dat scholen moeten beschikken over computers (of tablets) waarmee deze toets afgenomen kan worden. Het mooiste zou het zijn als alle leerlingen gelijktijdig achter de computer zouden kunnen zitten, maar echt nodig is dat niet. Iedereen krijgt toch andere vragen. Een goed opgezette adaptieve toets biedt niet alleen een oplossing voor het gevaar van tweedeling waar Dronkers ons voor waarschuwt, maar kan ook een enorme impuls geven aan de ontwikkeling van toetsen en de kwaliteitsbevordering van het onderwijs. Doordat toetsvragen individueel worden toegewezen aan leerlingen, kunnen belangrijke onderzoeksvragen over hoe leerlingen toetsen maken en over welke kennis zij beschikken immers gemeten worden zonder de toetsresultaten ernstig te beïnvloeden. Momenteel zijn we bezig met de ontwikkeling van een adaptieve toets. Door een deel van de leerlingen steeds vragen te geven die iets moeilijker zijn gezien hun niveau en andere leerlingen vragen voor te leggen die iets te makkelijk voor hen zijn, gaan we meten of de frustratie van moeilijke vragen leidt tot een lagere score of dat moeilijke vragen juist alert maken en de prestaties bevorderen.

Auteur

Categorieën

Onderwijs & Wetenschap