Rapportcijfers RTL zijn niet relevant en niet juist

Afgelopen zaterdag kwam RTL Nieuws met rapportcijfers voor basisscholen naar buiten. Volgens de website hebben ze “omdat scholen niet zomaar te vergelijken zijn, samen met onderwijssocioloog Jaap Dronkers een methode ontwikkeld om de score van een school af te zetten tegen vergelijkbare scholen.” Conclusies zijn onder andere dat Montessorischolen het heel goed doen, dat in de top tien veel scholen zitten die niet de Cito-eindtoets maar de SEO hebben afgenomen, dat scholen in achterstandswijken het opvallend goed doen en dat scholen in Limburg het gemiddeld beter doen dan in de andere provincies. De uitkomsten van deze methode lijken me voor ouders niet erg interessant. Die staan immers niet voor de vraag of ze een school in Limburg of een school in Friesland zullen kiezen en kiezen niet alleen op basis van taal- en rekenprestaties voor een Montessorischool. Ouders kiezen doorgaans uit scholen in de buurt waarbij meerdere dimensies een rol spelen dan alleen de toetsscores.

Voor economen zijn de berekeningen van RTL echter wel interessant, omdat ze vol zitten met voorbeelden van hoe naïeve analyses tot onjuiste conclusies kunnen leiden. Geïnspireerd door het werk van Edward Leamer en Josh Angrist is er in de economie een traditie ontstaan waarin de robuustheid van resultaten en zorgvuldigheid bij het vergelijken van groepen veel aandacht krijgt. Cruciaal hierbij is het inzicht uit de economie dat als scholen weloverwogen keuzes maken, je er rekening mee moet houden dat scholen die andere beslissingen nemen ook andere kenmerken hebben. Met enkele voorbeelden zal ik laten zien dat de berekeningen van RTL er ten onrechte van uit gaan dat appels probleemloos met peren vergeleken kunnen worden.

Zo komt het veel voor dat basisscholen laagpresteerders buiten de eindtoets houden. De toelichting van Dronkers op de website van RTL laat zien dat scholen die meer kinderen laten meedoen aan de toets gemiddeld lager scoren. Dit verschil wordt gebruikt om de gemiddelde citoscore te corrigeren voor niet-deelnemers. Als rekening wordt gehouden met selectie is deze correctie echter te klein. Het ligt immers voor de hand dat scholen waar de laagst-presterende leerlingen het relatief goed doen hun leerlingen wel deel laten nemen aan de eindtoets, terwijl scholen waar de laagst-presterende leerlingen het relatief slecht doen hun leerlingen buiten de toets houden. De correctiemethode van RTL komt er dus op neer dat de ontbrekende toetsscores van de tweede school vervangen worden door de gunstigere toetsscores van de scholen waar de laagst-presenterende leerlingen wel worden getoetst.

Verder maken niet alle basisscholen gebruikt van de Cito-eindtoets. Om deze toetsen op één schaal te zetten zou er een inhoudelijke vergelijking gemaakt moeten worden of zou een groep leerlingen twee verschillende toetsen moeten maken. Dronkers lost dit probleem eenvoudigweg op door te veronderstellen dat scholen die een andere toets gebruiken gemiddeld genomen even goed zijn als de scholen die de Cito-eindtoets gebruiken (waarbij hij overigens wel corrigeert van de status van de buurt). Ook de spreiding wordt gelijkgesteld. Erg plausibel is deze aanname niet, want waarschijnlijk gebruiken scholen andere toetsen omdat ze ook andere accenten leggen in het onderwijs. De data die voor de berekeningen zijn gebruikt laten overigens zien dat er aanzienlijke verschillen zijn in de nauwkeurigheid van de toetsen. De correlatie tussen de scores in opeenvolgende jaren is bij de SEO veel lager dan bij de Cito-eindtoets. Voor scholen die de SEO gebruiken zit daarom veel meer toeval in hun RTL-rapportcijfer.

Het klassieke probleem bij het vergelijken van scholen is dat de leerlingen sterk verschillen en sommige scholen leerlingen hebben die ook op een mindere school goed zouden scoren, terwijl andere scholen leerlingen krijgen die zelfs op een zeer goede school een laag toetsresultaat zullen halen. De berekeningen van RTL zijn bedoeld om hiervoor te corrigeren, maar de vraag is of dat ook gebeurt. Traditioneel gebruikt de Inspectie van het Onderwijs het aantal gewichtenleerlingen, dat zijn de leerlingen waarvoor scholen extra bekostiging kunnen krijgen, om voor het ouderlijk milieu te corrigeren. Het is bekend dat deze correctie onvoldoende is omdat het voor de prestaties van scholen veel uitmaakt of het merendeel van de ouders een MBO- of een WO-diploma heeft. RTL gebruikt naast de gewichtenleerlingen ook een indicator over de buurt waar leerlingen wonen. Dit is wellicht een stap in de goede richting, maar waarschijnlijk niet voldoende om voor sociaaleconomisch milieu te corrigeren. Mensen die bij elkaar in de buurt wonen kiezen immers niet altijd voor dezelfde school. Zo is het bekend dat Montessorischolen leerlingen uit de betere milieus trekken. Terwijl Montessori minder de nadruk legt op toetsprestaties bij taal en rekenen, scoren ze wel hoog bij RTL. Het ligt daarom voor de hand dat de rapportcijfers van RTL onvoldoende corrigeren voor de herkomst van leerlingen.

Ten slotte, wegen de rapportcijfers van RTL toetsresultaten aan de onderkant zwaarder dan de toetsresultaten bij hoogscorende leerlingen. Een toetsscore verhogen van 520 naar 521 hoeft niet eenzelfde prestatie te zijn als een toetsscore verhogen van 545 naar 546 (Cito-scores liggen tussen de 500 en 550). Bij de citoscores is er duidelijk sprake van een plafondeffect. Veel leerlingen hebben de hoogste score en de verdeling is scheef naar links. Ook is de variantie in termen van punten op de citotoets tussen scholen in achterstandsbuurten veel hoger dan de variantie bij de scholen in de betere buurten. Dit wijst er op dat kwaliteitsverbeteringen aan de bovenkant tot kleinere verhogingen van de scores leiden dan kwaliteitsverbeteringen aan de onderkant. RTL middelt echter de cijfers van leerlingen binnen een school en vergelijkt scores tussen scholen alsof dit probleem niet speelt. Het gevolg is dat een opvallend veel scholen in achterstandswijken goed scoren.

Het is natuurlijk niet eenvoudig om een goede maat te maken waarmee scholen onderling vergeleken kunnen worden en RTL moet roeien met de riemen die ze heeft. Het probleem is dat Dronkers creatieve oplossingen heeft bedacht om het gebrek aan goede gegevens te compenseren, maar RTL in de berichtgeving nalaat de cijfers te relativeren en de suggestie wekt de kwaliteit van scholen in één cijfer te hebben gevangen. Schoolkwaliteit laat zich niet in één cijfer vangen en in een land waar de vrijheid van onderwijs een groot goed is moet ook niet geprobeerd worden om de diversiteit in het onderwijs terug te brengen tot iets eendimensionaals. En bij indicatoren die ontwikkeld worden om scholen te vergelijken is een relativerende houding op zijn plaats. Er zullen altijd deels arbitraire keuzes moeten worden gemaakt en dus is een mentaliteit waarbij men kritisch en open naar de potentiele tekortkomingen durft te kijken cruciaal.

Zie ook Thijs Bol: De methodologische tekortkomingen van de CITO-lijst van RTL

Auteur

Categorieën

Onderwijs & Wetenschap