De afgelopen dagen is er veel ophef geweest over de uitslagen die vorige week binnen zijn gekomen van de doorstroomtoetsen. De uitslagen wijken erg af van wat op basis van eerdere gestandaardiseerde toetsing verwacht had mogen worden. Zo zijn er extreme situaties waarin bijvoorbeeld bij alle leerlingen de toetsuitslag anders uitviel dan het schooladvies. Maar over het algemeen geven scholen aan dat het substantieel afwijkt dit jaar. Daarnaast valt op dat er grote verschillen zijn tussen toetsaanbieders, waarbij met name Leerling in Beeld (van Cito) het beste uitpakt, en de IEP-toets (van Bureau ICE) slechter lijkt uit te pakken.
NRC tekende vandaag de reactie van OCW hierop op:
“Zoals verwacht en al eerder aan scholen uitgelegd, kunnen de uitslagen op de doorstroomtoets dit jaar afwijken van eerdere jaren.” Dat komt volgens het ministerie doordat „de systematiek is aangepast om de verschillende eindtoetsen nog beter vergelijkbaar te maken”. Het ministerie denkt niet dat daar fouten bij gemaakt zijn. „Het aanpassen van de normering is een zorgvuldig en uitvoerig proces waardoor de doorstroomtoetsen ook dit jaar betrouwbare resultaten geven.”
Ik denk dat deze standpunten van OCW moeilijk stand kunnen houden, en ik zal hieronder toelichten waarom.
Het ideaal: verschillende toetsen, dezelfde uitslagen
Inmiddels zijn er zes aanbieders van doorstroomtoetsen, waarbij Cito er twee heeft ontwikkeld (en dus met zichzelf concurreert). Voor een leerling zou het niet uit moeten maken welke toets ze voor hun neus krijgen; elke toets zou dezelfde uitslag moeten opleveren. Als je mavo/havo scoort op de ene, moet je dat ook scoren op de andere.
Maar dat is natuurlijk heel ingewikkeld. Iedere toets heeft een andere opzet, zo is de een op papier, de ander digitaal, de ander deels adaptief digitaal, volledig adaptief en er is ook een versie die papier en digitaal mixt. Daarnaast zijn de vraagvormen anders en gaat het over andere onderwerpen in leesteksten, waar een leerling wel of niet verstand van heeft, waardoor de vragen makkelijker of moeilijker zullen zijn. Om kaders te bieden bestaat er wel een toetsmatrijs en zijn er regels over welke vragen opgenomen mogen worden.
En dan is er nóg een ingewikkeld aspect, en dat is dat het voor een leerling ook niet uit zou moeten maken in welk jaar die een doorstroomtoets maakt. Dus of je nu 2015, 2024 of 2030 een test maakt. Met dezelfde kennis & vaardigheden zou er eenzelfde uitslag uit moeten rollen.
Equivaleren door ankeropgaven
Om dit complexe kunstje te bereiken wordt een proces gehanteerd dat equivaleren heet. Daar zijn verschillende opties voor, maar volgens deze gepubliceerde regeling maakt het CvTE daarbij gebruik van ankervragen.
Ankervragen zijn de set aan vragen die door een populatie leerlingen gemaakt is (bijv. een aantal jaar geleden). Alle vragen moeten op exact dezelfde manier in alle toetsen terugkomen. Een selectie hiervan, en nieuwe ankeropgaven worden weer ingezet in volgende jaren. Als deze specifieke opdrachten dan beter of slechter worden gemaakt, dan zegt dit iets over verschillen in de leerlingpopulatie. Het kan natuurlijk zo zijn dat leerlingen in 2024 slechter zijn dan in 2023 –hoewel grote schommelingen qua niveau niet aannemelijk zijn.
Vervolgens kun je via de bril van die ankeropgaven ook kijken hoe de andere opgaven in een toets gemaakt zijn. Stel dat de ankeropgaven net zo goed zijn gemaakt als eerdere jaren, en leerlingen scoorden laag op de andere vragen, dan was er sprake van een moeilijkere toets. En als ze hoger scoorden was de toets in zijn geheel kennelijk makkelijker. Dit gegeven kun je dan in de normering weer benutten en daarmee ook het verschil in percentages verklaren.
Een potentiële warboel
Tot nu is het nog te volgen (hopelijk), maar in de regeling wordt het al snel ingewikkeld. Zo kunnen we niet alleen opmaken dat er verschillende ankersets zijn voor de papieren, de digitale en voor de papieren+digitale testen, waar wel enige overlap in zit. Naast een gezamenlijke ontwikkelde ankerset (die door CvTE wordt vastgesteld) hanteren aanbieders ook nog hun eigen ankerset. Er zijn dus drie gezamenlijke ankersets, zes individuele ankersets, en dan heb je nog de ‘gewone’ vragen in de toets, die allemaal op enige manier aan elkaar gekoppeld zijn. Deze worden wel vooraf door de CvTE-adviescommissie toetstechnisch gecontroleerd, anders mag een toets niet aangeboden worden. Achteraf wordt er gecontroleerd op het verschillend functioneren van gezamenlijke ankeropgaven.
Zo ontstaat er al snel een statistisch spinnenweb waarvan voor buitenstaanders niet te volgen zal zijn wat daar gebeurt. Maar in mijn optiek ontstaat door deze complexiteit een risico dat er fouten ontstaan, en dat deze fouten zich in statistisch opzicht kunnen openstapelen.
Deze fouten kunnen op allerlei manieren ontstaan, ik noem maar wat:
- De kwaliteit van de ankervragen is onvoldoende. Uit een ankerset worden een aantal vragen genomen. Als deze vragen net van een lagere kwaliteit of bijv. onvoldoende spreiding hebben qua niveau heeft, kan dit meteen invloed op het ‘geheel’.
- Alleen reguliere BO leerlingen zijn meegenomen in de normering. In het Handboek Normering 2024 valt te lezen dat SBO is uitgesloten van de normeringsgroep. Los van de effecten die dit heeft, is het ook maar de vraag of deze leerlingen uberhaupt eerlijk verdeeld waren over de verschillende toetsen. Ik kan me voorstellen dat deze leerlingen bij Route 8 bijvoorbeeld oververtegenwoordigd zullen zijn.
- Normering is vastgesteld in 2021. En gebaseerd op o.a. eindtoetsafnames van 2018/2019. Dit is lang geleden en doordat er bijv. een coronapandemie heeft plaatsgevonden in de tussentijd zijn deze gegevens wellicht niet goed meer bruikbaar.
- Een menselijke fout bij Cito. Het is natuurlijk niet uitgesloten dat in zo’n complex vraagstuk een menselijke fout kan zorgen voor afwijkende resultaten. Wat eerder natuurlijk al eens gebeurd is. (Uiteraard ga ik er van uit dat men op verschillende manieren zal proberen dit te voorkomen).
Terugkerend naar OCW
Eerder refereerde ik al aan uitspraken van OCW. Met bovenstaande in gedachten wil ik graag mijn reactie hierop geven.
“Zoals verwacht en al eerder aan scholen uitgelegd, kunnen de uitslagen op de doorstroomtoets dit jaar afwijken van eerdere jaren.”
Kleine afwijkingen zijn misschien te verwachten, maar de indruk uit het veld is nu dat er grote afwijkingen zijn. Dat lijkt er toch echt op te wijzen dat er iets niet klopt.
Dat komt volgens het ministerie doordat „de systematiek is aangepast om de verschillende eindtoetsen nog beter vergelijkbaar te maken”.
In mijn optiek zou een geslaagde systematiek ook ervoor moeten zorgen dat er vergelijkbaarheid met eerdere jaren is, maar dit lijkt niet goed gelukt. Daarnaast moet je je natuurlijk bij het woord ‘beter’ afvragen, wat er eerder niet goed was. Toen beweerde men namelijk ook dat er niets mis was met de procedure.
Het ministerie denkt niet dat daar fouten bij gemaakt zijn.
Misschien dat er geen fouten in de formele procedure zijn gemaakt, maar het is moeilijk vol te houden dat de uitslagen geen fouten bevatten. Interessant om te weten zou bijvoorbeeld zijn, of het percentage adviezen dezelfde verdeling kent als eerdere jaren.
“Het aanpassen van de normering is een zorgvuldig en uitvoerig proces waardoor de doorstroomtoetsen ook dit jaar betrouwbare resultaten geven.”
Zorgvuldig en uitvoerig zijn wat mij betreft nog geen garantie voor betrouwbare resultaten.
Wat nu?
Uiteindelijk is het dossier doorstroomtoets een hele politiek-beladen kwestie, waarbij leraren, schoolleiders, leerlingen en ouders de uitkomsten maar moeten ondergaan. Niet alleen op individueel, persoonlijk niveau, maar ook op het niveau waarop deze resultaten gebruikt worden door de Inspectie om toezicht te houden op de kwaliteit van onderwijs.
Persoonlijk lijkt het mij onwenselijk dat de situatie blijft zoals die is, maar de politieke logica is natuurlijk vaak anders dan wat het gezonde verstand ingeeft.
Wat er vermoedelijk zal gebeuren is dat het CvTE en CITO tijd willen om hun ankerset verder te verstevigen, omdat zij heilig geloven in betrouwbaarheid van de ontwikkelde opzet, en zij dit zullen zien als ‘kinderziektes’.
Naar mijn mening zijn de kinderziektes gewoon ziektes van een systeem dat te complex is omdat de politiek een onmogelijke opdracht heeft neergelegd. Het zou goed zijn als de politiek zou aansturen op minder complexiteit, als ze willen vasthouden aan het fundamentele punt dat er een toets afgenomen moet worden halverwege groep 8.
Recente reacties