Selecteer een pagina
Waarom Visible Learning van John Hattie pseudowetenschap is

Waarom Visible Learning van John Hattie pseudowetenschap is

 

Het boek Visible Learning van John Hattie verscheen in 2008, en is in Nederland verschenen als Leren zichtbaar maken. In dit boek vergelijkt hij  onderzoek naar interventies in het onderwijs om zo te komen tot een ranglijst te komen van wat werkt en wat niet werkt. Anno 2020 is zijn aanpak zeer omstreden, en daarmee dus ook de harde conclusies die hij trekt. Dit besef lijkt in het Nederlands onderwijs nog niet voldoende ingedaald. Regelmatig kom ik op scholen waar Hattie nog als zoete koek geslikt wordt.

In deze blog som ik de grootste bezwaren op, en reflecteer ik op wat we wel en niet kunnen met dit boek.

Introductie

Eind 2010 deed ik mee aan debat over prestatiebeloning en dat was om meerdere redenen gedenkwaardig. Zo stond ik na afloop zes uur lang in een sneeuwstormfile, ik ontmoette Thijs Jansen van de stichting Beroepseer wat de eerste stap was richting het boek Het Alternatief, en tijdens het debat begon Jan Tishauser (die ik toen nog niet kende) over het boek Visible Learning: een ranglijst van wat werkt in het onderwijs, en wat nauwelijks of tegengesteld werkt. Ik raakte nieuwsgierig, mailde hem nog eens over de titel, bestelde het, las het en ik was meteen verkocht.

Ik was al heel lang op zoek naar een goed overzicht van wat we kunnen leren uit onderwijsonderzoek en dit boek leek precies dat te bieden. Voor de zekerheid googelde ik wél op kritiek op het boek (het was tenslotte al twee jaar uit), maar ik kon niet veel serieuze kritiek vinden. Zo’n populair boek – ook wel de ‘heilige graal van het onderwijs’ genoemd –… als er iets mis mee was dan zou de eerste serieuze criticaster zich wel gemeld hebben, toch?

Synthese van meta-analyses

Voor de zekerheid zal ik kort uitleggen wat John Hattie en collega’s precies hebben gedaan, mocht je het gemist hebben.

Stel je bent onderzoeker en je doet onderzoek naar bijv. klassengrootte. Je doet kwantitatief onderzoek naar de resultaten van een grote groep in de les (32 leerlingen) en een kleinere groep (24 leerlingen). Hoewel de ene groep het misschien gemiddeld beter zal doen qua leerprestaties dan de andere valt er aan de resultaten nog niet zoveel op te hangen. Om te zien of deze verbetering of verslechtering statisch significant is moet er een zogenoemde ‘effect-grootte’ berekend worden. Hoe groter de effect-grootte hoe meer ‘impact’ de interventie had.

Deze resultaten publiceer je. Maar aan de bevindingen valt nog niet zoveel op te hangen. Eén onderzoek is geen onderzoek, zegt men wel eens. Er kan sprake zijn van bijv. bias of een toevalstreffer. Het is daarom altijd goed om meer onderzoeken naar iets te doen, of het onderzoek door een andere onderzoeker te laten herhalen.

Als je echt wilt weten wat in grote lijnen de effecten zijn van een klassenverkleining is een meta-analyse nodig. Je pakt al het onderzoek naar klassenverkleining bij elkaar en je gaat vergelijken. Zo’n meta-analyse kun je ook doen naar de effecten van samenwerkend leren, directe instructie, zittenblijven etc.

In Visible Learning doet John Hattie een van de eerste grote pogingen om al deze meta-analyses met elkaar te vergelijken aan de hand van de effect-groottes. Het is dus in feite een meta-meta-analyse: al is het beter om te spreken van een synthese van meta-analyses.

De bevindingen van Hattie

Deze synthese leidt tot een aantal bevindingen en conclusies, die ik hieronder kort zal opsommen.

a) Een effectiviteitsranglijst

A screenshot of a cell phone

Voorbeeld

Figuur 1 Voorbeeld van korte ranglijst met effectgroottes afkomstig van www.visible-learning.org.

Door de ‘effect-grootte’ als universele indicator in te zetten beweert Hattie in staat te zijn om interventies met elkaar te vergelijken. Bovenstaand diagram toont tien interventies en hoe ze zich tot elkaar verhouden. ‘Feedback’ scoort hoog met een gemiddelde effect-grootte van 0,73 hoog en ‘het wisselen van school’ scoort negatief met -0,34. De hele ranglijst is te groot om hier zinvol weer te geven, maar kijk gerust eens hier.

b) Alles werkt wel, ‘soort van’.

Een opvallende conclusie van Hattie is dat elke interventie wel soort van werkt. Er zijn maar een paar interventies op de lijst zoals zittenblijven en wisselen van school die een negatieve impact hebben. Het overgrote deel van mogelijke interventies heeft een positieve bijdrage. Ja, zelfs als leerlingen geen of een slechte leraar voor de klas hebben gaan ze nog wel een beetje vooruit; al is een goede leraar natuurlijk altijd beter.

c) Omslagpunt voor voldoende positief effect

Als alles wel soort van werkt dan zullen we moeten kijken naar wat het allerbeste werkt, zegt Hattie. Het gemiddelde van alle effectgroottes is namelijk 0,4. Wat hij the hinge point, oftewel het omslagpunt noemt. Eigenlijk, stelt hij, zouden we ons niet moeten bekommeren om zaken die minder effectief zijn gemiddeld. Zonde van de tijd en energie.

Om dit inzichtelijk te maken werkt hij met zogenaamde barometers waarin pijltjes aangeven waar de interventie precies valt.

A picture containing device

Description automatically generated

Anno 2011 nog weinig kritiek

Zoals gezegd, toen ik me in het werk verdiepte in 2011 was er weinig kritiek te vinden. Zover ik me kan herinneren, trof ik op mijn rondje over internet het volgende (al kan ik niet alles meer terugvinden).

a) Constructivisten waren tegen

Aanhangers van constructivistisch onderwijs kregen in het boek de wind van voren. Hattie vindt in zijn synthese veel aanwijzingen dat een leraar die directe instructie toepast het meest effectief is. De interventies die een ‘coach ‘doet in een constructieve setting zijn allemaal minder effectief. Om dit te illustreren maakt hij gebruik van tabelletjes zoals de volgende (hier uit EDI 2.0):

A screenshot of a cell phone

Description automatically generated

Tegenstanders van Hattie vond je vooral in de sociaal-constructivistische hoek. Zij wezen op tekortkomingen in de methode van Hattie of op de platheid van een tabel zoals bovenstaande. Een leraar als coach zal tenslotte ook feedback geven. 

b) Betekenis voor beleid onduidelijk

Een van de opmerkelijke uitkomsten van de synthese is dat klassengrootte er niet toe doet. Aangezien klassenverkleiningen kostbaar zijn, en klassenvergrotingen veel opleveren was dit voer voor beleidsmakers over de hele wereld om klassen in ieder geval niet kleiner te maken (want duur, en geen effect). In 2011 was er daarom discussie of je de uitkomsten wel op deze manier mocht interpreteren en gebruiken om beleid op te baseren.

Anno 2020 meer kritiek

De afgelopen jaren groeit de kritiek op het werk van Hattie. Hattie bagataliseert veel van de kritiek. Hij onderneemt wel eens poging om kritiek te weerleggen, maar die zijn vaak niet overtuigend.

George Liley houdt een website bij met alle kritiek die inmiddels gepubliceerd is. En dat is nogal wat: (http://visablelearning.blogspot.com) ik zal die hier niet allemaal herhalen, maar het is zeker de moeite waard om alles eens te bekijken. De belangrijkste punten in de kritiek zal ik hier bespreken.

a) Leerlingen zijn niet gemiddeld, dus wat heb je hieraan….

De grote paradox is volgens Larson (2014) dat in de synthese van meta-analyse met 240 miljoen datapunten de leerlingen ondergesneeuwd raken en verdwijnen. Leerlingen zijn niet gemiddeld. Zoals Dylan Wiliam vaak zegt: Alles werkt wel ergens, maar niets werkt overal. Wie onderzoek wil gebruiken om de praktijk te verbeteren moet zich afvragen ‘wat werkt, voor wie, waarom, hoe en onder welke condities’. In de grote-gemiddelden-show van Visible Learning is de informatie die je als leraar nodig hebt en wilt hebben, juist verdwenen.

b) Effectgroottes kun je zo niet gebruiken. Statistische warboel

In 2017 publiceerde Bergeron een artikel met de veelzeggende titel  How to engage in pseudoscience with real data: A criticism of John Hattie’s arguments in Visible Learning from the perspective of a statistician” met stevige statistische kritiek op Visible Learning. Zijn conclusies zijn niet mals:

“Wie door de bril van een expert naar het boek Visible Learning kijkt ziet niet een machtig kasteel maar een fragiel kaartenhuis dat snel uit elkaar zal vallen….

Wie Hattie gelooft heeft een blinde vlek in zijn kritische vermogen om iets op wetenschappelijkheid te beoordelen. Zijn werk promoten is als de promotie van pseudowetenschap. Tot slot, wie Hattie zelfs in het licht van deze serieuze kritiek blijft verdedigen houdt zich bewust blind.”

c) De wiskunde klopt niet

Een van de meest opvallende fouten van Visible Learning is dat de wiskunde simpelweg niet klopt. John Hattie maakt gebruik van twee statistische concepten effectgrootte en CLE. Deze CLE is een kans. Kansen zijn  – weet je misschien nog van de middelbare school – minimaal 0% en maximaal 100% maar bij John Hattie bestaan er plots ook kansen van -49% en 219%! Is het magie? Nee, na enig aandringen gaf Hattie ruiterlijk de fout toe (maar heeft het nooit aangepast).

d) Omslagpunt van 0,4 is twijfelachtig

Om adequaat met effectgroottes te kunnen werken zijn allerlei correcties nodig. Ten eerste voor leeftijd van de deelnemers omdat de effectgroottes van interventies bij jonge kinderen groter zijn . Diverse onderzoekers wijzen erop dat door dit soort correcties toe te passen de gemiddelde effectgrootte veel lager wordt, wellicht zelfs maar 0,2.

e) Eenzijdige focus op kwalificatie

Onze eigen Gert Biesta is een van de veteranen onder de Hattie-criticasters. Zijn kritiek is wel andersoortig van toon. Of de statistische methode nu goed is of niet, dat doet er volgens Biesta niet eens toe. Het werk van Hattie richt zich tenslotte slechts op het meetbare van kwalificatie. Iets kan wel ‘effectief’ zijn, maar dat betekent nog niet dat ook goed onderwijs is aangezien we dan ook andere domeinen in ogenschouw moeten nemen. Kortgezegd: Een interventie kan effectief zijn, maar dat maakt haar nog niet wenselijk.

Uit goede bron vernam ik dat dat Hattie op deze kritiek reageerde met de woorden: ‘Mevrouw (sic) Biesta wel een punt heeft, maar dat onderwijs desondanks toch alleen maar gaat over kwalificatie.’

Wat kunnen we er nog mee?

Ik ben een fan van veel van de conclusies van Hattie. De afgelopen jaren is het gemakkelijk geweest om mijn gelijk te krijgen door te zeggen: ‘Uit het onderzoek van John Hattie blijkt…’ Mijn leven zou ongetwijfeld makkelijker zijn door dit allemaal halsstarrig vol te houden, maar ik inmiddels ben ik al een tijdje zover dat ik het Visible Learning-werk van Hattie gewoonweg niet meer serieus kan nemen. Wie serieus beoogt dat onderzoek een belangrijke bron vormt voor het handelen in de klas kan dat huis niet bouwen op het drassige moeras dat Visible Learning heet. Mijn adviezen zijn daarom ook de volgende:

a) Hattie niet meer gebruiken als bron

Er is zo veel mis met Visible learning dat je het niet meer als bron zou moeten inzetten. De verwijzing Hattie (2008) of Hattie (2009) kun je dus beter niet meer gebruiken.

b) Probeer je conclusies anders te onderbouwen

Misschien vind je de conclusies van Hattie heel fijn. Dat vind ik ook. Ik ben geen sociaal-constructivist en ik ben blij dat formatief handelen hoog staat in de Visible Learning heel fijn. Maar als ik het punt wil maken dat formatief handelen belangrijk, effectief, goed en wenselijk is, dan zal ik dat punt op een andere manier maken. 

c) Per definitie dus ongeschikt voor beleidsbeslissingen

Misschien overcompleet, maar de conclusies van John Hattie zijn ongeschikt om beleid op te baseren. Goed beleid kijkt naar deugdelijk onderzoek – en daar is hier uiteraard geen sprake van–, maar moet rekening houden met de context waarbinnen onderwijs zich bevindt en praktische kennis.

d) Ander werk van Hattie mogelijk nog wel interessant.

Dat we Visible Learning niet meer kunnen gebruiken betekent niet dat we het andere werk van John Hattie niet meer kunnen gebruiken. Zijn onderzoek naar expertise onder leraren staat nog steeds, en zijn werk naar feedback is ook nog steeds onomstreden.

Al wil ik niet uitsluiten dat dit over twee jaar niet anders kan zijn.

e) De interventies die Visible Learning aanprijst zijn nog steeds zinnig.

Veel scholen zijn aan de slag gegaan met de interventies die volgens Hattie krachtig zijn: leerdoelen, formatief handelen, feedback, directe instructie, noem het maar op. Dit artikel is geen verwerping van deze strategieën. Op andere manieren valt even goed te onderbouwen dat dit nuttig is (voor wat je er mee wilt bereiken). Mijn punt is dat je de ranglijst van Hattie niet als onderbouwing kunt inzetten.

 

Deze man tekent akkoorden. Namens jou (en dat wist je waarschijnlijk niet).

Deze man tekent akkoorden. Namens jou (en dat wist je waarschijnlijk niet).

Het succes van PO-in-Actie schetste het tekort van de traditionele vakbonden. De AOb en CNV Onderwijs waren het contact met de gewone docent kwijt. Polderinstituten, die slappe compromissen met de overheid sloten waar niemand iets aan had. 

De Onderwijscoöperatie, zelfde verhaal. Bestuurd door diezelfde vakbonden. AOb en CNV Onderwijs. Ze maakten er een potje van.

Als de AOb de fout in gaat krijgen ze als eerste kritiek. Omdat iedereen er nog enige hoop voor koestert. Voor CNV Onderwijs kennelijk niet. Wie na dit alles daar nog steeds lid van is zal überhaupt geen liefde voor het onderwijs hebben, en nooit krijgen ook.

Maar over één vakbond hoor je nooit iets, de federatie van onderwijsvakorganisaties. Zij zijn ook zo’nvakbond. En zij waren ook verantwoordelijk voor het fiasco Onderwijscoöperatie. Maar ze blijven stelselmatig onder de radar. Toen ik begon dit te schrijven vanochtend hadden ze op Twitter 216 volgers. 216! Op het oog zeg je: die doen er niet toe. 

Maar zij tekenden afgelopen vrijdag ook ‘het’ akkoord. En hoogstwaarschijnlijk deed Jilles Veenstra, als voorzitter van FVOV, dat ook namens jou. 

Ingewikkeld

In de media lees je nooit iets over de Fvov. In de vier jaar dat ik columnist bij Trouw was ben ik over het onderwerp nooit begonnen: te ingewikkeld om binnen 400–en–nog–wat woorden fatsoenlijk uit te leggen. 

Onderwijsbond Fvov telt volgens hun site 34.000 leden. Maar waar komen al die leden vandaan? Van vakorganisaties. Als u bijv. Nederlands geeft, of wiskunde, of biologie, of natuurkunde, of scheikunde, of gym, of muziek, of iets met kunst en cultuur, en lid bent van de vakvereniging dan bent u ook –stilzwijgend– lid van de Fvov. En om het nog ingewikkelder te maken behartigt Fvov ook de belangen van de leden van begeleiders in het onderwijs, ‘personeel in de beroepskolom’, logopodisten en foniatristen, en de mini-vakbond voor OP en OOP NVOP.

Dit stilzwijgend lidmaatschap wordt nergens groot geadverteerd. Als een wiskundedocent zich bijvoorbeeld inschrijft voor de NVVW staat er bij het inschrijfformulier nergens dat hij of zij ook meteen lid wordt van de Fvov. Het is geen keuze die je kunt aanvinken of afvinken. Pas als je de website wat nader bestudeert kom je er ook achter dat de NVVW sinds 2007 aangesloten is bij de Fvov, en alle leden dus ook.

A screenshot of a cell phone

Description automatically generated

Dit heeft natuurlijk alles met geld te maken. Ten eerste levert dit de leden iets op. De contributie van je lidmaatschap aan een vakvereniging krijg je niet terug van de belasting. Maar de vakbondscontributie wél. Dat levert toch een besparing van minimaal 35% op. 

Daarnaast ontvangen vakbonden ook geld, bijvoorbeeld voor het tekenen van akkoorden, die dan – naar verluidt – dan weer deels terugvloeien naar de vereniging. Dubbel winst. 

Probleem #1 Welk belang vertegenwoordigt de Fvov nu eigenlijk?

Deze getrapte vertegenwoordiging vind ik om heel veel redenen problematisch.

 In het boek De Sluipende Crisis dat in 2018 uitkwam (hier gratis te downloaden) stond ik stil het veelvuldige falen van onderwijsbeleid. Een van de punten was de grote kloof tussen politiek en het bestuurlijk middenveld aan de ene kant, en scholen aan de andere kant. Convenanten, akkoorden en compromissen zijn de logica aan de ene kant, maar inhoudelijke (wetenschappelijke) kennis en wat er daadwerkelijk in scholen verandert kent daarin geen plek. Sterker nog: regelmatig wordt er selectief geshopt in data om het succes van de gesloten akkoorden aan te tonen. De politiek kan zich dan op de borst kloppen over bereikte successen, maar in de praktijk is er dan nagenoeg niks veranderd.

Wat PO-in-Actie sterk liet zien is dat in al dit gepolder de praktijk uit het oog verloren was. Aan al die onderhandelingstafels was niemand in de twintig jaar daarvoor op het idee gekomen om eens te onderzoek of de loonkloof tussen PO en VO eigenlijk wel gerechtvaardigd was (en dat bleek dus ook niet zo te zijn). En aan de leden werd zelden iets voorgelegd. Als de heren van PO-in-Actie spraken dan wist je dat ze spraken namens de 44.000 leden van de Facebookgroep, en bij traditionele vakbonden moet je maar gissen.

Dat probleem speelt ook bij Fvov. Ze doen vrijwel nooit aan ledenraadplegingen, ook niet in het post-PO-in-Actie-tijdperk. 12 juni 2019 vroegen ze via de mail naar het pensioenakkoord, en in augustus 2018 naar de nieuw afgesloten cao VO. Allemaal achteraf dus.

Dit vind ik dus probleem nummer 1. De overheid kan zeggen onderhandeld te hebben met ‘het veld’, terwijl veel leden van de Fvov dus helemaal niet weten dat er in hun naam onderhandeld is. Foute boel.

Probleem #2 Groupthink

Waarom zijn die ledenraadplegingen nou zo belangrijk? 

Ooit sprak ik een insider en die schetste het als volgt. Er is een kleine club mensen die elkaar iedere dag aan allerlei verschillende onderhandelingstafels tegenkomen. Als je bij de ene tafel boos wegloopt, dan zie je elkaar bij een volgende tafel in de middag weer.

Group Think, oftewel groepsdenken, ligt dan op de loer.

‘Groepsdenken is een denkwijze die plaatsvindt bij mensen die nauw met elkaar samenwerken, daarbij een hechte groep vormen en die zoveel waarde hechten aan een unanieme mening, dat deze unanimiteit belangrijker wordt geacht dan een kritische rationele instelling.[5]De groepsleden leggen meer nadruk op het ‘wij’-gevoel en zullen daardoor minder gemakkelijk kritiek uiten of informatie die de groepsvisie tegenspreekt, van zowel binnen als van buiten de groep, toelaten.[6]Er ontstaat in het meest extreme geval een soort geloofsgenootschap die overtuigd is van zijn eigen gelijk, ongeacht de feiten.[7]’ (Bron, Wikipedia)

In De Sluipende Crisis schetste ik dit aan de hand van het lerarenregister. In 2012 was er overeenstemming tussen alle betrokken partijen, en voor kritische, rationele kritiek was er geen plek – zelfs niet als die bijv. via de Raad van State gegeven werd. 

Een recenter voorbeeld zie je bij Curriculum.nu. Wat vrijwel niemand weet is dat curriculum.nu een coördinatiegroep heeft, bestaande uit – juist – allerlei polderpartijen zoals de vakbonden en de sectorraden. Zij hebben ooit het lumineuze idee opgedaan dat Curriculum.nu moet leiden tot 70% voorschrift en 30% vrije ruimte voor de scholen. Alle voorstellen die nu gepubliceerd moeten dus invulling geven aan de 70% die de overheid aan curriculum mag voorschrijven.

Er zijn allemaal ernstige bedenkingen te verzinnen bij dit idee. Vanuit juridisch oogpunt is onduidelijk hoe dit zich verhoudt tot de vrijheid van onderwijs, kerndoelen en eindtermen. Maar ook, waar komt deze verdeling vandaan? Waarom niet 50-50, of 71,5 – 28,5%? Maar ja, iedereen die hier kritiek op heeft, die begrijpt het gewoon niet goed. Maar dit uitleggen of onderbouwen kan men het ook niet.

En de grote vraag in het kader van dit stuk is dan ook, aangezien Fvov deelneemt in deze regiegroep: wat betekent dit voor de vakken. Wat betekent dit voor mijn vak wiskunde? Waarom was de rol van de vakorganisaties überhaupt zo beperkt in de grote curriculumherziening? En waarom is Fvov daar dan niet demonstratief voor gaan liggen? 

Ledenraadplegingen zijn juist goed om dit type groepsdenken, zo niet geloof, te doorbreken. De AOb zette wel zo’n ledenraadpleging uit naar aanleiding van de eindproducten van Curriculum.nu. Fvov stond –- als lid van de coördinatiegroep – superonafhankelijk direct te juichen, terwijl je als vertegenwoordiger van een aantal vakorganisaties toch iets anders mag verwachten?

Probleem #3 Twee handtekeningen onder een convenant zijn genoeg.

Een convenant is rechtsgeldig als twee vakbonden tekenen. CNV Onderwijs, als klassiek polderinstituut, tekent altijd. Zij zien zichzelf ook niet als vakbond, maar meer als een vakvereniging. Fvov tekent niet zo consequent, maar regelmatig toch ook. Liesbeth Verheggen, tekende daarom afgelopen vrijdag het akkoord,  buiten haar mandaat om, uit angst om uitgesloten te worden van de onderhandelingstafel. Dat kostte haar de kop.

Maar Fvov tekende dus ook. Pas gisteravond stuurden ze alsnog een ledenraadpleging. Maar wat mij betreft veels te laat.

Het voelt bijna gek om hier nogmaals op te wijzen, maar het lerarentekort hangt als een zwaard van Damocles heel Nederland over het hoofd. Het drama van wat iedereen te wachten staat voltrekt zich nu al in de grote steden. Incidentele middelen (zoals afgelopen vrijdag afgesproken) zijn niet genoeg om het tij te keren. Sterker nog: iedere incidentele investering wordt gebruikt om het onderwijs steeds meer neer te zetten als een rupsje-nooit-genoeg. Dus je ondergraaft er ook nog eens al die hardwerkende leerkrachten mee die je zou moeten vertegenwoordigen.

Structurele investeringen zijn nodig, en daarom moet je als vakbond met het mes op tafel. Niet alleen bij AOb, maar ook bij Fvov. Ze zouden moeten werken aan de stakings- en actiebereidheid om dit kabinet nog met meerdaagse stakingen om de oren te kunnen slaan. 

Maar ik zie daar dus niks van.

Dus wat nu?

  1. Als je – onbewust – lid bent van Fvov: Je hebt gisteravond een mail ontvangen over om al dan niet in te stemmen met een staking, en al dan niet met dit akkoord. Vis het uit de spambox, en vul het naar eer en geweten in, zou ik zeggen.
  2. Als je je ongemakkelijk voelt bij je stilzwijgende lidmaatschap dan kun je dit aangeven bij de vakvereniging. Zij kunnen dit dan ontkoppelen. Het kost je iets meer.
  3. Het zou goed zijn als Fvov zich eens gaat beraden over hun koers met het oog op het lerarentekort. 

N-term (deel 2): Compensatie via de N-term.

Vorige week schreef ik een column in Trouw over de examenperikelen rond het eindexamen Frans, en over de rechtszaak die is aangespannen door een scholiere. Kort gezegd: in het correctiemodel zat een fout, waardoor docenten een goed antwoord fout moesten rekenen. Het College voor Toetsen en Examens (CvTE) wilde de fout in het voorschrift echter niet corrigeren, maar deed dat uiteindelijk na veel maatschappelijke ophef pas op de dag dat de normering werd vrijgegeven. Echter, de gedupeerde leerlingen kregen van het CvTE niet 0,2 punten erbij (wat de vraag waard was) maar 0,1 punt. Precies de 0,1 punt-verschil die deze scholiere nodig had om te slagen. Zij spande een kortgeding aan, en kreeg geen gelijk, omdat het CvTE haar eigen procedure goed had gevolgd. Dit vonnis werd begin dit jaar vernietigd door de Hoge Raad.

Het bizarre aan dit verhaal is dat wanneer het CvTE gewoon de fout had toegegeven en het correctiemodel had aangepast deze vrouw 0,2 punt erbij had gekregen en geslaagd zou zijn. Nu kreeg ze slechts 0,1 punt en niet 0,2 punten omdat, zo stelden ze in de rechtszaak, er anders teveel kinderen zouden slagen.

Om de regeling die ze hiervoor gebruikten juridisch beter dicht te timmeren heeft het CvTE vorige week, met instemming van de minister haar rekenmethode voor dit soort problemen gepubliceerd.

Mijn eerste reactie: OMG.

Ik sluit me volledig aan bij de conclusie van advocaat Wilco Brussee dat er van deze formule helemaal niets klopt, en ik zal voor de leken onder u eerst duidelijk proberen te maken wat er niet deugt aan deze formule, en wat de consequenties hiervan zijn.

De formule
In het geval er een onvolkomenheid in het correctiemodel wordt geconstateerd, maar deze niet tijdig gepubliceerd wordt, kan het CvTE het cijfer besluiten op te hogen via de N-term, om leerlingen zo te compenseren. De daarvoor gehanteerde formule is: 9*P*M/L, waarbij M het maximale te halen punten is voor de vraag, L het maximale aantal punten voor het examen en P het gemiddelde percentage punten dat door alle leerlingen is gehaald op die vraag. “Een P-waarde van 0,63 betekent dat de kandidaten gemiddeld 63% van M behaald hebben.”

Om duidelijk te maken waarom dit rekenmiddel bizar is, neem ik u mee in een volstrekt theoretische vraag.

‘Jan krijgt 50 cent wisselgeld. Welk antwoord geeft waarschijnlijk aan welke munten hij terugkreeg.’
A: een munt van 50 cent.
B: 5 muntjes van 10 cent.

Beide antwoorden zijn goed, maar in het correctiemodel staat dat het antwoord B moet zijn. Navraag bij het CvTE leert dat antwoord A echt fout gerekend moet worden. (Het klinkt bizar, maar zo gaat dat dus echt!)

We gaan eens kijken naar een aantal fictieve situaties. De vraag is in dit geval twee punten waard, op een totale examenlengte van 100 punten.

Scenario 1:
Alle leerlingen die het examen maakten hebben het ‘verkeerde’ antwoord gekozen, namelijk A. De P-waarde is nu 0,00. In de rekenmethode krijgen al deze leerlingen daarom (9*0*2/100=)0 punten compensatie, oftewel helemaal geen compensatie.
Consequentie: leerlingen die het antwoord A hadden, dat inhoudelijk wel goed was, krijgen 0 punten erbij voor de vraag. Leerlingen met antwoord B zouden 0,2 punten krijgen ( maar die waren er niet).

Scenario 2:
De helft van de leerlingen heeft het goede antwoord gekozen. De P-waarde is nu 0,5. Oftewel, alle leerlingen krijgen (9*0,5*2/100=)0,09 punt, dus 0,1 punt compensatie.
Consequentie: Degenen die A hadden krijgen 0,1 punt erbij. Degenen die B hadden, en dus van hun docent punten hebben gekregen voor de vraag, omdat dat mocht, krijgen nu dus 0,3 punt voor de vraag.

Scenario 3:
Alle leerlingen hadden antwoord B. De P-waarde is nu 100% dus 1. Alle leerlingen krijgen nu (9*1*2/100)=0,18 dus 0,2 punt compensatie, oftewel het volle pond.
Consequentie: Ze hebben al punten gehad voor de vraag, want iedereen had B, maar ze krijgen toch compensatie. Uiteindelijk levert deze vraag ze daarom 0,4 punten op.

Intermezzo:
Wat er hier gebeurt is dus heel vreemd. Leerlingen die benadeeld worden door het onjuiste correctievoorschrift worden minder gecompenseerd dan degenen die per ongeluk wel goed gokten wat er in het correctievoorschrift zou staan. Maar het wordt nog erger!

Realistisch scenario 4 (variant op 2)
De helft van de leerlingen heeft het ‘goede’ antwoord gekozen. Echter, leraren nemen geen genoegen met het onzinnige voorschrift van het College, zij gaan toch geen goede antwoorden fout rekenen! Dat is de helft van de docenten, met theoretisch de helft van de leerlingen. Zij besluiten antwoord A toch gewoon goed te rekenen.
De P-waarde is nu 0,75. Compensatie is nu (9*0,75*2/100)=0,14 punt dus 0,1 punt.
Nu wordt het ingewikkelder. Er zijn nu leerlingen die A hadden waarbij de docent het wel had goed gerekend, en leerlingen waarvan A niet goed is gerekend.

 

Score voor de vraag                      A        B
Docent rekende A wel goed          0,3     0,3
Docent rekende A niet goed          0,1     0,3

 

Consequentie: Leerlingen met hetzelfde antwoord (A), krijgt vanwege een andere opvatting van de corrector 0,2 punten lager!! (Terwijl het antwoord dus gewoon goed is).

Conclusies:

Dat correctiemodellen niet worden aangepast, maar dat er ‘gecompenseerd’ wordt in de normering is kennelijk al een lang gebezigde praktijk. Ongetwijfeld zal het College hameren op de correcte wijze waarop ze de procedures hebben gevolgd. Maar de rest van de wereld zal toch echt van mening zijn dat deze methodiek moreel volstrekt ongeloofwaardig is.

En deze verwerpelijke methodiek wordt dus vaak toegepast. Sterker nog: telkens als een fout in het correctievoorschrift niet is aangepast wordt het op deze wijze gecompenseerd.

Een aantal vragen doemen direct in mij op:

1) Waarom niet gewoon het correctievoorschrift aanpassen? Wat kan in vredesnaam het probleem zijn?
2) Waarom keurt de minister een volstrekt ondeugdelijke compensatieregeling goed?

3) Hoe juridisch houdbaar is deze willekeur eigenlijk?
4) Als er al dit soort problemen in de compensatieregeling zitten, hoe betrouwbaar is dan de pretest/posttest- of ankervraag-methodiek (die ook niet openbaar is) dan eigenlijk?

Ik weet het, het CvTE is niet dol op inhoudelijk reageren op columns en blogartikelen, en ze doen het daarom zelden. Toch stel ik het op prijs, als u dit stuk deelt op sociale media zal het ongetwijfeld helpen..

Column: Het recht om het te verprutsen

Ongeveer een jaar geleden schreef ik een column in Trouw over de onwenselijke ontwikkeling rondom Magister c.s. Vanwege de hernieuwde aandacht voor dit thema, hier een re-post.

Mijn eerste baan was bij een internet-start-up. Het waren de cowboyjaren, net voor de bubbel klapte. Maar ik kreeg RSI en belandde in een van de weinige beroepen waarvoor ik geen computer hoefde te bedienen: ik moest een krijtje kunnen vasthouden, proefwerken copy-pasten met een echte schaar en lijm, en eens in de drie maanden de computer opstarten om cijfertjes in te kloppen. Op een diskette. Werkmail hadden we niet. We kregen wel veel printjes in onze postvakken. Stapels en stapels aan papier. Ik vond het maar achterhaald.
Leerlingen volgen was toen ingewikkeld. Als een ouder wilde weten hoe zijn of haar kind ervoor stond, moest ik met een schriftje langs mijn collega’s tijdens de koffiepauze, en dan weer terugbellen. Het duurde een paar jaar voordat daar een digitaal leerlingvolgsysteem voor kwam. Als voormalig ICT’er stond ik natuurlijk te springen. Iedereen, onder wie ouders en leerlingen, had altijd en meteen een overzicht van cijfers, huiswerk, eventuele absenties en roosterwijzigingen. Het schoolse werd transparant. Maar onze toenmalige rector had er bedenkingen bij. Kinderen hebben recht op privacy, vond hij; het was maar schadelijk voor de ontwikkeling. Ouderwets, dacht ik toen, rijp voor zijn pensioen; maak baan voor de digitale revolutie!
En de revolutie kwam er. Scholen zijn inmiddels volledig gedigitaliseerd. Docenten voeren hun cijfers direct na het nakijken in. Ouders, die vaak meerdere keren per dag op sites als Magister kijken, zien het resultaat al staan voordat zoon- of dochterlief überhaupt zelf weet wat hij of zij voor een toets gehaald heeft.
Is dat nou goed? Eerder vroeg ik me in deze column al eens af waarom huiswerk nog steeds zo slecht wordt gemaakt, terwijl de agenda van de leerlingen nu volledig online is. Makkelijker kunnen we het niet maken.
Maar makkelijk, en transparant, is wellicht niet in het belang van de opvoeding. Vorige week sprak koning Willem-Alexander de wijze woorden dat pubers zichzelf moeten leren kennen. Dat drukt hij zijn dochter ook op het hart: leer je eigen grenzen kennen, ga eroverheen, maak fouten. Als vader wil hij niet alles van haar weten.
De ruimte om ongezien fouten te maken is er in het onderwijs niet meer. Dat heeft zich enthousiast doorgedigitaliseerd tot een panopticon: er is permanent toezicht op de ontwikkeling van kinderen, en kinderen zijn zich er permanent van bewust dat er volwassenen meekijken, of dat nu ouders, leraren, mentoren of schoolleiders zijn.
Misschien moeten we gewoon weer terug naar vier rapporten per jaar met ondoorzichtigheid, en daarmee alle ruimte om te verprutsen daartussenin, als fundamenteel recht voor ieder kind. Had mijn rector toch gelijk.

De Onderwijscoöperatie, en hoe nu verder…

Afgelopen anderhalve week was er commotie en aandacht voor de afwijzing van Jan van de Ven als beoogd voorzitter het bestuur van de Onderwijscoöperatie. Voordat bekend werd dat het bij deze sollicitatie om Van de Ven ging wijdde ik al een twitter-draadje eraan, met de conclusie dat het bestuur – dat bestaat uit de vakbondsleiders – beter kan opstappen.

 

Toen bleek dat het om populaire ‘meester Jan’ ging besteedde het Algemeen Dagblad er aandacht aan, het bestuur voelde zich genoodzaakt om te reageren middels een persbericht. Zo zou hij onder andere teveel salaris gevraagd hebben. Deze week reageerde Van de Ven zelf uitgebreid op het bestuur. En die reactie liegt er niet om. Kort samengevat: Tijdens het sollicatieproces stripte het bestuur de voorzittersfunctie tot dat van een lintjesknipper, en in het voorzittersvacuüm deelden de overige bestuursleden zichzelf meer bevoegdheden toe. Bovendien zag het bestuur een andere koers voor ogen dan Van de Ven: zij wilden er geen echte beroepsvereniging van maken, met echte zeggenschap, waar de ‘gecastreerde’ voorzittersfunctie symbool voor staat.

Dat laatste is een hele eigen kwestie zoals ik straks uiteen zal zetten, maar laat ik vooropstellen dat ik deze gang van zaken – en dat lijkt mij inclusief de poging tot karaktermoord – een enorme vorm van schofterigheid in zich hebben, een politiek van ‘ik kan het, dus ik doe het’. En ik zie het vooral als uiting van een totaal gebrek aan bestuurlijk integriteit. Het lijkt me dan ook heel lastig om vanaf nu als vakbond besturen de maat te nemen over respectvolle omgang met personeel, en over de correctheid van sollicatieprocedures. Maar goed, wat de vakbonden daar als organisatie mee moeten, daar ga ik niet over. Maar over wat, in theorie, ook ‘mijn’ beroepsvereniging van leraren zou moeten zijn ga ik wel. Vind ik.

Een kleine geschiedenis

Maar in de praktijk is dat niet zo. De Onderwijscoöperatie is namelijk een beroepsvereniging voor leraren waar leraren geen inhoudelijke of bestuurlijke zeggenschap hebben, maar het ministerie van OCW en de vakbonden wel. Dat is op papier niet alleen een slecht idee, maar in de praktijk ook. Dat heeft met beroepseer helemaal niets te maken. Het is gewoon een controle-instrument van de overheid onder gedoging van de vakbond. Het valt te beargumenteren dat zo’n nepberoepsvereniging de professionaliteit van leraren zelfs eerder kwaad doet dan goed.

Daarom pleitten we in Het Alternatief (2013) voor een beroepsvereniging van leraren waarin ook zeggenschap van leraren belegd is, daarom deden we in ons beleidsperspectief ‘Samen Leren’  (2014) met de PvdA en VVD een oproep om de beroepsvereniging van leraren te laten zijn, daarom adviseerde de Onderwijsraad tot tweemaal toe (2015) en (2017) om de zeggenschap van leraren te borgen, en daarom staat in het regeerakkoord (oktober 2017) dat de beroepsorganisatie ook echt ‘van, voor, door leraren’ moet worden. Daarom dus, omdat leraren en de samenleving aan een nepberoepsorganisatie niets hebben. Omdat het een een achterlijk idee is om een beroepsvereniging te hebben waar leraren niets over te zeggen hebben. En domme ideeën vinden nooit draagvlak.

Sinds 2013 hebben we op al deze vriendelijke pleidooien vooral beloftes gehoord over de zeggenschap van leraren. Naar aanleiding van het Alternatief kregen we van de AOb dat ze er over zouden nadenken. Na Samen Leren vond CNVO het de moeite van het onderzoeken waard of er ook leraren in het bestuur konden komen. Uiteindelijk hielden de vakbonden ons voor dat het allemaal goed zou komen als de wet door het parlement was. Ook de staatssecretaris beloofde voortdurende dat de zeggenschap van leraren geborgd zou worden. Karin Straus (VVD) trok zelfs een sterke motie hierover in omdat de staatssecretaris zoveel goede intenties uitsprak. Motie Maar het eindresultaat van al deze goede bedoelingen is dat in oktober 2017 de LerarenAdviesRaad (leraren)een zeer capabele kandidaat (leraar) voordraagt, en dat die door het bestuur (geen leraren) wordt afgewezen. Dat het bestuur (geen leraren) zichzelf meer bevoegdheden toedeelt. Dat de Deelnemersvergadering (leraren) ten alle tijden overruled kan worden door het bestuur (geen leraren). Op kantoor lopen regelmatig ambtenaren (geen leraren) van OCW rond, die ook nog eens aanschuiven aan de bestuurstafel (geen leraren). Het zeggenschap van leraren over hun eigen beroep is nergens, maar dan ook nergens, geactualiseerd.

Kortom: ik wil OCW en de vakbonden van harte feliciteren. Jullie plan om alle macht over het leraarschap naar jullie toe te trekken middels de Onderwijscoöperatie is na vier jaar geslaagd. Knap hoor. Jullie zijn vast hartstikke trots op het resultaat. Alle beleidsdoelen zijn gerealiseerd. Schouderklopje voor jezelf.

De rekening

Maar laat me even het volgende schetsen. De afgelopen jaren hebben jullie allerlei progressieve, enthousiaste leraren aan de Onderwijscoöperatie weten te binden, als ambassadeur, als Leraar van het Jaar, of in allerlei andere functies. Zij zijn diep teleurgesteld over deze hele gang van zaken. Ambassadeurs stappen massaal op, Arjan van der Meij legde met pijn in zijn hart zijn juryvoorzitterschap bij het LOF neer. Dat kweekt cynisme.

Dit kweekt cynisme juist onder de groep leraren die je het hardste nodig hebt. Al die valse beloftes maken jullie als bestuurders onbetrouwbaar. Waarom zou ik als leraar nog geloven in een goede afloop?

Dat is, om kort samen te vatten, de reden waarom ik vind dat het hele bestuur van de Onderwijscoöperatie moet opstappen. Niet alleen vanwege het debacle rondom Van de Ven – hoewel dat al reden genoeg is ­– maar ook omdat jullie er als bestuur niet in zijn geslaagd om de beroepsorganisatie ook van leraren te maken. Als het onkunde is, dan is het een reden om op te stappen, en als het onwil is, des te meer! Een beroepsorganisatie, en de leraren die het betreft, maar ook de medewerkers van het bureau, hebben recht op een bestuur dat een visie heeft en stappen zet om een beroepsorganisatie verder door te ontwikkelen. Een bestuur dat dat niet heeft en doet is volstrekt illegitiem.

En nu?

Er is natuurlijk ook een ander scenario denkbaar. Een scenario waarin het bestuur bewijst dat het wel bereid is om de Onderwijscoöperatie verder te ontwikkelen tot een echte beroepsgroep. Met een tijdspad waarin duidelijk wordt gemaakt wat wanneer gebeurt, en dat het bestuur zijn beloftes nakomt. Om vertrouwen op te bouwen. Dat zou goed zijn. Ik heb daarvoor heel specifieke wijzigingen in gedachten. En hoewel ik niet beweer te spreken namens alle leraren, weet ik zeker dat een groot deel zich hierachter kan scharen.

  • Terugtreden uit het bestuur of met een minderheidsbelang genoegen nemen. Zoals al beschreven heb ik er weinig vertrouwen in, en ik twijfel aan jullie integriteit, en ik ben niet de enige. Waar ik mee zou kunnen leven is dat het bestuur wordt aangevuld met echte leraren, en dat die leraren meer te zeggen hebben dan jullie. Dat maakt jullie rol eerder adviserend dan beslissend. Zoals het hoort. En daarbij hoort ook leraar als volwaardig voorzitter met een volwaardige beloning (gezien het belang van het werk en de capaciteiten die daarvoor nodig zijn).
  • Onafhankelijke financiering door leraren zelf. OCW vindt het moeilijk om gepaste afstand te houden tot de beroepsorganisatie. En dat wordt extra bemoeilijkt omdat OCW alles financiert. Maar dat rijksambtenaren op kantoor rondlopen, en zelfs aanschuiven bij bestuursvergadering, dat is natuurlijk killing. Daar had je als bestuur stevig moeten ingrijpen, maar je hebt het laten gebeuren. Maar het hoeft allemaal niet: Door docenten jaarlijks een contributie te laten betalen aan de beroepsvereniging kan de beroepsorganisatie ook echt van leraren worden. Zonder dat er getwijfeld hoeft te worden over de legitimiteit van de beroepsorganisatie. Dat hoeft leraren geen cent extra te kosten. Het bedrag dat nu via OCW naar de OC gaat kan direct naar het salaris van leraren gaan, die daarvan weer contributie kunnen betalen. Een contributie betekent trouwens ook lidmaatschap.
  • Regel de zeggenschap van leraren over inhoud en processen afdoende in de statuten en in de werkprocessen zelf. En ja, dat gaat dan ten koste van de zeggenschap die jullie als lidorganisaties hebben. Dat is hier ook de bittere pil die je moet slikken.

Het zijn redelijke wijzigingen van zaken die in feite al lang geregeld hadden moeten worden. En als het nu niet snel gebeurt dan is de Onderwijscoöperatie in letter en geest, wat mij betreft, dood.

Digitale examens – deel 1: de N-term

Digitale examens, aflevering 1: n-term

De afgelopen jaren heb ik veel kritiek uitgeoefend op de digitale examens die afgenomen worden op basisberoeps- en kaderberoepsgerichte leerweg, bijvoorbeeld vanuit mijn column in Trouw en de digitale pagina’s van de Correspondent.

Wat waren indertijd mijn voornaamste bezwaren?

  • Geen tweede correctie. Alleen de eigen docent kijkt het werk na; alleen vreemde ‘afwijkingen’ worden bij de najaarscorrectie door een commissie nagelopen. Leerlingen kunnen hierdoor bevoordeeld of benadeeld worden.
  • Geen openbaarheid. De toetsen worden niet openbaar gemaakt. Aangezien er al veel discussie is over de toetsen die wel gewoon openbaar gemaakt worden (zoals dit jaar Frans, economie en Nederlands), lijkt me dat kwalijk. Een vorm van democratische controle is nodig om de examenmakers scherp te houden.
  • Beperkte oefenmogelijkheid. Als leerlingen een papieren examen moet maken dan kunnen ze het internet leegtrekken aan oefenexamens, en het lijkt bovendien op wat leerlingen in de les doen. Maar een digitaal examen vereist wat knoppenkennis: hoe teken je punten op het beeldscherm en hoe trek je een kromme lijn? Dat vereist wat oefening, maar dat was in de beschermde softwareomgeving moeilijk te organiseren.
  • Vanwege de flexibele inplanning van het examen, zijn er diverse versies van een examen per jaar. Zij maken dus verschillende versies, soms ook binnen een klas waarbij ze qua inhoud erg kunnen verschillen. Dat wordt later wel met een N-term gecorrigeerd, maar de vraag is of dat zo maar kan, en of dat wel eerlijk is.
  • Om de normering te bepalen wordt er niet gebruik gemaakt van de reguliere pre-test/post-test methode – ik kom er dadelijk op terug–, maar van ankervragen. Dat zijn vragen die in examens van latere jaren weer gebruikt kunnen worden om zo het niveau constant te houden. Het is gemakkelijk voor leraren om screenshots te maken van alle opgaven, waardoor hij later met nieuwe examenkandidaten gericht kan oefenen, in de hoop dat een aantal van deze vragen terugkomt.

Mijn kritiek leidde tot Kamervragen door Tanja Jadnanansing, en die werden nogal snibbig beantwoord door OCW. Het is ze vergeven, want achter de schermen gebeurde er namelijk een heleboel.

Een aantal punten is inmiddels gecorrigeerd.

  • Experiment met tweede correctie: Bij de oude software waar de examens op draaiden was tweede correctie niet mogelijk. In de nieuwe software kan dit wel, en hier wordt nu een experiment mee gedraaid.
  • Gedeeltelijke openbaarheid: Het CvTE heeft de Kamer een aantal opties aangeboden voor openbaarheid. De staatssecretaris koos uiteindelijk de meest voor de hand liggende variant, waarbij 2/3 van het examen na de herkansingen wordt vrijgegeven, de ankeropgaven blijven geheim tot ze nogmaals gebruikt zijn, dan worden die ook openbaar.
  • Voldoende oefenmogelijkheden: Leerlingen kunnen binnen de nieuwe softwareomgeving online oefenen, dat kunnen ze nu dus ook thuis. Voor wiskunde zijn er bijvoorbeeld twee-examens en een knoppencursus te vinden op oefenen.facet.onl.

Laten we hier eerst even bij stil staan.

Ik vind het goed om te zien dat het CvTE de kritiek ter harte neemt, en belangrijke verbeterstappen heeft ondernomen. Bovenstaande verbeteringen maken het hele ‘pakket’ van digitale examinering natuurlijk al veel acceptabeler.

We komen zo ook dichtbij een punt dat ik digitale examens wellicht begin te preferen boven papieren examens. Maar er resteert nog steeds een fundamentele kwestie, die nog niet is opgelost. Daar wil ik graag in een vervolgblog de aandacht op vestigen. In deze blog wil ik daarvoor een opmaat geven.

 

Gelijk diploma-niveau vereist gelijk examenniveau

Eerst een stukje theorie.

We willen graag dat een havo-diploma dat afgegeven is in 2016 even veel waard is als een diploma dat is afgegeven in 2017. Daarom zou een denkbeeldige leerling die een 6,5 haalt voor Nederlands in 2016, met hetzelfde niveau ook een 6,5 moeten halen in 2017.

Iedereen snapt dat dat ingewikkeld is. Je kan niet ieder jaar dezelfde teksten voorleggen, en je kan ook niet telkens dezelfde vragen stellen. Soms spreken onderwerpen kandidaten wel aan, soms zijn de woorden wel of niet begrijpelijker. De opbouw van een examen kan ook voor een niveauverschil zorgen tussen jaren, evenals de lengte van het examen. Er zijn veel factoren die op het ‘niveau’ van een examen inwerken en dat moet uiteraard gecorrigeerd worden.

Vroeger konden examens alleen opgewaardeerd worden. Als een examen te moeilijk werd bevonden dan kon het CvTE bonuspunten toekennen.

Inmiddels zijn ze overgestapt naar de N-term. Daarmee kunnen er ook punten afgehaald worden, als een examen te makkelijk was.

 

Bij een N-term van 1 (genoteerd als N=1) hebben leerlingen de helft van de punten nodig om een 5,5 te halen. De strengste norm is N=0. Dan hebben leerlingen iets meer dan 60% van de punten nodig voor een 5,5. Hoe hoger de N-term hoe minder punten leerlingen nodig hebben voor een 5,5. Hoger dan N=2 is heel ongebruikelijk.

Zie ook de grafiek hieronder.

N-term-2

Maar hoe wordt die N-term vastgesteld? Dat heeft natuurlijk iets te maken met de moeilijkheid van een examen. Sommige mensen, vooral leerlingen, denken dat klagen bij het LAKS helpt om de normering te beïnvloeden, maar dat ligt iets ingewikkelder.

Het CvTE wil leerlingen niet helpen, of kapotmaken, die willen gewoon – zoals ik al zei – elk jaar een examen van eenzelfde niveau. Ze kijken natuurlijk met een schuin oog naar alle klachten, maar uiteindelijk zien ze in de statistieken die docenten aanleveren via de WOLF-rapportage hoe de leerlingen het gedaan hebben. Dat interpreteren doen ze overigens niet zelf maar dat doet stichting Cito. Deze technische bepaling via de statistiek is de echte basis van de N-term. Op basis van allerlei signalen kan de vaststellingcommissie hier wel weer van afwijken.

Screenshot 2017-06-13 23.38.33

Zo heeft het CvTE op basis van de klachten dit jaar de N-term voor de vwo-examens Nederlands en Frans iets opgehoogd. Zo werd de N-term van Frans verhoogd naar een 0,5. Vermoedelijk was de technische vaststelling voor dit vak dus iets lager.

 

N-term zegt niks over feitelijke kwaliteit

De N-term heeft dus maar een functie: het gelijk trekken van het niveau over de jaren heen. Wat we er niet uit kunnen aflezen – en dit is een veelgebezigd misverstand – is of een examen goed was of niet. Daar is weer een andere methodiek voor, waar ik misschien later op terug kom. Het is dus niet zo dat N=1 de norm is. Maar door in de loop der jaren alle N-termen naast elkaar te zetten is er wel een beeld te vormen over hoe een examen zich qua moeilijkheidsgraad verhoudt tot eerdere of andere jaren – volgens Cito en CvTE dan.

Jaar 2015 2016 2017
N 0,5 0 0,5

Tabel 1: N-termen VWO Frans.

Bij het examen Frans kunnen we zien dat het examen van dit jaar als moeilijker werd beschouwd dan dat van vorig jaar, en even moeilijk als dat in 2015.

 

Absoluut en relatief normeren

Maar hoe wordt dit nu technisch bepaald?

Dat is een statistisch complex verhaal. Het niveau van de leerlingen kan van jaar tot jaar verschillen, terwijl ook de moeilijkheid van de examens van jaar tot jaar kan verschillen. Als dat niet zo was, was equivaleren niet nodig (zie tabel hieronder). Als de leerlingpopulatie verschilt, maar het examenniveau niet, dan maken ze het uiteraard slechter. Equivalering is dan onwenselijk.

Toetszwaarte verschilt niet Toetszwaarte verschilt wel
Leerlingpopulatie

verschilt niet

Equivalering niet nodig. Relatief normeren:

Gemiddeldes gelijktrekken

Leerlingpopulatie

verschilt wel

Equivalering niet wenselijk. Absoluut normeren

Post-test/pre-test/

Anchor in Package

Tabel 2: Equivaleringsopties.

Hoewel het aannemelijk is dat er verschillen bestaan tussen leerlingpopulaties per niveau per jaar heeft het Cito voor het CvTE becijferd dat het verschil – over het land – genomen marginaal is. Dat verschilt nooit meer dan -0,1 of 0,1 (in termen van de B-term).

Bij relatief normeren wordt er voor de bepaling van de N-term gebruik gemaakt van een referentie-examen: een examen dat door docenten, leerlingen en examenmakers als afgewogen qua inhoud, lengte en moeilijkheidsgraad is bevonden. Wat de leerlingen landelijk haalden voor zo’n examen wordt gebruikt om de N-term technisch te bepalen. Er wordt simpelweg geschoven met de term tot het resultaat van het nieuwe examen gemiddeld even goed uitvalt. Dat noemen we relatief normeren.

Maar hoewel het aannemelijk is dat leerlingpopulaties van jaar tot jaar niet verschillen, hoeft dat natuurlijk niet het geval zijn. Voor een aantal examens wordt er daarom gebruik gemaakt van de pretest/posttest-methode. Ook hier is het referentie-examen van belang. In de pre-test maken examenkandidaten, in de periode voor het examen, een test waarin zowel opdrachten van dit referentie-examen als van het nieuwe examen zitten. Zo kan het niveau van het nieuwe examen vergeleken worden met dat van het referentie-examen. Om dit allemaal statistisch te versterken maakt het CvTE ook gebruik van een post-test. Dit kent dezelfde opzet, maar dan kort na het examen.

Deze laatste methode kent veel nadelen. Ze moeten deze testen door minstens 200 leerlingen gemaakt zijn, die ook nog eens geen enkele weet mogen hebben van het referentie-examen. En dat is lastig aangezien dit referentie-examen een eerder examen is dat gewoon online te vinden is. Moeilijk te organiseren dus, en daarom gebeurt het ook niet bij alle examens.

Daarom – en ik begrijp dat ik een hele omweg heb gemaakt – daarom lijkt het CvTE zijn hoop zo te hebben gevestigd op de digitale examens, want daarmee kan het een veel werkbaardere equivaleringsmethode toepassen, namelijk de anchor in package.

 

Anchor in package

Het principe van anchor in package is eenvoudig. In een digitaal examen zitten een aantal opdrachten die ook in eerdere examens zaten. Dat zijn de ankeropgaven. Door te kijken naar hoe die gemaakt zijn ten opzichte van het vorige jaar kan gekeken worden of de leerlingpopulatie beter of slechter is, en daarmee kan dan ook worden gekeken of de overige opgaven moeilijker of niet moeilijker waren. Het voordeel is dus dat er niet aparte tests afgenomen hoeven te worden, de equivalering zit al in het systeem ingebakken.

Maar het is in deze methodiek dus wel nodig dat de ankeropgaven geheim blijven. Op verzoek van de Tweede Kamer en worden deze ankervragen na een tijdje wel vrijgegeven. Dat is kostbaar, want het ontwikkelen van examenvragen is duur, maar aan de andere kant zijn ankeropgaven, net als referentie-examens beperkt houdbaar bijvoorbeeld omdat de context – ‘het verhaaltje’ – veroudert.

 

Diploma-niveau behouden is een ingewikkelde kwestie

Het CvTE probeert dus op verschillende manieren het niveau van diploma’s gelijk te houden. Een diploma dat in 2017 is afgegeven is net zoveel waard als een diploma uit 2016. Daarvoor maakt het CvTE gebruik van diverse statistische methodes. Die traditionele methodes zijn niet zonder problemen.

  • Bij relatieve normering wordt ervanuit gegaan dat leerlingpopulaties niet verschillen, maar stel nu eens dat het zo wel is. Wanneer je toevallig in een goede lichting zit moet je dan een veel betere prestatie leveren dan wanneer je in een zwakke lichting zit. Niet helemaal eerlijk, en dus niet helemaal uitgesloten.
  • Bij absoluut normeren wordt pretest/posttest-methode gebruikt, maar daarvan is eigenlijk onduidelijk wat de betrouwbaarheid hiervan is.
  • De beste optie voor absoluut normeren, anchor in package, kan alleen in een digitale omgeving en vereist geheimhouding van opdrachten, wat politiek gevoelig ligt.

Net als zoveel andere dingen in het leven is er geen ideale oplossing.

Deze blog is een start van een serie over de digitale examens. Lees binnenkort op deze website deel 2.