Está en la página 1de 19

Lectorale rede

Wouter Schoonman

Assessment voor en door iedereen


Assessment voor en door iedereen Inleiding

Hoewel niet iedereen het woord assessment kent, zijn we er allemaal dage-

Inhoud lijks mee bezig. Assessment is een Angelsaksisch leenwoord met de volgen-
de betekenissen:
1 Inleiding ...................................................................................................
. 3

2 Eigenschappen of gedrag ......................................................................... 4 Assessment


Belasting (aanslag), Schatting (taxatie),
3 Beoordelen en beslissen ........................................................................... 6 Vaststelling (bepaling), Beoordeling (inschatting).

4 Kansrekening en statistiek ....................................................................... 9 Van Dale Lexicografie, 1996, p. 37

5 Alleen of samen ...................................................................................... 18


In ons geval is de laatste betekenis – beoordeling – van toepassing. In die
6 Toetsen en gedragsproeven ................................................................... 21
betekenis wordt het woord ook gebruikt in de bekende ‘assessment centers’.

7 Kenniskring en lectoraat ........................................................................ 24 Hiermee wordt geen plaats – centrum – bedoeld, maar een methode om
geschiktheid van kandidaten voor functies te bepalen (Jansen, 1991; Jansen
8 Oriëntatie en selectie ............................................................................. 26
& De Jongh, 1993; Seegers, 1997). In navolging van het bedrijfsleven waar
9 Conclusie ................................................................................................ 29 assessment erg populair is, volgt nu ook het (hoger) onderwijs. De combina-
tie van acceptatie door kandidaten en managers plus het goede voorspellen-
10 Dankwoord ............................................................................................. 30
de vermogen verklaren de populariteit van assessment.
11 Referenties ............................................................................................. 32

2 3
Eigenschappen of gedrag rij zetten ontstaat het volgende beeld:

st es
t
id
Er zijn twee benaderingen om de geschiktheid van mensen voor een functie te nt he f
tie ite k oe en
t
of beroep te beoordelen. Deze staan bekend als de sign en de sample bena- n lij sp
r
ge ite n
ss
m
lli pa
c oo id
dering (Wernimont & Campbell, 1968; Van der Flier, 1992; zie echter ook te rs be se
In Ca Pe Ar As
Hofstee, 1991, p. 151). In het Nederlands spreken we over eigenschappen
versus gedrag. Eigenschappen zijn relatief stabiele persoonskenmerken die Eigenschap Gedrag
bepaald gedrag (on)waarschijnlijker maken. De introverte persoon zal waar-
schijnlijk niet opeens de gangmaker op een feestje zijn. Door het meten van Het voorspellend vermogen is het hoogste aan de beide uiteinden van het
eigenschappen wordt het latere gedrag voorspeld. De twee belangrijkste continuüm. Intelligentie heeft een hoge voorspellende waarde ten aanzien
typen eigenschappen zijn intelligentie en persoonlijkheid. Er zijn duizenden van arbeidsprestaties. De predictieve validiteit – uitgedrukt als de samen-
instrumenten ontwikkeld om cognitieve capaciteiten en persoonlijkheids- hang tussen de test en de arbeidsprestaties in de vorm van een correlatie –
kenmerken te meten. Op het gebied van cognitieve capaciteiten (intelligen- ligt zo tegen de 0.50 (Schmidt & Hunter, 1998).
tie) gaat het om eigenschappen als verbale intelligentie, abstractievermogen, Persoonlijkheidsvragenlijsten (waarbij op indirecte wijze naar gedrag
numerieke aanleg, enzovoort. Bij persoonlijkheidskenmerken zijn diverse gevraagd wordt) scoren maximaal zo’n 0.20 en een goed uitgevoerd assess-
vragenlijsten in zwang. Elk van deze vragenlijsten is gebaseerd op een ment center gaat weer naar de 0.50 (Arthur et al, 2003).
(eigen) model. In het model wordt beschreven hoeveel en welke eigenschap-
pen er gemeten worden en hoe de onderlinge relaties zijn. Een populair Wat betreft de acceptatie door kandidaten ligt dat anders. Veel mensen hou-
model staat bekend als de Big5: vijf onafhankelijk factoren waarmee ver- den niet van intelligentietests (“wat heeft dat met het werk te maken”) maar
schillen tussen mensen in kaart gebracht kunnen worden (Hofstee et al., vinden een realistische arbeidsproef of asssessmentoefening acceptabel als
1992, 1997; De Raad, 2000, 2002), maar er zijn ook modellen met twee, selectiemethode.
vier, zestien of twee-en-dertig eigenschappen.
Het verschil tussen beide benaderingen is de manier waarop data worden
Assessment is de tweede methode om de geschiktheid van mensen te bepa- verzameld. Bij psychometrische tests (inclusief persoonlijkheidsvragen-
len. Deze benadering berust op de gedachte dat gedrag van nu voorspellend lijsten) gebeurt dit zonder tussenkomst van een menselijke beoordelaar.
is voor gedrag van morgen (Jansen, 1991; Jeanneret & Silzer, 1998; Seegers, Tests zijn blind. De score komt tot stand door het hele testproces (afname,
1997). Wanneer iemand in een gesimuleerde beroepssituatie het bedoelde scoring, normering) te standaardiseren. Alle kandidaten maken hetzelfde
gedrag vertoont, wordt het waarschijnlijker dat hij dit gedrag ook in de proces door en het maakt niet uit wie de test nakijkt. Ook het vergelijken
functie zelf zal vertonen (“What you see is what you get”). Bij de beoordeling met een normgroep gebeurt volgens vaste regels. Een computer kan het ook.
wordt als het ware een steekproef (sample) getrokken uit het gedragsreper- Mogelijke problemen bij het gebruik van zelfbeschrijvende vragenlijsten
toire van de persoon. Er wordt gevraagd het bedoelde gedrag tijdens een zijn onder andere de (bewuste) vertekening door kandidaten bij het invul-
assessmentoefening te vertonen en dit gedrag wordt beoordeeld door zoge- len, het optreden van antwoordtendenties en het taalgebruik in de vragen.
noemde assessoren, beoordelaars. Bij intelligentie- en capaciteitentests kunnen minderheden of bepaalde groe-
pen door het soort opgaven worden benadeeld, er kan sprake zijn van faal-
Het voorspellend vermogen – de predictieve validiteit – is een van de angst en ook de keuze en grootte van normgroepen kan er voor zorgen dat
belangrijkste kenmerken van elke beoordelingsmethode. Hoe goed is de testgebruik minder zinvol wordt.
methode in het voorspellen van – in dit geval - beroepsprestaties? Dit wordt
meestal uitgedrukt in de vorm van een correlatie – een maat voor de samen- Bij assessment is er per definitie wel sprake van een menselijke beoorde-
hang tussen twee variabelen. De correlatiecoëfficiënt loopt van –1.0 tot laar. Hij observeert en beoordeelt het gedrag van de kandidaat. Hoe goed
+1.0, waarbij +1.0 een perfecte positieve samenhang en –1.0 een perfecte is de beoordelaar? Dit is de Achilleshiel bij assessment.
negatieve samenhang betekent. Wanneer we een vijftal instrumenten op een

4 5
Beoordelen en beslissen Een stereotype is óók een tijdsbespaarder: op basis van een paar kenmerken
van de ander, voorspel je heel veel meer andere eigenschappen of gedragin-
Het beoordelen van de omgeving, inclusief het gedrag van andere levende gen. Een paar maanden geleden stond er een artikel in Businessweek (Barro,
wezens, is van levensbelang voor elk dier en ook voor de mens. In de 2003) waarbij uit de doeken gedaan werd dat werkgevers in Californië
natuur zijn de meeste dieren permanent op hun hoede en beoordelen conti- gebruik maken van voornaamfrequenties om blanke van zwarte sollicitanten
nu het gedrag van andere wezens. In de mensenwereld doen wij niet anders. op basis van brieven voor te selecteren. Kandidaten met een typische zwar-
Ook daar is beoordelen van levensbelang. In het verkeer beoordelen wij het te voornaam als Tyrone of Shanice werden niet uitgenodigd. Ook in
gedrag van andere verkeersdeelnemers omdat de eigen veiligheid in het Nederland is discriminatie op basis van stereotypering meerdere keren aan-
geding is. Wanneer we een onbekende tegenkomen is een snel oordeel getoond. Stereotypering gebeurt op basis van allerlei kenmerken, ook kle-
gewenst: vriend of vijand? Dat gaat ons dan ook gemakkelijk af. In een paar ding:
seconden is een compleet oordeel geveld. Het snelle oordeel is niet alleen
een evolutionair voordeel gebleken; ook in het ingewikkelde, dagelijkse De president-commissaris Kreiken van Ahold is onder de indruk van de
leven komt het goed van pas. We hoeven niet over alle situaties na te den- kennis van Van der Hoeven, vindt hem ‘een leuke vent’, maar constateert
ken, we herkennen een situatie en reageren navenant. In situaties waar rol- vol afgrijzen dat hij “kwastjes aan zijn schoenen heeft”.
len vastliggen, zoals bijvoorbeeld klant – winkelier, verloopt het oordelen Smit, 2004, p. 84
meestal adequaat. Er zijn twee rollen en een bijbehorend script dat voor-
schrijft hoe beiden zich hebben te gedragen. We hebben vele van deze In dit voorbeeld gaat het om de benoeming van de hoogste baas van
scripts paraat en het ontlast het brein van een hoop nadenken (Ross & 400.000 werknemers in een bedrijf met een beurswaarde van tientallen
Nisbett, 1991). Dit is efficiënt, want zelfs met selectie en snelle beoordelin- miljarden. Ook in het dagelijks leven is stereotypering een normaal proces
gen gebruiken de hersenen al 30% van alle energie (Dekkers, 1996). bij het beoordelen van mensen.
De bekende neuroloog Oliver Sacks (1985) beschrijft patiënten die niet in
staat waren tot selectie en dus die alles om zich heen zeer intensief waar- In Nederland heeft Kouwer (1963) een leuk experiment gedaan met drie
namen en registreren: een volledige information overload is het gevolg. vaasjes. Proefpersonen plakten moeiteloos adjectieven als “gezellig” (het
Selectie en “short cuts” behoeden ons dus voor krankzinnigheid. Het wordt bolle vaasje), “nerveus” (langwerpig) of “vastberaden” (een wijduiteenlopend
natuurlijk even lastig wanneer je voor een bepaalde situatie geen script vaasje) aan deze dode objecten vast. Stereotypen op basis van lichaams-
voorradig hebt, bijvoorbeeld bij contact met mensen uit een andere cultuur bouw zijn al zo oud als de mensheid, maar missen empirische steun.
(Trompenaars, 1993). Zo ontving ik eens met een aantal collega’s een
Japanse delegatie. Wij wisten niet dat een begroeting in Japan hiërarchisch De oude Grieken wisten al dat in het menselijk brein minimaal drie delen
verloopt (de hoogste in rang van beide partijen eerst) en dat daarbij het aan- onderscheiden kunnen worden (vegetatief, dierlijk, verstandelijk of onbe-
bieden van een visitekaartje gepaard gaat met een buiging. We kenden het wust, emotioneel, rationeel). Vroon (1989) heeft de werking van onze herse-
script niet. De consequentie was dat we nooit meer iets van deze Japanners nen uitvoerig gedocumenteerd in De tranen van de krokodil. Vooral de evo-
gehoord hebben. lutionair gezien oudere delen spelen ons soms parten wanneer we anderen
beoordelen. Het probleem is dat wij vaak subjectief zijn. Subjectief wil zeg-
Waar we ook veel gebruik van maken, maar wat aanzienlijk meer beoorde- gen niet gebaseerd op harde feiten of een wijze van oordelen die idiosyncra-
lingsfouten oplevert dan scripts en rollen, is stereotypering. Een stereotype tisch – strikt individueel - is. Zo’n subjectieve beslissing is bijvoorbeeld die
is een verzameling van verwachtingen over het gedrag van de ander, samen- bij de keuze voor een levenspartner. Deze wordt meestal op romantische
gebald in een woord of een paar woorden. Een stereotype kan te maken heb- gronden genomen. Liefde is blind, zoals we zeggen. Zogenoemde verstands-
ben met de functionele relatie die we met de ander hebben, maar vaker gaat huwelijken vinden West Europeanen bizar. Het beoordelen van de potentiële
het om etiketjes die we door eigen ervaring of van anderen hebben geleerd. partner doen we dus ‘met ons hart’, of misschien wel met onze onderbuik.

6 7
Het resultaat is dat minimaal een op de drie beslissingen verkeerd blijkt te Kansrekening en statistiek
zijn, afgemeten aan het aantal echtscheidingen. In het Westen van het land
ligt dit cijfer dichter bij een op twee. Het aantal ongelukkige huwelijken dat Kansrekening en statistiek is bij veel mensen (studenten) niet populair.
niet wordt ontbonden niet meegeteld. Het is ingewikkeld en we zijn er ‘van nature’ niet zo goed in, omdat we meer
schatters dan tellers zijn. Schatten gaat sneller dan tellen en we kunnen het
Samengevat: de mens is toegerust met een aantal efficiënte hulpmiddelen over het algemeen goed. Denk maar aan de schaapherder uit de Bijbel die
zoals scripts en stereotypen die het proces van beoordelen en beslissen niet verder dan tot drie kan tellen, maar die meteen ziet wanneer er een
aanmerkelijk vereenvoudigen en het brein ontlasten van onnodig denk- en schaap ontbreekt in een kudde van 100 schapen. Deze schaapherder hoeft
rekenwerk. Bij huis-, tuin- en keuken gebruik werkt deze manier over het niet te tellen en hij ontloopt meteen een paar statistische problemen.
algemeen goed, zij het dat hier ook kolossale blunders gemaakt worden.
In een professionele context hebben we daar echter volstrekt onvoldoende Aan het gebruik van statistiek kleven een paar wetenschapstheoretische pro-
aan. Ons brein op de automatische piloot is onvoldoende toegerust om blemen. Er zijn grofweg twee vormen van statistiek: de beschrijvende en de
beoordelingen met een hoge predictieve validiteit te maken. We hebben toetsende statistiek. Beschrijvende statistiek opgevat als ‘tellen’ gaat vaak
dus professioneel instrumentarium nodig. over de frequentie waarin iets voorkomt. Toetsende statistiek gaat meestal
over de vraag of waargenomen verschillen toevallig zijn of niet. Dat is het
terrein van het toetsen van hypothesen. Wim Hofstee heeft daar een elegan-
te, maar weinig begrepen studie van gemaakt (Hofstee, 1980). Zijn conclusie
komt er op neer dat het “zo maar” toetsen van hypothesen – waarbij de “nul-
hypothese” al dan niet verworpen wordt - niet zo’n zinnige bezigheid is. Een
simpel voorbeeld. Een wetenschapper publiceert een artikel waarin hij de
vraag stelt: Zijn Nederlandse mannen en vrouwen gemiddeld even lang?
Vervolgens worden data geproduceerd waaruit blijkt dat mannen gemiddeld
10 centimeter langer zijn. Deze data worden statistisch getoetst en dan
blijkt natuurlijk dat de nulhypothese (M = V) royaal verworpen wordt (p <
0.01). Vraag was natuurlijk: zijn er “tegenstanders” te vinden die bereid zou-
den zijn de hypothese M = V of zelfs M < V te ondersteunen. Nee natuurlijk.
Hofstee pleit daarom voor het weddenschapsmodel: zoek een tegenstander
die bereid is naam en faam op het spel te zetten door achter een hypothese
te staan die diametraal tegenover jouw eigen hypothese staat. Maak vervol-
gens afspraken hoe de ‘weddenschap’ (empirisch) beslist wordt. Op deze
wijze ontstaat relevante kennis. Helaas wordt deze vorm van kennisverwer-
ving niet toegepast. Met name sociale wetenschappers blijven ‘oninteressan-
te’ hypothesen toetsen, met als gevolg dat in mijn vak – psychologie – jaar-
lijks minstens 30.000 artikelen verschijnen met een beperkte waarde.
Toetsende statistiek wordt pas nuttig wanneer er echt iets op het spel staat.

En dan nu de ‘simpele’, beschrijvende statistiek. Het belangrijkste punt bij


beschrijvende statistiek is wat je precies gaat tellen. Deze keuze bepaalt
mede de uitkomst en daarmee het antwoord op de vraag. Een bekend voor-

8 9
beeld is de werkloosheid in Nederland. In officiële cijfers worden soms de Een ander voorbeeld uit de medische wereld: overlevingskansen.
WAO-ers niet meegeteld. Dat kan een politicus goed uitkomen, bijvoorbeeld Ziekenhuizen houden data bij hoeveel patiënten met een bepaalde ziekte
wanneer hij ons land wil vergelijken met andere Europese landen. In een (en gevolgde therapieën) overleven. Op internet vind je sites waarbij je zelf
recente Intermediair (22 april 2004) wordt de vraag gesteld of ons land de kans op overleven bij borstkanker kunt uitrekenen wanneer je bepaalde
“Meer of veel meer werklozen” telt: therapieën wel of niet doet. Probleem is natuurlijk dat mensen die de ziekte
hebben, maar niet meedoen aan een therapie van het ziekenhuis niet meege-
Meer of veel meer werklozen? teld worden. “Wanneer u chemotherapie doet, heeft u een kans van 58% dat
Het half miljoen werklozen is bereikt en de werkloosheid stijgt steeds u over tien jaar nog leeft.”, is dus gebaseerd op ziekenhuis data, of althans
sneller. Dat meldde het CBS vorige week. Een half jaar geleden steeg mensen die geregistreerd zijn en waarbij de doodsoorzaak eenvoudig vast
de werkloosheid met achtduizend per maand, inmiddels komen er elke te stellen is. Maar hoeveel kans heb ik als kankerpatiënt wanneer ik niets –
maand veertienduizend werklozen bij, Vooral de jeugdwerkloosheid of iets anders - doe? En trouwens wat betekent “nog leeft” precies? Is daar
(15 tot 24 jaar) neemt rap toe. Dezelfde dag kwam het CWI met aanzien- de kwaliteit van het leven in verdisconteerd? Definiëren en tellen zijn dus
lijk positiever nieuws: het aantal werklozen is nauwelijks gestegen. wezenlijke problemen bij de zogenoemde ‘objectieve statistiek’ (Huff, 1961,
En de jeugdwerkloosheid daalt zelfs licht. 1965).
Intermediair, 22 april 2004, p. 17
We gaan even terug naar het stereotyperen en combineren dat met kansreke-
Dit soort problemen – zijn er nu meer of minder werklozen – heeft natuur- ning: Judith is drie-en-twintig en vrij assertief. Met summa cum laude heeft
lijk te maken met de manier van steekproeftrekking, de manier van tellen, ze haar doctoraal politicologie behaald en tijdens haar studietijd was ze
enzovoort. Het geeft echter aan dat zelfs “tellen” niet eenvoudig is. nauw betrokken bij allerlei studentenacties, vooral waar het demonstraties
tegen rassendiscriminatie en kernenergie betrof. Welke bewering is waar-
Een ander mogelijk probleem bij het gebruik van beschrijvende statistiek is schijnlijker?
dat de telmethode tussentijds wordt veranderd. Bepaalde waarnemingen tel- a.) Judith werkt als wetenschapper bij een universiteit.
len op een bepaald moment wel of juist niet meer mee. Wanneer de politie b.) Judith werkt als wetenschapper bij een universiteit en is actief in de
bijvoorbeeld besluit dat fietsendiefstal niet meer tot de criminele feiten vrouwen-beweging.
gerekend moeten worden, dan ziet het er opeens een stuk beter uit met
“de criminaliteit in Nederland”. De meeste mensen kiezen voor b.) maar dit is natuurlijk onjuist want de
kans dat een enkelvoudige bewering waar is, is altijd groter dan de kans dat
Weer een ander probleem ontstaat wanneer appels met peren worden verge- twee nevengeschikte beweringen waar zijn (zie ook Paulos, 1988).
leken. Een paar weken geleden (in april 2004) werd een onderzoek bekend
naar de sterftecijfers in streekziekenhuizen vergeleken met academische Veel mensen hebben zin noch tijd om allerlei dagelijkse problemen (zoals
ziekenhuizen. In academische ziekenhuizen is het sterftecijfer lager, zo zegt verzekeringen, pensioenen, beleggingen, ziektes, school- en beroepskeuzes)
‘de’ statistiek. De conclusie lijkt dan al snel getrokken: academische zieken- door te rekenen en gebruiken bij statistische problemen snelle oplossingen.
huizen zijn kennelijk beter. De vergeten vraag is of de populaties in beide Alles uitrekenen kost immers teveel tijd. Stel uw buurman doet u het vol-
typen ziekenhuizen wel vergelijkbaar zijn. Zijn het dezelfde soort patiën- gende voorstel (ontleend aan Huff, 1965):
ten? Hoe worden patiënten uit een streekziekenhuis die een ingewikkeld
onderzoek van een dagdeel in een academisch ziekenhuis ondergaan geteld? Ik heb hier een euro. We gooien hem allebei een keer op, waarbij ik begin.
Heeft de wijze van beloning van de specialisten (loondienst of zelfstandig) Als het één van de keren munt is, win ik, anders win jij. We spelen om een
er iets mee te maken? Kortom, kun je beide typen ziekenhuizen überhaupt euro per keer. U denkt na en u zegt: nee, dat lijkt me niet eerlijk. Er zijn
wel vergelijken op basis van sterftecijfers? Waarschijnlijk niet. namelijk drie uitkomsten: jij gooit munt, ik gooi munt of we gooien

10 11
allebei kruis. In twee van de drie gevallen win jij. Okay, zegt de buurman. Veel mensen kiezen in zo’n geval voor een schattende oplossing:
Dat klopt. Daarom betaal ik jou twee euro als jij wint en jij mij slechts één De kans op een vanille koekje in het geval van A = 30/40 = 75%
euro als ik win. Gaat u op deze deal in? De kans op een vanille koekje in het geval van B = 20/40 = 50%
Dit probleempje is niet zo moeilijk. Er zijn weliswaar drie mogelijkheden, Als ik een vanille koekje tref is A dus waarschijnlijker.
maar die hebben niet dezelfde waarschijnlijkheid. Het enige wat u moet
doen is de kans op twee keer kruis uitrekenen (dan wint u namelijk), wat Weet je wat?
een herformulering van het probleem betekent. Die kans is natuurlijk 0.5 x Ik ga er tussenin zitten: 62.5%
0.5 = 0.25. Uw buurman heeft een drie keer grotere kans om te winnen dan
u. Als u dus op de deal van uw buurman ingaat, verliest u. Als u honderd De juiste oplossing van dit probleem loopt via het zogenoemde theorema
keer met het geldstuk werpt is uw te verwachten verlies vijfentwintig euro van Bayes (rond 1750). Dit theorema houdt rekening met voorwaardelijke
(75 x y 1,- voor de buurman minus 25 x y 2,- voor u). kansen en heeft als formele schrijfwijze:

p(B|A)•p(A)
Een volgend statistisch probleem gaat over koektrommels (en over voor- p(A|B)=
p(B)
waardelijke kansen).
Er zijn twee trommels A en B met koekjes. Hier staat: de kans op A gegeven B is gelijk aan de kans op B gegeven A
In A zitten 10 chocolade en 30 vanille koekjes. maal de kans op A gedeeld door de kans op B.
In B zitten 20 van beide soorten.
U kiest willekeurig (blind) een trommel en neemt In het voorbeeld kunnen we dit herschrijven als:
willekeurig een koekje. Het is een vanille.
p(A)•p(vanille|A)
Hoe groot is de kans dat u uit trommel A genomen heeft? p(A|vanille)=
p(A)•p(vanille) + p(B)•p(vanille|B)
In een plaatje ziet dit probleem er zo uit (het licht gekleurde koekje is
‘vanille’): Hier staat:
De kans op trommel A gegeven een vanille koekje is gelijk aan:

? de kans
gedeeld
op trommel A maal de kans op een vanille koekje gegeven A
door
de kans op trommel A maal de kans op een vanille koekje gegeven A plus
de kans op trommel B maal de kans op een vanille koekje gegeven B

Wanneer we deze formule invullen ontstaat:

50%•75%
=
50%•75% + 50%•50%

37.5%
10 30 20 20 =
37.5% + 25%

37.5%
=
62.5%

A B De uitkomst hiervan is 0.6 oftewel 60% kans.

12 13
Wanneer we afzien van die mensen die het vraagstuk niet begrijpen, of die Ziekte wel Ziekte niet Totaal
er van uitgaan dat de waarschijnlijkheid bij twee trommels dus 50% is, dan
Test positief 99 4.995 5.094
blijkt dat het verschil tussen de houtje-touwtje oplossing en de statistische
Test negatief 1 94.905 94.906
oplossing niet zo groot is: 62.5% versus 60%.
100 99.900 100.000

Ook dit is niet zo’n moeilijk probleem. Iedereen voelt op z’n klompen aan
Hier staat precies hetzelfde. In de onderste regel van de tabel staat de “base
dat trommel A waarschijnlijker is dan B, maar dat er ook een gerede kans
rate”: de aanwezigheid van de ziekte in de gehele populatie. Deze was 0.1%
is dat het vanille koekje toch uit B komt.
oftewel 100 mensen op 100.000. In de linkerkolom staat de nauwkeurigheid
van de test wanneer iemand wel ziek is. Inderdaad worden 99 van de 100
Wanneer we een volgende probleem bij de kop pakken raken veel mensen
zieke mensen correct geclassificeerd. In de middelste kolom gaat het mis.
het spoor bijster (zie Tversky & Kahneman in de referenties).
Weliswaar wordt 95% (94.905 / 99.900) correct geclassificeerd als niet ziek,
maar ook 4.995 mensen als wel ziek terwijl zij het niet zijn. Om op een
De medische test
populatie van 100.000 mensen – via de test – 99 mensen correct te dia-
Er is een ziekte die bij 1 op de 1000 mensen voorkomt (0.1%).
gnosticeren op de aanwezigheid van de ziekte, worden ongeveer 5000 men-
Er is een test voor deze ziekte.
sen incorrect geclassificeerd als ziek. Wanneer we de tabel nog iets vereen-
Wanneer de test een ‘positieve’ uitslag geeft is de kans dat iemand ook
voudigen – door enige afrondingen – ziet het er zo uit:
daadwerkelijk de ziekte heeft 99%.
Wanneer de test een ‘negatieve’ uitslag geeft is de kans dat iemand de ziekte
Ziekte wel Ziekte niet Totaal
daadwerkelijk niet heeft 95%.
Er is dus sprake van een erg nauwkeurige test. Test positief 99 5.000
Stel nu dat iemand de test ondergaat en een ‘positieve’ uitslag krijgt. Test negatief 1 95.000
Hoe groot is dan de kans dat hij de ziekte ook daadwerkelijk heeft. 100 100.000 100.100

De meeste mensen schatten deze kans rond of boven de 90%. Hier is nog duidelijker te zien dat een goede test (99% en 95% correcte clas-
De werkelijke kans is nog geen 2%! sificaties) toch een relatief groot aantal zogenoemde false positives (mensen
die ten onrechte als ziek worden gediagnosticeerd) oplevert.
We zullen het even narekenen via het theorema van Bayes:
Hoe komt het dat mensen bij extreem grote waarschijnlijkheden, gecombi-
99%•0.1% neerd met extreem kleine waarschijnlijkheden gemakkelijk (grote) fouten
= = 0.01943
99%•0.1% + 5%•99.9% maken?

In de teller staat de kans op de ziekte gegeven een positieve uitslag maal de In de literatuur wordt dit toegeschreven aan het negeren van de base rate,
normale kans op aanwezigheid van de ziekte. In de noemer komt dezelfde de al aanwezige kans dat iets wel of niet aanwezig is of gebeurt. Wanneer
term voor maal de kans op het wel aanwezig zijn van de ziekte bij een nega- een test in 99% van de werkelijke gevallen het bij het rechte eind heeft,
tieve uitslag maal de kans op de normale kans op afwezigheid van de ziekte. wordt vergeten dat dit hoge getal uitsluitend betrekking heeft op die 1 pro-
mille van werkelijke gevallen met de betreffende ziekte. Voordat de test is
Een tabel is hier wellicht duidelijker dan een formule (met dank aan gedaan, heeft de persoon 99.9% kans dat hij de ziekte niet heeft. Overigens
Wim Hofstee, 2004). Stel er zijn 100.000 mensen met deze test getest. is de kans bij een positieve test dat de persoon de ziekte wel heeft met de
Dan ontstaat het volgende beeld: factor 20 toegenomen (van 0.1% naar 2%). U kunt dit voorbeeld rustig door-

14 15
trekken naar alcoholcontrole in het verkeer, personeelselectie, het beoorde- gebeurtenis aansprekend (“salient”) is. Bijvoorbeeld bij doodsoorzaken is er
len van de kans op recidive bij psychopathische criminelen of de kans op meer (media) aandacht voor ongelukken en moorden dan voor de 92% men-
longkanker door roken (“rokers hebben drie keer zoveel kans om dood te sen die aan een natuurlijke oorzaak sterft. Hierdoor wordt de kans op over-
gaan aan longkanker”). U kunt zich wapenen tegen het trekken van een schatting van het voorkomen van bijzondere doodsoorzaken groter.
verkeerde conclusie door altijd naar het gehele plaatje te vragen. Dat wil
zeggen dat u alle vier kwadranten van de tabel moet zien: Kahneman is een van de weinige psychologen (misschien wel de enige) die
ooit een Nobelprijs heeft gewonnen. Zijn prijs, in 2002, was voor Economie
Aanwezig Ja Nee (er bestaat geen Nobelprijs voor psychologie) omdat hij liet zien hoe irratio-
Test neel mensen kunnen handelen wanneer het gaat om economische beslissin-
Positief True positive False positive gen. De uit de hand gelopen tulpenhandel in eigen land van een paar eeu-
Negatief False negative True negative wen terug, de beurskrach van 1929 die de opmaat vormde voor de crisis
van de jaren dertig, en de recente dotcom hype laten zien dat mensen – ook
Een ander medisch statistisch experiment is gedaan door Tversky (zie in een zakelijke context – irrationeel kunnen handelen en zich niet door
Bernstein, 1996). Hij vroeg aan 120 graduate studenten van Stanford objectieve gegevens laten leiden. Het Aholddrama is ontstaan doordat ieder-
University de kans op een bepaalde doodsoorzaak te schatten. Ik geef toe, een geloofde in het agressieve overnamebeleid. Er werden enorme bedragen
dit is Amerikaans onderzoek, maar kijkt u naar de verschillen tussen de geleend om bedrijven te kopen en dit werd gerechtvaardigd door de te ver-
subjectieve schatting en de statistische gegevens. wachten hogere beurskoers. “We have the licence to print money”, aldus de
In onderstaande tabel de resultaten: Aholdtop (Smit, 2004).

Oorzaak Studenten Statistiek Een ander voorbeeld van merkwaardig gedrag is ook van Kahneman:
Wanneer mensen de keuze krijgen tussen het zeker winnen van y 1.000,-
Hartaanval 0.22 0.34 of een 50% kans op het winnen van y 2.500,- (of niets) kiezen veel mensen
Kanker 0.18 0.23 voor de duizend euro, terwijl probabilistisch gesproken de keuze voor
Andere natuurlijke oorzaken 0.33 0.35 y 2.500,- een verwachte uitkomst van y 1.250,- heeft. Deze keuze valt te ver-
Alle natuurlijke oorzaken 0.73 0.92 klaren. Mensen vermijden risico en gaan voor zekerheid. Bij een vergelijk-
Ongeluk 0.32 0.05 bare keuze - je verliest zeker y 1.000,-, of je hebt een kans van 50% om niets
Moord 0.10 0.01 of y 2.500,- te verliezen - kiezen veel mensen voor het riskantere tweede
Andere onnatuurlijke oorzaken 0.11 0.02 alternatief (waarbij de verwachte uitkomst min y 1.250,- is). Een merk-
Alle onnatuurlijke oorzaken 0.53 0.08 waardig fenomeen: mensen willen graag zekerheid wanneer er iets te win-
nen valt, maar gaan gokken wanneer er iets te verliezen valt. In de
Ik vind de schattingen over de kans op een hartaanval, kanker en andere Nederlandse taal kun je dit herkennen door de uitspraken “binnen is
natuurlijke oorzaken zo slecht nog niet. Het gaat een beetje mis wanneer je binnen” en de tegenhanger “niet geschoten is altijd mis”.
kijkt naar de (totale) kans op een natuurlijke dood (92%) en de schatting van
de studenten (73%). De onderschatting bedraagt met 92/73 ongeveer 25%.
De kans op een ongeluk of een moord wordt zes respectievelijk tien keer
te hoog geschat. De verwachting van de studenten dat je een onnatuurlijke
dood sterft is groter dan 50%, terwijl dit in werkelijkheid slechts 8% is.
Een laatste constatering is dat de optelling van natuurlijke en onnatuurlijke
doodsoorzaken ver boven de 100% ligt, wat per definitie niet kan.
Een van de verklaringen is dat mensen overschattingen maken wanneer een

16 17
Alleen of samen Misschien kent u dit puzzeltje. De vraag is: hoeveel vierkanten ziet u?

Mijn leermeester Wim Hofstee heeft een boek over beoordeling geschreven
onder de titel Principes van beoordeling. Uit het boek leren we dat de over-
eenstemming tussen beoordelaars uitgedrukt als correlatie ligt tussen de
0.10 en 0.25 (zie ook Eggen & Sanders, 1993). Een schamel resultaat dat
Hofstee dan ook als “onvoldoende” beoordeelt (!). In een schoolcijfer uitge-
drukt krijgt ‘de’ beoordelaar van hem een ‘4’ (+ of –1). Een correlatie van
0.25 (het maximum van Hofstee) ziet er – in tabelvorm – bijvoorbeeld zo uit:

Student Beoordelaar 1 Beoordelaar 2 Uitslag


A 3 4 gezakt
B 4 3 gezakt
C 7 5 ?
Veel voorkomende antwoorden zijn: 16, 17, 21, 22, 26. Het juiste antwoord
D 7 5 ?
is echter 30. Dat komt omdat ook het vierkant van 4x4 en de vierkanten van
E 4 6 ?
2x2 meegeteld moe-ten worden (9 in totaal), en bovendien de vier vier-kan-
F 5 8 ?
ten van 3x3. Veel mensen geven een verkeerd antwoord op deze vraag. Het
G 5 6 ?
probleem is niet eens dat mensen moeite hebben met dit soort puzzels,
H 6 4 ?
hoewel het wel aangeeft dat ook een eenvoudige observatie taak niet zo een-
I 6 8 geslaagd
voudig is.
J 8 6 geslaagd

Het werkelijke probleem ontstaat wanneer in een groep de meerderheid het


verkeerde antwoord als het juiste beschouwt, zoals bij het bovenstaande
Wanneer de tien studenten (A t/m J) door twee beoordelaars worden beoor-
puzzeltje meestal het geval is. Het geeft de feilbaarheid van beoordelingen
deeld, is er in dit voorbeeld met een correlatie van 0.25 in ongeveer 40%
weer, zelfs bij een relatief simpele taak en ook wanneer er meerdere beoor-
van de gevallen overeenstemming over ‘slagen / zakken’ (waarbij de cesuur
delaars bij betrokken zijn. In dit geval doet het er niet toe of er al dan geen
ligt op 5.5). De individuele beoordelaar is dus kwetsbaar. Mensen weten dit
sprake is van overleg, dat wil zeggen al dan geen onafhankelijke beoordelin-
(meestal) van zichzelf en bij belangrijke beslissingen wordt dan ook vaak
gen. De meerderheid heeft niet altijd gelijk!
een ander geraadpleegd of er wordt een commissie gevormd. Dit is in het
algemeen een goede strategie, leren we van Hofstee. Twee weten meer dan
In de praktijk wordt dit probleem meestal omzeild door niet iedereen als
een. Door het eigen oordeel te confronteren met het oordeel van de ander
beoordelaar toe te laten. De curricula binnen de Instituten en Academies
kan de beoordelaar zich bewust worden van de eigen beperkingen. Bij een
van Saxion worden ook niet samengesteld door iedereen er over mee te
test geldt meestal hoe meer items, hoe betrouwbaarder. Dat geldt ook voor
laten praten. Een curriculum komt tot stand door een groep deskundigen.
beoordelaars. Toevoegen van meer (onafhankelijke) beoordelaars bij een
Maar ook het nauwkeurig selecteren van beoordelaars biedt geen garantie
beoordeling verhoogt vaak de betrouwbaarheid. Dit verloopt wel asympto-
tot succes.
tisch, de winst van het toevoegen van meer beoordelaars wordt steeds kleiner.
De oplossing van het probleem van de kwetsbare beoordelaar lijkt dus een-
In Linschoten (1964) wordt een experiment beschreven dat Goldfarb (1959)
voudig. Voeg meer beoordelaars toe en het oordeel wordt beter. Toch schuilt
met vier psychologen deed. Deze vier psychologen werden gekozen op basis
ook hier nog een forse adder onder het gras.

18 19
van deskundigheid en vergelijkbaarheid. Zij bezaten dezelfde graad, dezelf- Toetsen en gedragsproeven
de werkervaring en werkten in dezelfde organisatie. Hun psychodiagnosti-
sche vaardigheid was ook vergelijkbaar en zij gebruikten allemaal de Het wordt tijd de definitie van ‘assesssment’ aan te scherpen. Een simpele
Diagnostic and Statistical Manual for Mental Disorders, de standaard bij het vertaling als ‘beoordeling’ voldoet niet en zet de deur wagenwijd open voor
doen van klinische psychodiagnostiek. Deze vier psychologen hadden elk 25 allerlei vormen van ‘assessment’ die net zo goed ‘beoordeling’ kunnen blij-
diagnostische rapporten gemaakt, in totaal 100 rapporten. De vier psycholo- ven heten. Assessment reserveer ik voor die beoordelingsmethode waarbij
gen (A t/m D) kregen deze 100 geanonimiseerde rapporten te beoordelen en concreet gedrag ‘in vivo’ in een beroepsrelevante context wordt beoordeeld.
er werd hen naar een diagnose gevraagd, te kiezen uit vijf categorieën. De ‘beroepsrelevante context’ kan zowel ‘echt’ zijn of bestaan uit een simu-
In de tabel het onthutsende resultaat: latie (zoals bij Assessment Centers). Voor die vorm van assessment hanteer
ik vanaf nu de term ‘Gedragsproef’.
Categorie A B C D Totaal %
Psychofysiologisch 13 2 16 3 34 9 De terechte vraag is wat wij ons bij Saxion op de hals halen om beroeps-
Psychoneurotisch 26 30 6 31 93 23 competenties in het hoger onderwijs - via gedragsproeven - te willen gaan
Psychotisch 16 15 14 19 64 16 beoordelen. De menselijke beoordelaar is – zo blijkt – nogal feilbaar: beoor-
Personality 40 47 59 38 184 46 delen op deze wijze vergt veel tijd en moeite en de alternatieven zijn
Hersenletsel 5 6 5 9 25 6 beschikbaar: het werkstuk, de ondervraging, het portefolio, de kennistoets.
Totaal 100 100 100 100 400 100
Om met het werkstuk en de ondervraging te beginnen: hiervoor geldt het-
Overgenomen uit Linschoten, 1964, p. 124-125 zelfde probleem als met alle menselijke oordelen. Beoordelaars zullen van
elkaar afwijken wanneer er geen strikte maatregelen worden genomen
Uit de tabel blijkt bijvoorbeeld dat de psychologen A en C de diagnose (standaardisatie, scoringsvoorschrift, vaste cesuur, meerdere beoordelaars).
‘psychofysiologisch’ aan 13 respectievelijk 16 gevallen toekennen, terwijl B Dit maakt deze methoden overigens niet onbruikbaar. Ze zijn geschikt wan-
en D dit voor 2 respectievelijk 3 gevallen doen. Psycholoog C ziet opmerke- neer men een eindresultaat van een leerproces wil beoordelen. In het eind-
lijk weinig ‘psychoneurotici’ (namelijk 6) terwijl de anderen zo rond de 30 resultaat komt een deel van de leerstof samen. Bij een werkstuk is dit een
zitten. Enzovoort. Uiteraard is de tabel statistisch getoetst en de hypothese concreet product, waarbij over het totstandkomingsproces niet veel bekend
“de psychologen oordelen gelijk” kon royaal worden verworpen. Het opmer- hoeft te zijn. Bij een ondervraging is het wel mogelijk iets over de manier
kelijke is dat dit getrainde beoordelaars zijn waarbij het materiaal ook nog van denken en doen te weet te komen. Maar het oordeel blijft in beide
eens deels van henzelf afkomstig is. Bovendien was het te beoordelen mate- gevallen lastig.
riaal op papier vastgelegd. Hinderlijke verstoringen als ‘indrukken’ en
gevoelens speelden bij deze beoordelingstaak geen noemenswaardige rol. Het portfolio wint aan populariteit, onder meer onder invloed van de Elders
Als dit soort getrainde psychologen al van elkaar afwijken, hoe zou het dan Verworven Competenties (EVC) gedachte. Kandidaten worden daarbij – net
zitten met de andere beoordelaars om ons heen? “Het centrale uitgangspunt als een kunstschilder of een architect – geacht bewijzen te verzamelen over
is dat beoordelaars feilbaar plegen te zijn, en dat dus naar handgrepen aanwezige ‘competenties’. De problemen met het beoordelen van zo’n port-
moet worden gezocht om die feilbaarheid te compenseren.” (Hofstee, 1999, folio zijn gigantisch: iedere kandidaat heeft een unieke verzameling
p. 57). ‘bewijsstukken’: in welke mate zijn deze terug te voeren op daadwerkelijke
prestaties van de kandidaat en hoe moet de afweging plaatsvinden? Een
portfolio kan bovendien nogal omvangrijk zijn: mag van de beoordelaar(s)
verwacht worden dat alles nauwgezet gelezen en gewogen wordt? Bij de
beoordeling van een portfolio is elke vorm van standaardisering – zowel in
het materiaal als in de toe te passen regels – zoek. Beoordelaarsfouten zijn

20 21
erg waarschijnlijk, hoewel er pogingen worden ondernomen de beoordelaar In dit schema wordt van een aantal (willekeurige) competenties weergegeven
te voorzien van ‘scoorbare’ hulpmiddelen (Straetmans, 2004). welke mix van Kennis, Vaardigheden en Attitudes noodzakelijk is. Hoe dat
precies moet is niet bekend, maar waarschijnlijk komt een groep terzake
Een kennistoets heeft – net als een psychometrische test – het voordeel dat kundige docenten een heel eind. Wanneer elk Instituut of Academie een
de beoordeling van het resultaat gemakkelijker te objectiveren is en dat het schema opstelt van de aan te leren competenties en er de kolommen Kennis,
weinig tijd kost. Zeker bij multiple choice toetsen is de kwaliteit van een Vaardigheden en Attitude aan toevoegt, dan wordt het gemakkelijker vast te
toets relatief eenvoudig vast te stellen door toepassing van bekende statisti- stellen of een gedragsproef of een andere toetsvorm het meest geëigend is.
sche technieken. Helaas gebeurt dit niet systematisch in het onderwijs. In het algemeen zal het zo zijn dat een gedragsproef het meest geëigend is
Toetsen worden vaak ad hoc gemaakt en niet in itembanken voor hergebruik bij die competenties waarbij het gaat om een (sociaal) proces of gedrag en
beschikbaar gesteld. Dit is zonde van de energie. niet om een concreet, tastbaar product. Competenties bovendien waarbij het
gedrag alleen beoordeeld kan worden in interactie met anderen, lenen zich
Welke toetsvorm is in welke situatie het meest geëigend? Het antwoord op het meest voor beoordeling via gedragsproeven.
deze vraag is wellicht te vinden via het begrip competentie. Al een jaar of
tien wordt dit begrip binnen de overheid en het bedrijfsleven gebruikt bij Een willekeurig en niet volledig lijstje met dergelijke ‘sociale’ competenties
Human Resource Management (Altink et al, 2004). De term heeft dezelfde is bijvoorbeeld:
‘wazigheid’ als ‘assessment’. Het abstractieniveau kan sterk verschillen
(‘luisteren’ en ‘leidinggeven’, bijvoorbeeld) en het aantal competenties is Een op een Een versus groep Binnen een groep
gigantisch. Er zijn tientallen definities van ‘competentie’, maar een van de
Interviewen Leidinggeven Samenwerken
eenvoudigste is:
Onderhandelen Presenteren Verantwoordelijkheid nemen
Coachen Coördineren Organiseren
Een competentie is een mix van Kennis, Vaardigheden en Attitudes die
Beoordelen Adviseren Netwerken
succesvol gedrag in een beroepssituatie mogelijk maakt.
enz.

Voor succesvol beroepsgdrag moet je zaken Weten, dingen Kunnen en het


gedrag ook op een bepaalde wijze Willen vertonen.
Wat opvalt bij bovenstaand voorbeeldlijstje is dat het hier geen beroepsspe-
De keuze van de toetsvorm kan afhankelijk gemaakt worden van de samen-
cifieke competenties betreft, het zijn generieke HBO- of zelfs WO-competen-
stelling van de competentie. Sommige competenties lenen zich meer voor
ties. Dat is geen toeval maar heeft te maken met een visie over het lectoraat
een gedragsproef, andere minder:
en de bijbehorende kenniskring.
Vaardigheden

Gedragsproef
Attitude
Kennis

Competentie Voorbeeld

Luisteren o oo ooo Interviewsimulatie ja


Vergadering leiden o oo oo Projectvergadering ja
Test afnemen o o oo Arbeidsproef ja
Analyseren ooo o Balans lezen nee
Sterkte berekenen ooo o Tentamen nee
Schrijven oo oo o Opstel nee
Enzovoort...

22 23
Kenniskring en lectoraat jaar zal richten op de eerder genoemde ‘generieke’ competenties en bijbeho-
rende gedragsproeven. Op deze manier profiteert een zo groot mogelijke
Bij elk lectoraat in het HBO kan een kenniskring worden gevormd. Een ken- groep binnen (en buiten) Saxion Hogescholen van de inspanningen. Daar
niskring kan bestaan uit interne en externe mensen die deskundig zijn (of komt nog bij dat de aparte instituten en academies geen eigen inspanningen
willen worden) op het betreffende gebied. Bij het lectoraat Assessment is hoeven te doen, maar de door ons ontwikkelde gedragsproeven zo “uit de
ondertussen een kenniskring gevormd bestaande uit medewerkers van kast kunnen trekken”. Wat nog wel locaal – per opleiding of Instituut – moet
Saxion Hogescholen. De namen zijn: Piet Hendriks, Marian Kienhuis, Ard van gebeuren, is de betreffende gedragsproeven aanpassen aan de eigen
der Oord, Hans van der Stam, Caroline Timmers (en ikzelf). Deze zomer zal beroepscontext. Zo zal de inhoud van bijvoorbeeld een presentatie – waarbij
er een grotere kring aan worden toegevoegd, waarbij ook externe mensen de competentie ‘presenteren’ beoordeeld wordt via een al beschikbare
gevraagd zullen worden deel te nemen. gedragsproef – verschillen per opleiding. Een student Verpleegkunde houdt
een andere presentatie dan een student Bouwkunde. Dit type producten
–gedragsproeven die aangepast kunnen worden aan de beroepscontext – wil
de kenniskring Assessment de komende periode gaan ontwikkelen.

Andere producten die vanuit de kenniskring zijn te verwachten, bestaan uit


een ‘Handboek Assessment’, beter gezegd ‘Handboek Gedragsproeven’ en
een bijbehorende DVD waarin uitgelegd wordt hoe een goede gedragsproef
ontwikkeld en gebruikt moet worden. Een vierde product zal bestaan uit een
assessor-training. Een training waarin mensen binnen en buiten Saxion kun-
nen leren hoe je als assessor tot een goede beoordeling van het gedrag
(competenties) van studenten / kandidaten kunt komen. Ook ouderejaars
studenten zullen in aanmerking voor de rol van assessor, bij voorkeur in
een vorm van uitwisseling tussen instituten.

Samengevat: vanuit de kenniskring wordt gewerkt aan een pakketje hulp-


De Kenniskring Assessment: vlnr: Caroline Timmers, Piet Hendriks,
middelen (‘tools’) dat het beoordelen van generieke competenties gemakke-
Wouter Schoonman, Ard van der Oord, Hans van der Stam, Marian Kienhuis lijker maakt. Het pakket omvat in ieder geval:

De kenniskring heeft tot taak het ontwikkelen en beschikbaar maken van • Handboek
assessment instrumenten, hier opgevat als ‘gedragsproeven’. Daarnaast • Video of DVD
wordt van ons onderzoek en het beschikbaar maken van kennis op het • Training
gebied van assessment verwacht. • Kant-en-klare oefeningen

De totale omvang van de kenniskring plus lectoraat beslaat 1.6 FTE (full Dit pakket zal ter beschikking komen voor Saxion, maar ook voor zuster-
time equivalent). Met deze capaciteit moeten zo’n 17.000 studenten van hogescholen, ROC’s (Regionale Opleidings Centra) en het bedrijfsleven/
Saxion worden ‘bediend’. Dat is 0.0001 FTE per student. Om deze reden is overheden (met name stage verlenende organisaties).
door de Stuurgroep (de opdrachtgevers) besloten om de ontwikkelinspan-
ningen te concentreren en de resulterende producten zo breed mogelijk
inzetbaar te maken. Concreet betekent dat de kenniskring zich dit kalender-

24 25
Oriëntatie en selectie Voorlichting over beroep

Binnen het HBO-onderwijs geldt dat het eerste jaar (de propedeuse) gebruikt Kennis
dient te worden als oriëntatiemogelijkheid voor de student en als selectie-
periode voor de instelling. De student krijgt de mogelijkheid kennis te Vaardigheden / Attitudes
maken met het beroep(sveld) en de instelling kan beoordelen of de student
over de juiste motivatie, een voldoende intellectueel niveau en de gewenste Competenties
(studie)houding beschikt. Even afgezien van de beoordelingsproblematiek is
deze dubbele doelstelling van het eerste studiejaar zinnig. Het biedt beide
partijen de mogelijkheid tot selectie en bij een dubbel positief besluit zijn Wanneer we dit vertalen naar elke opleiding binnen het HBO dan ligt het
beide partijen aan elkaar gecommitteerd de eindstreep te halen. voor de hand om dure onderwijs- en beoordelingsmethoden niet in het
begin van de opleiding te gebruiken. Een schema dat ontwikkeld is binnen
Vanuit de selectie- en beoordelingsliteratuur valt over deze werkwijze het een aantal Instituten en Academies van Saxion laat gedurende de opleiding
volgende op te merken. een langzame verschuiving zien in het soort zaken dat onderwezen en
beoordeeld wordt:
Zelfselectie is een zeer efficiënte en transparante methode om de kwaliteit
van het aanbod (gezien vanuit de opleiding) en de satisfactie van de toegela-
ten studenten te verhogen. Het belangrijkste wat hiervoor nodig is, is een
‘realistic job preview’. Stel de student in staat zich een zo realistisch moge-
lijk beeld van zowel de (gehele) studie als het uiteindelijke beroep te vor-
men. Zelfselectie is een gegarandeerde manier om het rendement van de Kennis Vaardigheden Competenties
opleiding en de tevredenheid van de student te vergroten. en Attitudes

Dan de selectie door de opleiding na het eerste studiejaar. Hier komt veel
van het bovenstaande samen. Allereerst vertalen we de beslissing in een uti-
litair selectievraagstuk. De vraag daarbij luidt: is de verwachting dat deze
Verloop in de tijd
student binnen de gestelde periode het einddiploma behaalt? In financiële
termen kan de vraag geherformuleerd worden als: Is het te verwachten dat
de investering die wij als onderwijsinstelling moeten doen om deze student In de beginperiode is dit vooral Kennis en daarnaast enkele basisvaardig-
het diploma te laten behalen, kleiner (of minimaal gelijk) aan de vergoeding heden en -attitudes. In het middengedeelte gaat het voornamelijk over
die ontvangen wordt voor een gediplomeerde? En opnieuw komt beoorde- Vaardigheden en Attitudes en aan het einde komen Kennis, Vaardigheden
ling om de hoek kijken: op welke wijze beoordeel je de waarschijnlijkheid en Attitude samen in de vorm van de eerder beschreven Competenties.
of een student de eindstreep zal halen?
Deze opzet heeft tal van voordelen voor zowel Onderwijs als Toetsing.
In de selectieliteratuur vinden we dat bij grootschalige selectie het ‘trechter- Het is redelijk te veronderstellen dat in elk beroep een minimum aan Kennis
model’ het best voldoet. In dit trechtermodel (‘getrapte selectie’) geldt dat noodzakelijk is. Concentratie van het bijbrengen hiervan in de beginperiode
de goedkoopste en meest efficiënte selectiemethoden als eerste worden toe- lijkt logisch. Dit kost relatief weinig inspanning en de beoordeling (kennis-
gepast. Dit zijn niet per se de methoden met de hoogste predictieve vali- toets) is eenvoudig. Het beoordelen tijdens deze eerste periode geeft ook
diteit. indicaties over het intellectuele niveau en de studiemotivatie van de stu-
dent. Beide zijn dus valide indicatoren over de te verwachten studiepresta-

26 27
ties in de toekomst. In de praktijk bij Saxion komt dit neer op het stellen Conclusie
van de eis van een minimum aantal studiepunten in het eerste jaar. Dit lijkt
een goede oplossing voor het (goedkoop) beoordelen van grote aantallen De individuele beoordelaar is kwetsbaar. Hij maakt gemakkelijk allerlei fou-
studenten in het eerste jaar. Overigens is dit geen nieuwe oplossing. Binnen ten die te maken hebben met emoties, het gebruik van stereotypen en een
het WO worden in het eerste jaar ‘horden’ opgeworpen met een selectieve beperkt begrip van statistiek en kansrekening. Dit betekent niet dat we de
functie: Rechtenstudenten worden geconfronteerd met het vak Romeins beoordelaar af moeten schrijven en uitsluitend puur objectieve beoorde-
Recht, medicijnenstudenten kennen het beruchte ‘botjes-tentamen’ en lingsmethoden zouden moeten toepassen. We moeten er wel voor zorgen
psychologen in spe moeten enig benul hebben van statistiek (!), genetica en dat de beoordelaar zich bewust is van zijn beperkingen en we moeten hem
filosofie. Een prima manier om op relatief goedkope wijze het rendement voorzien van hulpmiddelen die hem het leven makkelijker maken en die de
van een opleiding te vergroten. De relevantie van deze vakken hoeft niet kwaliteit van zijn oordelen verhogen. Training en Tools, dus.
eens de doorslaggevende factor te zijn, bezien vanuit een selectieperspec-
tief. Er zijn diverse beoordelingsmethoden in het (hoger) onderwijs. Leren en
beoordelen horen immers bij elkaar. Moeten alle gangbare beoordelingsme-
In het plaatje hierboven kan dan ook een pijl worden toegevoegd die van thoden worden afgeschaft ten faveure van assessment, hier verengd opgevat
linksonder naar rechtsboven loopt. Deze geeft de investering per student als gedragsproeven? Natuurlijk niet, de te kiezen beoordelingsmethode is
aan gedurende de studie. afhankelijk van wat je moet beoordelen. Beroepscompetenties kun je opvat-
Dat investeringen dus toenemen naarmate het te verwachten rendement ten als een mix van Kennis, Vaardigheden en Attitudes. De manier van
ook toeneemt is het (rationele) basisprincipe bij elk menselijk handelen. beoordelen hangt af van de samenstelling van de competentie. Bij compe-
tenties waarbij de Kenniscomponent hoog is, is uiteraard de kennistoets
Een laatste opmerking betreft de politieke context waarin beoordeling in aangewezen. Bij competenties met een hoog sociaal gehalte en die pas ‘in
het Hoger Onderwijs zich afspeelt. Al jaren worden HBO- en WO instellingen vivo’ zichtbaar worden, ligt een Gedragsproef voor de hand. Maar dan wel
afgerekend op output (het woordgebruik alleen al!). Deze output bestaat uit een gedragsproef die voldoet aan minimale methodologische eisen.
afgestudeerden, gepromoveerden en publicaties. Hoe meer output, hoe rij-
ker de instelling wordt. De 100 jaar oude wet van de psycholoog Thorndike
(“You get what you reward”) voorspelt welke kant het op gaat. Er worden
inderdaad meer hoger opgeleiden geproduceerd! De eenvoudigste methode
om dit te bereiken, is de normen te verlagen en water bij de kwaliteitswijn
te doen (Schoonman, 1993). Studeren in het Hoger Onderwijs dreigt dan te
verworden tot het bij elkaar harken van studiepunten naast het baantje bij
McDonalds. Student en instelling moeten dan een spel spelen, waarbij het
minimaliseren van inspanning en het maximeren van rendement de kern
vormt. Het break-even point voor het onderwijsbedrijf ligt bij 4.35 studie-
jaar, daarboven gaat de student geld kosten. Door deze politieke omstandig-
heden komt extra druk te liggen op de kwaliteit van beoordelingen. En hoe
dit zich verhoudt tot de ambities van het huidige kabinet om Nederland tot
een leidende kennis-economie om te vormen is onduidelijk. Wel duidelijk is
dat investeringen in het (hoger) onderwijs sterk achter blijven bij de rest
van de Europese Unie. Het instellen van lectoraten is daarbij misschien een
klein lichtpuntje...

28 29
Dankwoord Dat brengt mij als vanzelf bij Caroline van de Molen. Zij is de baas van de
dienst Onderwijs & Student waar dit lectoraat logischerwijs is ondergebracht.
Mijn benoeming tot lector is het gevolg van ‘assessment’ door twee commis- Caroline zorgt er op management niveau voor dat ik mij niet bezig hoef te
sies. De eerste commissie vertegenwoordigde het docentenkorps, de tweede houden met allerlei bestuurlijke en financiële vraagstukken. Dat komt goed
het management. Dat legt een druk op mijn schouders. Deze mensen hebben uit, want zij is daar veel beter in dan ik. Onze samenwerking verloopt door
hun vertrouwen in mij uitgesproken en ik moet dat vervolgens waarmaken. deze taakverdeling uitstekend.
Naar mijn mening draait het hele leven om ‘vertrouwen’, of is dat wellicht
het primitieve krokodillenbrein dat spreekt? Er ligt een leeropdracht. Deze is Een verder bedankje is voor alle medewerkers van Saxion met wie ik het
geconcretiseerd tot een aantal producten op assessment gebied die de kennis- afgelopen half jaar gesprekken mocht voeren. De lijst omvat meer dan 200
kring de komende periode wil opleveren. De stuurgroep rond het lectoraat namen, maar ik noem er nu niet een. Dan doe je immers anderen weer tekort.
waarin Joop Cuppen, Jan Auwke Diepenhorst, Lysbeth Haverkamp, Caroline Degenen om wie het gaat weten dat ik hen bedoel. Een gemeenschappelijk
van de Molen, Wim Slingerland en Bert Velt zitting hebben ondersteunen deze kenmerk van deze gesprekspartners is het enthousiasme en de betrokkenheid
voorlopige vertaling van de leeropdracht, waarvoor dank. die ik steeds weer aantref. Saxion is een ingewikkeld conglomeraat van clubs
en clubjes, maar een ding hebben ze gemeen: goed hoger beroepsonderwijs
Dan komen we bij Marjolein Hassink en haar collega’s binnen de Dienst willen leveren ondanks beperkingen in geld en tijd. Ik ervaar het als een ver-
Onderwijs & Student. Marjolein, Elja, Ariene en Astrid zorgen ervoor dat ik ademing dat ik het niet steeds hoef te hebben over targets, forecasts, busin-
zo min mogelijk hoef te regelen. Zij beheren mijn agenda en organiseren van ess cases, shareholder value, accounts en prospects, hoewel de neiging om
alles en nog wat, zoals bijvoorbeeld deze middag. Een goed team zonder wie gewone dingen een engelse naam te geven ook bij Saxion heftig aan de orde
ik letterlijk en figuurlijk ‘lost’ zou zijn binnen Saxion. Dank dames. Ik heb is. Zal wel met ‘internationalisering’ of zelfs ‘mondialisering’ te maken heb-
meer aan jullie, dan jullie aan mij, denk ik zo. ben.

De Raad van Bestuur – met name Wim Boomkamp – dank ik voor het in mij En dan is er nog een aantal studenten (en hun docenten) die mij het leven
gestelde vertrouwen. De RvB heeft ingezet op competentiegericht onderwijs vergemakkelijkt hebben. Allereerst de acht studenten van het Saxion Hoger
en een goede vorm van assessment – waaronder gedragsproeven - hoort daar- Hotel Onderwijs die het team vormen die vandaag zorgen voor de gastvrij-
bij. Dat we ondertussen ook te maken hebben met verschuivende inzichten heid – hospitality in hun woorden. Na een offerte en een briefing – waarin ik
over ‘selectie aan de poort’, toelating van HBO-ers tot Masters’ onderwijs bij mocht vertellen hoe ik het vandaag wilde – hebben zij dit perfect uitgevoerd.
Universiteiten en andere vormen van samenwerking tussen HBO en WO U bent er getuige van. Dank en nogmaals dank.
maken mijn werk alleen maar interessanter, maar ook moeilijker.
Een andere groep studenten – opleiding Kunst en Techniek – is bezig met het
De kenniskring - bestaande uit Piet Hendriks, Marian Kienhuis, Ard van der vastleggen van vanmiddag. De DVD – het eindproduct – is primair bedoeld
Oord, Hans van der Stam en Caroline Timmers – is een pluriform gezelschap voor mensen die er vandaag niet bij konden zijn. Maar misschien ook voor
dat vanuit diverse achtergronden gaat zorgen voor producten die in de onder- sommige wel aanwezigen. Misschien stoppen we deze DVD ook wel bij het
wijspraktijk toepasbaar zijn. Verwacht van ons geen nota’s, rapporten of pakket dat de kenniskring aan het maken is. Het product van deze studenten
visies. We willen concrete producten opleveren waar onze ‘klanten’ mee aan is er nog niet, maar ik heb er alle vertrouwen in dat het iets goed wordt.
de gang kunnen. In die zin dekt het woord ‘kenniskring’ de lading niet geheel. Bedankt hiervoor.
Dit is een projectteam dat zich tot doel gesteld heeft concrete oplossingen te Als laatste bedank ik mijn vrienden en familie. Maandenlang heb ik ze lastig
bieden. In een commerciële omgeving zouden wij ons een Test Publisher noe- gevallen met vragen, verzoeken en zelfs opdrachten. Vandaar: bedankt Jan &
men. Het is jammer dat het budget niet toelaat onze mensen ieder voor meer Rinke, Kasper, Ivo & Merel, Geke en Eliane. Eliane heeft deze tekst drie keer
dan 0.2 FTE te laten bijdragen aan de realisering van onze doelstelling. Je geredigeerd. Hartelijk dank daarvoor. En ik eindig met Kristi, mijn levenspart-
kunt het echter ook positief zien: we hebben nu binnen Saxion een club van ner door dik en dun.
assessment ambassadors, het Saxion Assessment Team met in totaal 1.6 for-
matie. Dat moet lukken. But love’s a malady without a cure.

30 31
Referenties Groot, A.D. de. (1966). Vijven en zessen: cijfers en beslissingen: het selectie-
proces in ons onderwijs. Groningen: Wolters-Noordhoff
Altink, W., Schoonman, W. & Seegers, J. (2004). Menselijk kapitaal. De ontwik-
keling van mensen in organisaties. Assen: Van Gorcum Hamel G. & Prahalad, C.K. (1994). Competing for the future. Boston: Harvard
Business School Press
Arthur, W., Day, E.D., McNelly, T.L. & Edens, P.S. (2003). A meta-analysis of
the criterion-related validity of assessment center dimensions. Personnel Hendriks, A. A. J. (1997). The construction of the Five-Factor Personality
Psychology, 56, 125-154 Inventory (FFPI). Groningen, The Netherlands: Rijksuniversiteit Groningen

Barro, R. (2003). What’s in job seekers’ name? Businessweek, November 2003, Hettema, P.J. (2002). Persoonlijkheid van top tot teen. Assen: Van Gorcum en
3, 12 Nederlandse Stichting voor Psychotechniek

Bartholomew, D.J. & Bassett, E.E. (1971). Cijfers en mensen. De kwantitatieve Heuvelmans, A.P.J.M. & Sanders, P.F. (1993). Beoordelaarsovereenstemming.
benadering van de sociale werkelijkheid. Utrecht: Het Spectrum In: Eggen, T.J.H.M. & Sanders, P.F. (1993) (Eds.) Psychometrie in de praktijk.
Arnhem: Cito
Bernstein, A.J & Rozen, S.C. (1992). Neanderthals at Work! New York:
Ballentine Hofstee, W. K. B., de Raad, B., & Goldberg, L. R. (1992). Integration of the Big-
Five and circumplex approaches to trait structure. Journal of Personality and
Bernstein, P. (1996). Against the Gods: The Remarkable Story of Risk. New Social Psychology, 63, 146-163
York: John Wiley & Sons
Hofstee, W. K. B., Kiers, H. A. L., de Raad, B., Goldberg, L. R., & Ostendorf, F.
Campbell, D.T. & Fiske, D.W. (1959). Convergent and discriminant validation (1997). Comparison of Big-Five structures of personality traits in Dutch,
by the multitrait-multimethod matrix. Psychological Bulletin, 56, 2, 81-105 English, and German. European Journal of Personality, 11, 15-31

d’Agostini, G. (2003). Subjective probability. Hofstee, W.K.B. (1980). De empirische discussie. Theorie van het sociaal-
http://www-zeus.roma1.infn.it/~agostini/cern/node18.html wetenschappelijk onderzoek. Amsterdam: Boom

De Raad, B. & Perugini, M. (2002). Big Five Assessment. Göttingen: Hogrefe & Hofstee, W.K.B. (1999). Principes van beoordeling. Methodiek en ethiek van
Huber Publishers selectie, examinering en evaluatie. Lisse: Swets & Zeitlinger

De Raad, B. (2000). The Big Five Personality Factors. The Psycholexical Hofstee, W.K.B. (2004). Persoonlijke email over voorwaardelijke kansen,
Approach to Personality. Göttingen: Hogrefe & Huber Publishers 13 april 2004

Dekkers, M. (1996). De beste beesten. Amsterdam: Uitgeverij Contact Huff, D. (1961). Gebruik en misbruik van de statistiek. Utrecht: Prisma

Dryden, J. (1700). Palamon and Arcite. Uitgever onbekend Huff, D. (1965). Bereken uw kansen. Utrecht: Prisma

Eggen, T.J.H.M. & Sanders, P.F. (1993) (Eds.) Psychometrie in de praktijk. Jansen, P.G.W. & Jongh, de, F. (1993). Assessment Centers. Een open boek.
Arnhem: Cito Utrecht: Marka

Goldfarb, A. (1959). Reliability of diagnostic judgements made by psycholo- Jansen, P.G.W. (1991). Het beoordelen van managers. Effectiviteit van
gists. Journal of Clinical Psychology, 15, 392-396 assessment center methoden bij selectie en ontwikkeling van managers.
Baarn: Uitgeverij H. Nelissen

32 33
Jeanneret, R. & Silzer, R. (Eds.), (1998). Individual psychological assessment. Schoonman, W. (1993). Macintosh, MS-DOS & Doctorandussen. MacProf, 45,
Predicting behavior in organizational settings. New York: Jossey Bass & 10-11
Society for Industrial and Organizational Psychology
Seegers, H.J.J.L. (1997). Assessment centers een personeelsinstrument voor de
Kahneman, D. & Tversky, A. (1973). On the psychology of prediction. manager. Kluwer NVP: Deventer
Psychological Review, 80, 237-251
Smit, J. (2004). Het drama Ahold. Baarn: Ambo
Kahneman, D. & Tversky, A. (1982). The simulation heuristic. In D.
Kahneman, P. Slovic and A. Tversky (eds.). Judgement under uncertainty: Sternberg, R.J. (2000). Practical intelligence in everyday life. Cambridge:
Heuristics and biases. New York: Cambridge University Press University Press

Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of Straetmans, G.J.J.M. (2004). Protocol Portfolio Scoring. Een methode voor het
representativeness. Cognitive Psychology, 3, 430-454 systematisch scoren en vaststellen van competenties. Arnhem: Citogroep –
BVE en HO Brochurereeks Perspectief op Assessment 4
Kahneman, D., & Tversky, A. (1979). Intuitive prediction: Biases and correcti-
ve procedures. Management Science, 12, 313-327 Trompenaars, F. (1993). Riding the waves of culture. London: Brealey

Kouwer, B. (1963). Het spel van de persoonlijkheid. Theorieën en systemen Tversky, A. & Kahneman, D. (1971). Belief in the law of small numbers.
in de psychologie van de menselijke persoon. Utrecht: Erven Bijleveld Psychological Bulletin, 76, 105-110

Linschoten, J. (1964). Idolen van de psycholoog. Utrecht: Erven Bijleveld Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging fre-
quency and probability. Cognitive Psychology, 5, 207-232
Mischel, W. (1968). Personality and Assessment. New York: John Wiley & Sons
Tversky, A. & Kahneman, D. (1974). Judgement under uncertainty: Heuristics
Nisbett, R.E., & Ross, L.D. (1980). Human Inference: Strategies and and biases. Science, 185, 1124-1131
Shortcomings of Social Judgment. Englewood Cliffs, NJ: Prentice-Hall
Tversky, A. & Kahneman, D. (1983). Extension versus intuitive reasoning.
Paulos, J.A. (1988). Innumeracy. Mathematical illiteracy and its consequences. The conjunction fallacy in probability judgment. Psychological Review, 90,
New York: Hill and Wang 293-315

Ross, L. & Nisbett, R.E. (1991). The person and the situation. New York: Van Dale Lexicografie (1996). Engels – Nederlands. Utrecht: Van Dale
McGraw Hill Lexicografie

Sacks, O. (1985). The man who mistook his wife for a hat. New York: Van der Flier, H. (1992). Hebben wij eigenschappen nodig? ‘Signs’ en ‘samp-
Touchstone Books les’ in het psychologisch selectie-onderzoek. Inaugurale rede, 3 april 1992,
Amsterdam: Vrije Universiteit
Schmidt, F.L. & Hunter, J.E. (1998). The validity and utility of selection
methods in personnel psychology: practical and theoretical implications Vroon, P. (1989). De tranen van de krokodil. Baarn: Ambo
of 85 years of research findings. Psychological Bulletin, 124, 262-274
Wernimont, P.F. & Campbell, J.P. (1968). Signs, samples and criteria. Journal
of Applied Psychology, 52, 372-376

34 35
Postbus 70.000
7500 KB Enschede
Internet www.saxion.nl
E-mail info@saxion.nl

También podría gustarte