Volkswijsheid in de speltheorie
Auteur(s):
Zeeuw, A.J. de (auteur)
De auteur is hoogleraar aan de Katholieke Universiteit Brabant.
Verschenen in:
ESB, 81e jaargang, nr. 4085, pagina 1018, 11 december 1996 (datum)
Rubriek:
ABC
Trefwoord(en):
abc, speltheorie
Is het mogelijk om uit een ‘prisoners’dilemma’ te komen? Ja, als partijen weten dat zij bet spel to Sintjuttemis moeten spelen, Aldus het
volkstheorema.
In veel economische analyses komt de volgende redenering voor. “Samenwerking is beter dan geen samenwerking maar helaas is
samenwerking geen stabiele uitkomst”. Dat komt omdat er prikkels zijn voor betrokken partijen om eenzijdig de samenwerking te
verbreken. Het gevolg is een nieuwe evenwichtssituatie, die minder efficiënt is.
Een voorbeeld is het klimaat-probleem. Door de uitstoot van broeikasgassen, zoals C02, worden er veranderingen in het klimaat verwacht,
die voor alle landen schadelijk kunnen zijn. Op internationale bijeenkomsten worden er door de geïndustrialiseerde landen afspraken
gemaakt om de uitstoot van C02 gemeenschappelijk terug te dringen. Het probleem is nu dat, gegeven die afspraken, landen in de
verleiding zijn om het beleid niet uit te voeren, omdat er zo meer kosten bespaard worden dan ervoordelen verloren gaan.
In getallenvoorbeeld ziet deze situatie er als volgt uit. Stel, er zijn twee landen die ieder de keuz hebben om emissies wel of niet te
reduceren. Landen kunnen kiezen tussen ‘reductie’, wat we met de G van goed zullen aanduiden, en ‘geen reductie’, aangeduid met de S
van slecht. Reductie in land levert voor beide landen baten ter waarde van 4 op, maar kost land I 5. Hetzelfde geldt voor land II Als een
land alleen naar de eigen kosten en baten kijkt zal er geen emissiereductie plaatsvinden. Voo de twee landen gemeenschappelijk echter
zijn de baten per reductie 8 en zal men wel kiezen voo emissiereductie. Dit spel kan weergegeven worden in een matrix, zie tabel 1. De rijen
representeren de twee mogelijke acties van land 1 en de kolommen die van land 2. In de matrix staan de netto opbrengsten voor de twee
landen die uit die acties resulteren.
Tabel 1. Netto opbrengsten voor twee landen bij goed en slecht beleid
II: G
S
G
(3,3) (-1,4)
S
(4.-1) (0,0)
I:
De analyse van dit spel verloopt als volgt. Voor beide landen is S (geen reductie) de dominante actie en (S,S) is dus het punt waarin geen
van beide landen een prikkel heeft om eenzijdig af te wijken (ook wel aangeduid als het Nash-evenwicht). (G,G) levert voor de twee
landen gemeenschappelijk de hoogste opbrengst, maar vanuit (G,G) hebben beide landen een prikkel om eenzijdig af te wijken.
Dit probleem staat in de literatuur bekend als het ‘prisoners’ dilemma’, naar een soortgelijk spel tussen twee gevangenen die ieder voor de
keuze gesteld worden om de ander te verlinken in een nog zwaardere zaak in ruil voor strafvermindering. De prikkel dat de huidige straf
verminderd wordt leidt tot de situatie dat beiden hun mond opendoen. Het was echter beter geweest als ze hun mond dicht hadden
gehouden, omdat de totale straf na reductie hoger is dan de huidige straf. Speltheoretici zien dit echter niet meer als een probleem. We
hebben toch het ‘folk theorem’, maar wat is dat ‘volkstheorema’ eigenlijk?
Het volkstheorema
De naam van dit theorema refereert aan het feit dat het al heel lang bekend was als een soort folklore zonder dat precies getraceerd kon
worden door wie en waar het geïntroduceerd was in de literatuur Het idee is dat als een spel als in tabel 1 niet eenmalig maar vaker wordt
gespeeld, het suboptimal Nash-evenwicht kan worden voorkomen. Als het spel telkens opnieuw herhaald wordt ontstaan de
aanmerkelijk ruimere strategische mogelijkheden. De spelers kunnen dan bijvoorbeeld beginnen met G te spelen en dreigen met S zodra
de ander geen G meer speelt. Elk land gaat uit van de goede wil van het andere land en begint met emissiereductie, maar dreigt daarmee
op te houden zodra het andere land niet meer meewerkt. Nog steeds is er op ieder moment een prikkel om niets te doen en slechts de
voordelen te genieten van emissiereducties in het andere land. De wetenschap dat die voordelen dan voor altijd verloren gaan
weerhoudt beide landen ervan om niets te doen. De prikkel om af te wijken wordt geneutraliseerd door de dreiging van verlies aan
opbrengst daarna. Het wordt rationeel om samen te werken. De spelers houden met hun dreiging elkaar op het coöperatieve pad. Dit idee
is ijzersterk, maar toch zal het niet altijd werken.
Variaties op het thema
Laten we eerst kijken naar de situatie dat het spel een eindig aantal keren gespeeld wordt. Aan het eind van deze reeks zullen de landen S
kiezen en geen emissies reduceren, omdat zij er in de toekoms niet meer voor gestraft kunnen worden. Als gevolg hiervan kiezen ze in de
periode ervoor ook S. D toekomst ligt immers vast en kan daarom geen rol spelen in de keuze. Het mechanisme dat goed gedrag met goed
gedrag beloond wordt en slecht gedrag met slecht gedrag bestraft, is verdwenen zodat het volkstheorema bij een eindige herhaling van
het spel niet werkt. De keuze blijft iedere keer om de emissies niet te reduceren.
Een variant op bovenstaande redenering is dat er wel steeds een toekomst in het spel is, maar dat dit niet zwaar meetelt. Dan is er
onvoldoende dreiging van toekomstige verliezen, zodat het volkstheorema niet opgaat. Daarom staat er in de formulering van het
theorema altijd de conditie dat de discontofactor hoog genoeg moet zijn. Als de belangen van toekomstige generaties onvoldoende
zwaar wegen zal de conclusie van deze analyse zijn dat er weinig hoop is dat de uitstoot van C02 zal worden teruggedrongen.
Formalisering
We kunnen bovenstaande ideeën eenvoudig formaliseren. We blijven optimistisch over de toekomst en nemen aan dat het spel van tabel
1 oneindig keer herhaald wordt. De voorgestelde strategie is om te beginnen emissies te reduceren (G) en dat te blijven doen zolang het
andere land dat ook doet, maar voor altijd daarmee te stoppen (S) zodra het andere land een keer afwijkt. Als beide landen deze strategie
volgen, is samenwerking het resultaat. Dat is mooi, maar kunnen deze strategieën ook resulteren in een Nash-evenwicht? Daartoe moeten
we nagaan of de landen een prikkel hebben om eenzijdig af te wijken. Stel, dat een land overweegt om op een bepaald moment te stoppen
en S te spelen. De opbrengst op dat moment is 4. De toekomstige opbrengsten zijn dan 0, omdat het andere land zal reageren door
voortaan geen emissies te reduceren en dat houdt weer in dat het voor het eerste land rationeel is dat ook niet meer te doen. Als land I
niet afwijkt dan blijven de landen op het coöperatieve pad en is de totale verdisconteerde opbrengst gelijk aan:
3 + ï¤3 + (ï¤23 + … = 3/(1 – ï¤)
waarbij ï¤ de discontofactor is. Het is duidelijk dat land I beter niet kan afwijken, als deze opbrengst groter is dan 4 ofwel als de
discontofactor ï¤ > 1/4. Bovenstaande strategieën vormen dus een Nash-evenwicht, mits de discontofactor groot genoeg is, en dit Nashevenwicht leidt tot de coöperatieve uitkomst.
Toch is dit verhaal nog niet geheel bevredigend. De straf om voortaan altijd S te spelen, als de tegenstander één keer S kiest, lijkt zwaar.
Het is voor beide spelers beter om weer terug te keren naa het coöperatieve pad. Zou de speler, die één keer afgeweken is, ook berouw
kunnen tonen? De vraag is eigenlijk of er een ander Nash-evenwicht bestaat dat ook de coöperatieve uitkomst ondersteunt maar minder
rigoreuze consequenties heeft als er een keer een fout wordt gemaakt.
Berouw tonen betekent in dit verband dat een land na één keer slecht gedrag (S) voortaan weer goed gedrag (G) vertoont. Het andere
land moet dreigen om als reactie op S ook een keer S te kiezen maar kan dan wellicht het berouw accepteren en ook weer G kiezen. Hoe
moeten we deze strategieën precies formuleren? Het lijkt een beetje op ‘tit for tat’, waar S met S en G met G beantwoord wordt maar dit is
niet voldoende. Als een land begint met slecht gedrag dan blijven ze elkaar om en om op de kop slaan en keren ze niet meer terug naar
het coöperatieve pad. De strategieën moeten daarom een onderscheid maken tussen de actie S als poging om voordeel te behalen en de
actie S als straf. Daarvoor moet een vorm van geheugen in het spel worden geïntroduceerd. Dit is mogelijk door het begrip ‘toestand’ te
gebruiken.
Het spel kan in drie toestanden verkeren: ‘samenwerken’, straf land l’ en ‘straf land 2’. Het spel begint in de toestand ‘samenwerken’ en
blijft daar zolang beide landen G kiezen. Dit betekent dat ook deze strategieën de coöperatieve uitkomst opleveren, maar hoe wordt de
prikkel tot eenzijdig afwijken nu precies geneutraliseerd? Als land 1 een keer S kiest, verandert de toestand van het spel naar ‘straf land l’,
waar land 2 als straf S zal kiezen en land 1 met G berouw zal tonen. Als land 1 berouw toont keert de toestand van het spel weer terug
naar ‘samenwerken’, wat inhoudt dat het ‘tit for tat’-mechanism na één keer doorbroken wordt en de samenwerking hersteld wordt. Het
blijft onvoordelig voor land 1 om af te wijken, omdat de opbrengst over de twee perioden alvorens de samenwerking hersteld wordt (4 + ï¤
(-1)) kleiner is dan de opbrengst als land 1 goed gedrag was blijven vertonen (3 + ï¤3), mits weer de discontofactor groot genoeg is (ï¤ >
1/4). Evenzo heeft het voor land 1 geen zin om geen berouw te tonen in de toestand, ‘straf land l’, omdat het dan één periode langer duurt
voordat de samenwerking hersteld wordt en de opbrengst over die twee perioden (0 + ï¤ (-1)) kleiner is dan de opbrengst als land 1
meteen berouw had getoond (-1 + ï¤3), mits ï¤ > 1/4.
Deze strategieën vormen dus weer een Nash-evenwicht maar één met minder desastreuze consequenties, als er een keer een vergissing
wordt begaan. De stategieën bij het eerste Nas evenwicht worden wel ‘grim’ genoemd vanwege de onverbiddelijke straf en het sombere
toekomstperspectief. In het tweede geval wordt wel gesproken over ‘getting even’, omdat een land, na door afwijken voordeel te hebben
behaald, eerst moet toestaan dat het andere land ook een keer afwijkt alvorens de samenwerking hersteld wordt. Beide Nashevenwichten leveren de coöperatieve uitkomst van het bovenstaande spel, maar het tweede evenwicht heeft de eigenschap dat, als het
mis gaat, het ook vanzelf weer goed komt.
Dit is een fraai resultaat maar voert al verder dan het eigenlijke volkstheorema. Anderzijds is het volkstheorema wat ruimer dan alleen dat
samenwerking ondersteund kan worden met een Nash-evenwicht. De stelling kunnen we het best formuleren aan de hand van figuur 1.
We hebben al gezien dat, als de landen altijd samenwerken, ieders totale verdisconteerde opbrengst gelijk is aan 3/(1-ï¤) Herschalen door
voorvermenigvuldigen met (1-ï¤) levert weer 3 op. Dit betekent dat het punt (3,3), na herschaling, ook de uitkomst representeert van het
oneindig herhaalde spel, waarin de landen steeds G kiezen. Het is nu niet moeilijk in te zien dat alle mogelijke uitkomsten van het oneindig
herhaalde spel, na herschaling, gekarakteriseerd worden door het gebied tussen de punten uit de matrix van tabel 1.
Figuur 1. Alle Nash-evenwichten
Uitkomsten waarbij één van beide spelers minder krijgt dan 0 kunnen nooit resulteren uit een Nash-evenwicht. Het volkstheorema leert
nu dat alle andere mogelijke uitkomsten wel ondersteund kunnen worden door een Nash-evenwicht, als het spel oneindig vaak herhaald
wordt en de discontofactor groot genoeg is. Dit is het gearceerde gebied in figuur 1. Het belangrijkste resultaat blijft natuurlijk dat de
coöperatieve uitkomst in dit gebied ligt. De speltheorie heeft dus het dilemma uit de inleiding opgelost, Of niet? Een oordeel laat ik graag
aan de lezer over.
Copyright © 1996 – 2003 Economisch Statistische Berichten (www.economie.nl)
Auteur
Categorieën