Actueel

Hoe computers leren (en wat wij daarvan kunnen leren)

di 14 mei 2019 - Guido van de Wiel

Tot een aantal jaren geleden gold dat robots met name werden ontwikkeld om dirty, dull and dangerous work van ons over te nemen. Maar dankzij de toegenomen computerkracht blijkt dat robots ook steeds meer ingezet worden voor dear, detailed and differentiated work: denk aan het uitvoeren van ingewikkelde chirurgische ingrepen, het herkennen en duiden van de kleinste tumoren in hersenscans of het overzien van complexe verkeerssituaties.

Robots in de vorm van Tesla’s of computers met klinkende namen als Avicenna of DeepMind blijken inmiddels grote complexiteit aan te kunnen. Sterker nog, ze kunnen complexiteit beter aan dan mensen dat kunnen. Zo zorgt het gebruik van de autopilot van Tesla er nu al voor dat de kans dat je schade rijdt zeker met een factor twee vermindert.

Een eerste hint dat we op dit kruispunt terecht zouden komen, kregen we al in 1996 toen computer Deepblue gedurende een aantal schaakwedstrijden de toenmalige wereldkampioen Garry Kasparov versloeg. Maar dat was nog maar het begin. Toen 20 jaar later Google-computer AlphaGo Europees kampioen Fan Hui in het eeuwenoude en zeer complexe spel Go wist te verslaan, kon het dak eraf. Deze prestatie uit 2016 is extra opmerkelijk te noemen omdat voor het spelen van Go het aanwezig zijn van een flinke dosis intuïtie voorwaardelijk en noodzakelijk werd geacht. Die intuïtie was nu dus kunstmatig ontwikkeld.  

AlphaGo blijkt zijn succes niet alleen te danken aan de toegenomen rekenkracht van computers; de intuïtieve kant ervan hebben de onderzoekers met name weten te ontwikkelen door slim een aantal opeenvolgende, verschillende leerstrategieën aan te bieden.

De onderzoekers van Google DeepMind gingen eerst met supervised learning (SL) aan de slag. Hiertoe lieten ze het computerprogramma een analyse maken van 30 miljoen bestaande zetten in professioneel gespeelde Go-partijtjes. Door deze input van big data werd de basis voor AlphaGo als toekomstig sterspeler gelegd. Gedurende deze fase van SL werd AlphaGo steeds beter in patroonherkenning: welke sequenties keerden vaker terug, welke pakten daarbij goed uit en welke ‘afslagen’ in het spel kon je beter niet nemen? Het helpt om te leren van de besten. Ook onderschrijft deze eerste fase de kracht van al het leren dat gebaseerd is op intensieve leerling-gezel-meester-contacten. En voor mensen in de schoolbanken een tip: afkijken mag – of moet zelfs – wil je zelf een van de besten in je vakgebied worden.

Na deze fase testten de onderzoekers het programma door AlphaGo (nog in SL-modus) tegen een ander sterk Go-programma, genaamd Pachi, te laten spelen. Laatstgenoemde computer voerde per zet steeds 100.000 simulaties uit. AlphaGo won desondanks 85% van al deze partijen, zonder zelf ook maar één simulatie te draaien. AlphaGo ‘wist’ het gewoon. AlphaGo was tegen die tijd dus al een behoorlijk intuïtieve Go-speler geworden. De (volks)wijsheid dat je iets 10.000 uur moet doen om ergens echt goed in te worden, krijgt hier zijn pendant in de digitale wereld van leren.

Vervolgens lieten de onderzoekers AlphaGo vele varianten van het bordspel Go tegen zichzelf spelen. Hierdoor verbeterde AlphaGo zijn strategieën en ontwikkelde het waardevolle speltechnieken (Reinforcement Learning; RL). Met alleen een goede basis kom je er niet. Zelf heel veel vlieguren maken is blijkbaar onontbeerlijk. Fouten maken is daarbij geen schande: nee, fouten maken móet. Daar word je juist beter van! AlphaGo leerde van zijn eigen fouten en werd juist daardoor bij machte om ook resultaten op lange termijn te leren voorspellen.

Mensen die zich de film WarGames uit 1983 herinneren, kunnen zich misschien nog de eindscène voor de geest halen: een war-room vol hooggeplaatste militairen waarbij het centrale computersysteem onbedoeld de volledige en autonome zeggenschap had gekregen over alle kernraketten. Daarnaast: de aanwezigheid van een jongetje. Deze programmeerde de computer snel om keer-op-keer potjes ‘boter, kaas en eieren’ met zichzelf te spelen. De computer leerde daarop dat het starten van een Wereldoorlog in geen enkel scenario een goede ‘zet’ zou zijn. De computer schakelde zichzelf uit. Natuurlijk net voordat het de eerste kernraket de lucht in stuurde. Eind goed, al goed.

Ik ben benieuwd wanneer AlphaGo tot de conclusie komt dat het voor iedereen beter is als sommige wereldleiders uit hun ambt als leider of president ontheven worden...

 

Guido van de Wiel (Wheel Productions) is organisatiepsycholoog, ghostwriter en verbonden aan Verdraaide organisaties en de Veranderbrigade. Hij schreef boeken zoals Durf het verschil te maken (best verkochte verandermanagementboek van 2018), Organiseren met toekomst en Innoveerkracht. Hij is executive coach bij TIAS School for Business and Society en bij RSM. Trendwatcher of the Year.

 

Gebruikte bronnen


Geef hieronder uw reactie op dit nieuwsitem

Leave this one empty:
Naam:
Don't fill in data here:
Reactie:
Don't put anythin in here:
CAPTCHA Image

Nog geen reacties geplaatst