L’Encyclopedia Universalis définit la théorie des jeux de cette manière :
« La théorie des jeux se propose d'étudier des situations (appelées « jeux ») où des individus (les « joueurs ») prennent des décisions, chacun étant conscient que le résultat de son propre choix (ses « gains ») dépend de celui des autres. C'est pourquoi on dit parfois de la théorie des jeux qu'elle est une « théorie de la décision en interaction ». Les décisions ayant pour but un gain maximum – elles relèvent d'un comportement rationnel –, elles peuvent se prêter au traitement mathématique – calcul d'extremums, approche probabiliste. La théorie des jeux est de ce fait parfois présentée comme une « branche des mathématiques » ; il est vrai que des mathématiciens (Émile Borel et John von Neumann, qui se situaient dans une tradition remontant au moins à Pascal et Bernoulli) sont à son origine, et qu'elle demeure essentiellement le fait de mathématiciens. »
John Nash a introduit le concept de l’équilibre de Nash. Dans ce cas, aucun des joueurs ne peut trouver une meilleure stratégie de jeu compte tenu de toutes les décisions prises par les autres joueurs. On recherche alors la valeur maximale. John Nash avait soutenu sa thèse sur les jeux non-coopératifs.
La théorie des jeux est très présente en intelligence artificielle. Dans l’apprentissage par renforcement, un agent autonome apprend à partir des expériences à prendre les décisions pour obtenir une récompense maximale au fil du temps. La fonction de valeur optimise une utilité. Cette fonction de valeur donne le retour attendu après un état ou une paire état-action. Le retour d’une trajectoire est une mesure de la récompense cumulative le long de celle-ci. Pour l’apprentissage Q, qui est une méthode d’apprentissage par renforcement, il n’y aucun modèle initial de l’environnement. La fonction Q est basée sur une action qui agit de manière optimale.
Il y a des situations où l’on souhaite que tous les joueurs gagnent. C’est le cas pour un système fiscal qui serait juste. Les privilégiés ne seraient pas découragés de travailler et les moins favorisés seraient davantage aidés. C’est le cas qui est présenté dans The AI Economist. C’est une situation où tout le monde gagne.
Dans l’article de blogue, Learning to Cooperate, Compete and Communicate d’OpenAI, les populations multi-agents se font concurrence pour les ressources. Elles apprennent la coopération pour maximiser leurs gains.
Dans le papier, Emergent Tool Use From Multi-Agents Interaction, OpenAI étudie ici des agents qui jouent à un jeu de cache-cache en équipe. En s'entraînant dans ce nouvel environnement de jeu de cache-cache simulé, les agents construisent une série de six stratégies et contre-stratégies distinctes. Là encore, elles apprennent à optimiser leurs statégies pour obtenir un gain maximal.
Ainsi, avec seulement quelques exemples, on voit bien l'intérêt de revoir la théorie des jeux. Une lecture qui en vaut assurément la peine !
Stéphanie Tessier
Comments