banner

Blog

Jan 12, 2024

Le jeu rencontre la physique quantique

Par Intelligent Computing23 août 2023

Les scientifiques ont introduit un schéma d'apprentissage par renforcement photonique, passant du problème statique du bandit multi-bras à un environnement dynamique, utilisant l'interférence quantique des photons pour améliorer la prise de décision. Ils ont développé un algorithme d'apprentissage Q bandit modifié, testé dans un monde de grille 5 × 5, dans le but d'apprendre avec précision la valeur Q optimale pour chaque paire état-action tout en équilibrant l'exploration et l'exploitation.

Comment un joueur peut-il maximiser ses gains sur une rangée de machines à sous ? Cette question a inspiré le « problème des bandits à plusieurs bras », une tâche courante dans l’apprentissage par renforcement dans laquelle les « agents » font des choix pour gagner des récompenses. Récemment, une équipe internationale de chercheurs, dirigée par Hiroaki Shinkawa de l’Université de Tokyo, a introduit une méthode avancée d’apprentissage par renforcement photonique qui permet de passer du problème du bandit statique à un environnement dynamique plus complexe. Leurs conclusions ont été récemment publiées dans la revue Intelligent Computing.

Le succès du programme repose à la fois sur un système photonique pour améliorer la qualité de l'apprentissage et sur un algorithme de support. En examinant une « implémentation photonique potentielle », les auteurs ont développé un algorithme Bandit Q-learning modifié et ont validé son efficacité par des simulations numériques. Ils ont également testé leur algorithme avec une architecture parallèle, dans laquelle plusieurs agents opèrent en même temps, et ont découvert que la clé pour accélérer le processus d’apprentissage parallèle est d’éviter les décisions contradictoires en tirant parti de l’interférence quantique des photons.

Bien que l’utilisation de l’interférence quantique des photons ne soit pas nouvelle dans ce domaine, les auteurs estiment que cette étude est « la première à relier la notion de prise de décision coopérative photonique au Q-learning et à l’appliquer à un environnement dynamique ». Les problèmes d'apprentissage par renforcement se déroulent généralement dans un environnement dynamique qui change avec les actions des agents et sont donc plus complexes que l'environnement statique d'un problème de bandit.

L'agent choisit l'une des quatre actions indiquées par des flèches noires, reçoit une récompense et passe à la cellule suivante. Si l'agent arrive dans l'une des deux cellules spéciales A ou B, la récompense est importante et l'agent passe à une autre cellule, comme l'indiquent les flèches rouges. Crédit : Hiroaki Shinkawa et al.

Cette étude cible un monde en grille, un ensemble de cellules détenant diverses récompenses. Chaque agent peut monter, descendre, gauche ou droite et obtenir une récompense en fonction de son déplacement et de son emplacement actuels. Dans cet environnement, le prochain mouvement de l'agent est entièrement déterminé par son mouvement et son emplacement actuels.

Les simulations de cette étude utilisent une grille de cellules 5 × 5 ; chaque cellule est appelée un « état », chaque mouvement effectué par un agent à chaque pas de temps est appelé une « action » et la règle déterminant comment un agent sélectionne une certaine action dans chaque état est appelée une « politique ». Le processus de prise de décision est conçu comme un scénario de problème de bandit, dans lequel chaque paire état-action est considérée comme une machine à sous et les changements de valeur Q – les valeurs des paires état-action – sont considérés comme des récompenses.

Contrairement aux algorithmes Q-learning de base, qui se concentrent généralement sur la recherche du chemin optimal pour maximiser les récompenses, l'algorithme Bandit Q-learning modifié vise à apprendre la valeur Q optimale pour chaque paire état-action dans l'ensemble de l'environnement, de manière efficace et précise. Par conséquent, il est essentiel pour un agent de garder un bon équilibre entre « exploiter » les paires familières avec des valeurs élevées pour un apprentissage plus rapide et « explorer » les paires non fréquentées pour des valeurs potentiellement plus élevées. L’algorithme softmax, un modèle populaire qui excelle dans ce type d’équilibrage, est utilisé comme politique.

La priorité future des auteurs est de concevoir un système photonique permettant une prise de décision sans conflit entre au moins trois agents, en espérant que son ajout au schéma proposé aidera les agents à éviter de prendre des décisions contradictoires. Parallèlement, ils envisagent de développer des algorithmes permettant aux agents d’agir en continu et d’appliquer leur algorithme Bandit Q-learning à des tâches d’apprentissage par renforcement plus complexes.

PARTAGER