TRI développe une nouvelle méthode pour enseigner aux robots la nuit

By | September 19, 2023

L’apprentissage pourrait très bien être la frontière la plus excitante de toute la robotique. Le camp lui-même remonte à plusieurs décennies. Les années 1980, par exemple, ont apporté des percées passionnantes dans l’apprentissage par démonstration, mais une série de projets de recherche menés par des écoles comme la CMU, le MIT et l’UC Berkeley laissent présager un avenir dans lequel les robots apprendront un peu comme leurs homologues humains.

Aujourd’hui, lors de la phase matérielle de TechCrunch Disrupt, le Toyota Research Institute (TRI) présente les avancées de la recherche qui peuvent enseigner à un robot une nouvelle compétence littéralement du jour au lendemain.

« La rapidité avec laquelle cela fonctionne est extraordinaire », déclare Gill Pratt, PDG et scientifique en chef du TRI. « Dans le domaine de l’apprentissage automatique, jusqu’à récemment, il y avait un compromis : où cela fonctionne, mais il faut des millions de cas de formation. Quand on fait des choses physiques, on n’a pas le temps pour beaucoup de choses et la machine tombe en panne avant d’atteindre 10 000. Il semble maintenant que nous en ayons besoin de dizaines. La raison de ces dizaines est que nous avons besoin d’une certaine diversité dans les cas de formation. Mais dans certains cas, il est inférieur. »

Le système démontré par TRI utilise des techniques d’apprentissage robotique plus traditionnelles, associées à des modèles de diffusion, similaires aux processus qui alimentent les modèles d’IA génératifs tels que Stable Diffusion. L’aile de recherche du constructeur automobile affirme avoir formé des robots sur 60 compétences et plus en utilisant cette méthode. Mais les modèles existants ne résoudront pas le problème à eux seuls.

« Nous avons constaté de grands progrès avec l’avènement de [large language models], en les utilisant pour donner ce haut niveau d’intelligence cognitive aux robots », explique Benjamin Burchfiel, chercheur principal au TRI. « Si vous avez un robot qui ramasse quelque chose, maintenant, au lieu d’avoir à spécifier un objet, vous pouvez lui dire de ramasser la canette de Coca-Cola. Ou vous pouvez lui dire de récupérer l’objet brillant, ou vous pouvez faire la même chose et le faire en français. C’est vraiment cool, mais si vous voulez qu’un robot branche un périphérique USB ou attrape un mouchoir, ces modèles ne fonctionnent tout simplement pas. Ils sont vraiment utiles, mais ils ne résolvent pas cette partie du problème. Nous nous concentrons sur la nécessité de combler cette pièce manquante et ce qui nous passionne vraiment maintenant, c’est que nous avons réellement un système et que les fondamentaux sont bons.”

Parmi les avantages de la méthode figure la possibilité de programmer des compétences capables de fonctionner dans différents contextes. Ceci est important, car les robots ont du mal à fonctionner dans des environnements moins structurés ou non structurés. C’est en grande partie pourquoi il est plus facile pour un robot, par exemple, d’opérer dans un entrepôt plutôt que dans une rue ou même dans une maison. Les entrepôts sont généralement construits pour être structurés, avec peu de modifications autres que la navigation avec des objets en mouvement tels que des personnes ou des chariots élévateurs.

Idéalement, vous voulez un robot capable de rouler avec ses coups. Obtenez la maison. L’un des principaux objectifs du TRI a été de développer des systèmes capables d’aider les personnes âgées à continuer de vivre de manière indépendante. C’est une préoccupation de plus en plus grande dans les pays à population vieillissante, comme le Japon, berceau de Toyota. L’un des objectifs est de créer un système capable de fonctionner dans différents environnements et de faire face aux changements qui y sont contenus.

Les gens déplacent les meubles, laissent des dégâts et ne remettent pas toujours les choses à leur place. Traditionnellement, les roboticiens doivent adopter une sorte d’approche par force brute pour ces choses, en anticipant tous les cas extrêmes/écarts et en programmant le robot pour qu’il les gère à l’avance.

C’est une chose importante si les robots fonctionnent comme annoncé dans le monde réel. Ce que les roboticiens considèrent comme des systèmes « à usage général » est tout aussi important. Ce sont des robots capables d’apprendre et de s’adapter à de nouvelles tâches. Il s’agit d’un changement radical par rapport aux systèmes à usage unique plus traditionnels, formés pour bien faire une chose encore et encore. Il convient toutefois de rappeler que nous sommes encore loin de tout ce qui peut être considéré de manière crédible comme étant « à usage général ».

Crédits images : Institut de recherche Toyota

Les roboticiens du TRI commencent par enseigner les systèmes par téléopération, un outil courant dans l’apprentissage des robots. Dans ce cas, ce processus peut prendre quelques heures monotones, au cours desquelles le système est obligé de répéter la même tâche encore et encore.

“Vous pouvez imaginer cela comme guider à distance un robot lors de démonstrations”, explique Burchfiel. « Actuellement, ce nombre s’élève généralement à plusieurs dizaines. Il faut généralement environ une heure pour enseigner un comportement de base. Le système ne se soucie pas vraiment de la façon dont vous contrôlez un robot. Celui que nous avons utilisé plus récemment, et qui a permis un plus grand nombre de ces comportements plus agiles, est un dispositif téléopérable qui transmet réellement la force entre le robot et la personne. Cela signifie que la personne peut ressentir ce que fait le robot lorsqu’il interagit avec le monde. Cela vous permet de faire d’autres choses que vous ne pourriez pas coordonner autrement.

Le système utilise toutes les données présentées, y compris le retour visuel et de force, pour produire une image plus complète de l’activité. Tant qu’il existe un certain chevauchement entre les données qu’il collecte (par exemple, en associant la vision au toucher), il peut reproduire cette activité à l’aide de ses capteurs intégrés. Le retour de force est essentiel pour comprendre si, par exemple, vous tenez correctement un outil.

TRI affirme que ses premières expériences haptiques « ont été extrêmement prometteuses ». Le retournement des crêpes, par exemple, a eu un taux de réussite de 90 %, avec 27 retournements sur 30 – une légère amélioration par rapport aux essais non tactiles, qui ont obtenu un score de 83 %. En revanche, ce chiffre est très élevé lorsqu’il s’agit d’étaler la pâte (96 %) et de servir les aliments (90 %). Sans détection tactile, ces chiffres tombent respectivement à 0 et 10 pour cent.

Une fois cet aspect de la formation terminé, les systèmes sont laissés seuls, car leurs réseaux neuronaux commencent à travailler sur la formation du jour au lendemain. Si tout se passe comme prévu, la compétence sera pleinement maîtrisée au moment où les chercheurs reviendront au laboratoire le lendemain matin.

Crédits images : Institut de recherche Toyota

Le système est basé sur la politique de diffusion, qui est “une nouvelle façon de générer le comportement d’un robot en représentant la politique visuomotrice d’un robot comme un processus de débruitage de diffusion conditionnel”, selon les chercheurs à l’origine du projet. En termes plus simples, il s’agit de trouver un sens aux images aléatoires en supprimant le « bruit » du processus. Encore une fois, cela ressemble beaucoup à ce que nous avons vu dans le monde de l’IA générative, mais cette recherche utilise des processus pour créer des comportements chez le robot.

J’ai récemment réalisé que je pensais à l’apprentissage robotique. J’avais auparavant considéré que les différentes méthodes d’enseignement des robots étaient en conflit les unes avec les autres : en fin de compte, une méthode supérieure épuiserait les autres. Il est clair pour moi que la voie à suivre passera par une combinaison de différentes méthodes, de la même manière que les humains apprennent. Un autre aspect important de tout cela est la flotte d’apprentissage, qui est un système basé sur le cloud accessible de manière centralisée que les robots peuvent utiliser pour enseigner et apprendre des expériences des autres.

L’une des prochaines étapes clés consiste à créer de grands modèles comportementaux pour aider les robots à apprendre. «Nous cherchons à nous développer», déclare Russ Tedrake, vice-président de la recherche en robotique. «Nous avons déjà formé 60 compétences, 100 échelles d’ici la fin de l’année, des milliers d’échelles d’ici la fin de l’année prochaine. Nous ne connaissons pas encore les lois d’échelle. Combien de compétences devrons-nous former pour que quelque chose de complètement nouveau ressorte de l’autre côté ? Nous l’étudions. Maintenant, nous sommes dans un régime où nous pouvons commencer à poser ces questions fondamentales et commencer à examiner les lois pour savoir sur quel type de calendrier nous nous trouvons. »

Crédits images : Institut de recherche Toyota

À terme, l’équipe espère que ces découvertes mèneront à des robots plus performants, capables de manipuler de nouveaux objets dans de nouveaux contextes, tout en créant des actions à la volée basées sur des comportements entraînés. Dans de nombreux cas, les activités comprennent des comportements plus petits qui peuvent être enchaînés et exécutés. Le tout en temps voulu, bien sûr.

Pendant ce temps, Pratt rejoindra jeudi Marc Raibert, directeur exécutif du Boston Dynamics AI Institute, dans le cadre de la phase matérielle de Disrupt. Les deux hommes discuteront de ces résultats et bien plus encore.

Leave a Reply

Your email address will not be published. Required fields are marked *