L'IA apprend à prédire le comportement humain à partir de vidéos

Prédire ce que quelqu'un est sur le point de faire ensuite en fonction de son langage corporel est naturel pour les humains, mais pas pour les ordinateurs. Lorsque nous rencontrons une autre personne, elle peut nous saluer avec un bonjour, une poignée de main ou même un coup de poing. Nous ne savons peut-être pas quel geste sera utilisé, mais nous pouvons lire la situation et réagir de manière appropriée.

Dans une nouvelle étude, les chercheurs de Columbia Engineering dévoilent un AI technique de vision pour donner aux machines une idée plus intuitive de ce qui va se passer ensuite en tirant parti des associations de niveau supérieur entre les personnes, les animaux et les objets.

L'algorithme est une étape vers la capacité des machines à faire de meilleures prédictions sur le comportement humain, et ainsi à mieux coordonner leurs actions avec les nôtres et avec un certain nombre de possibilités de collaboration homme-robot, de véhicules autonomes et d'assistance. sans souci.

C'est la méthode la plus précise à ce jour pour prédire les événements d'action vidéo jusqu'à plusieurs minutes dans le futur, selon les chercheurs. Après avoir analysé des milliers d'heures de films, de jeux de sport et d'émissions comme "The Office", le système apprend à prédire des centaines d'activités, de la poignée de main au coup de poing. Lorsqu'il ne peut pas prédire l'action spécifique, il trouve le concept de niveau supérieur qui les relie, dans ce cas, le mot « salutation ».

Les tentatives passées d'apprentissage automatique prédictif, y compris celles de l'équipe, se sont concentrées sur la prédiction d'une seule action à la fois. Les algorithmes décident s'il faut classer l'action comme un câlin, un high five, une poignée de main ou même une non-action comme « ignorer ». Mais lorsque l'incertitude est élevée, la plupart des modèles d'apprentissage automatique sont incapables de trouver des points communs entre les options possibles.

Les chercheurs ont décidé d'examiner le problème de prédiction à plus long terme sous un angle différent. Tout n'est pas prévisible dans l'avenir, ont déclaré les chercheurs. Lorsqu'une personne ne peut pas prévoir exactement ce qui va se passer, elle joue la sécurité et prédit à un niveau d'abstraction plus élevé. Notre algorithme est le premier à apprendre cette capacité à raisonner de manière abstraite sur des événements futurs. »

Les chercheurs doivent revisiter des questions en mathématiques qui remontent aux anciens Grecs. Au lycée, les élèves apprennent les règles familières et intuitives de la géométrie : les lignes droites vont droit, les lignes parallèles ne se croisent jamais. La plupart des systèmes d'apprentissage automatique obéissent également à ces règles. Mais d'autres géométries, cependant, ont des propriétés bizarres et contre-intuitives ; les lignes droites se plient et les triangles se gonflent. Les chercheurs ont utilisé ces géométries inhabituelles pour créer des modèles d'IA qui organisent des concepts de haut niveau et prédisent le comportement humain à l'avenir.

La prédiction est la base de l'intelligence humaine, scientifique au Massachusetts Institute of Technology et co-directeur du MIT-IBM Watson AI Lab, un expert en IA et en cognition humaine qui n'a pas été impliqué dans l'étude. « Les machines font des erreurs que les humains ne feraient jamais parce qu'elles n'ont pas notre capacité à raisonner de manière abstraite. Ce travail est une étape cruciale pour combler ce fossé technologique. »

Le cadre mathématique développé par les chercheurs permet aux machines d'organiser des événements en fonction de leur prévisibilité future. Par exemple, nous savons que la natation et la course sont deux formes d'exercice. La nouvelle technique apprend à catégoriser ces activités par elle-même. Le système est conscient de l'incertitude, fournissant des actions plus spécifiques lorsqu'il y a une certitude et des prédictions plus génériques lorsqu'il n'y en a pas.

La technique pourrait rapprocher les ordinateurs de la capacité d'évaluer une situation et de prendre une décision nuancée, au lieu d'une action préprogrammée, selon les chercheurs. C'est une étape critique dans l'instauration de la confiance entre les humains et les ordinateurs. « La confiance vient du sentiment que le robot comprend vraiment les gens », a-t-il expliqué. « Si les machines peuvent comprendre et anticiper nos comportements, les ordinateurs seront en mesure d'assister les gens de manière transparente dans leurs activités quotidiennes. »

Alors que le nouvel algorithme fait des prédictions plus précises sur les tâches de référence que les méthodes précédentes, les prochaines étapes consistent à vérifier qu'il fonctionne en dehors du laboratoire. Si le système peut fonctionner dans divers contextes, il existe de nombreuses possibilités de déployer des machines et des robots qui pourraient améliorer notre la sécurité, la santé et la sécurité, disent les chercheurs. Le groupe prévoit de continuer à améliorer les performances de l'algorithme avec des ensembles de données et des ordinateurs plus importants, et d'autres formes de géométrie.

Le comportement humain est souvent surprenant et les algorithmes permettent machines pour mieux anticiper ce qu'ils vont faire ensuite.

L'étude s'intitule « Apprendre la prévisibilité de l'avenir ».