AI aprende a prever o comportamento humano a partir de vídeos

Atualização: 9 de dezembro de 2023

Prever o que alguém está prestes a fazer com base em sua linguagem corporal é algo natural para os humanos, mas não para os computadores. Quando conhecemos outra pessoa, ela pode nos cumprimentar com um alô, um aperto de mão ou até mesmo um golpe de punho. Podemos não saber qual gesto será usado, mas podemos ler a situação e responder apropriadamente.

Em um novo estudo, pesquisadores da Columbia Engineering revelam uma AI técnica de visão para dar às máquinas uma noção mais intuitiva do que acontecerá a seguir, aproveitando associações de nível superior entre pessoas, animais e objetos.

O algoritmo é um passo para que as máquinas sejam capazes de fazer melhores previsões sobre o comportamento humano e, assim, coordenar melhor suas ações com as nossas e uma série de possibilidades para colaboração humano-robô, veículos autônomos e sistemas de assistência. tecnologia.

É o método mais preciso até o momento para prever eventos de ação de vídeo até vários minutos no futuro, dizem os pesquisadores. Depois de analisar milhares de horas de filmes, jogos esportivos e programas como “The Office”, o sistema aprende a prever centenas de atividades, de apertos de mão a golpes de punho. Quando não consegue prever a ação específica, ele encontra o conceito de nível superior que os vincula, neste caso, a palavra “saudação”.

As tentativas anteriores de aprendizado de máquina preditivo, incluindo aquelas da equipe, se concentraram em prever apenas uma ação por vez. Os algoritmos decidem se classificar a ação como um abraço, high five, handshake, ou até mesmo uma falta de ação como "ignore". Mas quando a incerteza é alta, a maioria dos modelos de aprendizado de máquina não consegue encontrar pontos em comum entre as opções possíveis.

Os pesquisadores decidiram olhar para o problema de previsão de longo alcance de um ângulo diferente. Nem tudo no futuro é previsível, disseram os pesquisadores. Quando uma pessoa não consegue prever exatamente o que vai acontecer, ela joga pelo seguro e prevê em um nível mais alto de abstração. Nosso algoritmo é o primeiro a aprender essa capacidade de raciocinar abstratamente sobre eventos futuros. ”

Os pesquisadores precisam revisitar questões da matemática que datam dos antigos gregos. No ensino médio, os alunos aprendem as regras familiares e intuitivas da geometria - que as linhas retas vão direto, que as linhas paralelas nunca se cruzam. A maioria dos sistemas de aprendizado de máquina também obedece a essas regras. Mas outras geometrias, entretanto, têm propriedades bizarras e contra-intuitivas; linhas retas se dobram e triângulos protuberantes. Os pesquisadores usaram essas geometrias incomuns para construir modelos de IA que organizam conceitos de alto nível e prevêem o comportamento humano no futuro.

A previsão é a base da inteligência humana, cientista do Massachusetts Institute of Technology e codiretor do MIT-IBM Watson AI Lab, um especialista em IA e cognição humana que não esteve envolvido no estudo. “As máquinas cometem erros que os humanos nunca cometeriam, porque não têm nossa capacidade de raciocinar abstratamente. Este trabalho é um passo fundamental para preencher essa lacuna tecnológica. ”

A estrutura matemática desenvolvida pelos pesquisadores permite que as máquinas organizem eventos de acordo com o quão previsíveis eles são no futuro. Por exemplo, sabemos que nadar e correr são formas de exercício. A nova técnica aprende como categorizar essas atividades por conta própria. O sistema está ciente da incerteza, fornecendo ações mais específicas quando há certeza e previsões mais genéricas quando não há.

A técnica pode levar os computadores mais perto de serem capazes de avaliar uma situação e tomar uma decisão sutil, em vez de uma ação pré-programada, dizem os pesquisadores. É uma etapa crítica na construção de confiança entre humanos e computadores. “A confiança vem da sensação de que o robô realmente entende as pessoas”, explicou ele. “Se as máquinas podem entender e antecipar nossos comportamentos, os computadores serão capazes de auxiliar as pessoas nas atividades diárias de forma integrada.”

Embora o novo algoritmo faça previsões mais precisas em tarefas de benchmark do que os métodos anteriores, as próximas etapas são verificar se ele funciona fora do laboratório. Se o sistema pode funcionar em diversas configurações, há muitas possibilidades de implantar máquinas e robôs que podem melhorar nosso segurança, saúde e segurança, dizem os pesquisadores. O grupo planeja continuar melhorando o desempenho do algoritmo com conjuntos de dados e computadores maiores e outras formas de geometria.

O comportamento humano costuma ser surpreendente e os algoritmos permitem máquinas para antecipar melhor o que eles farão a seguir. ”

O estudo é intitulado “Aprendendo sobre a previsibilidade do futuro”.