Solution d'IA multimodale à commande vocale

Renesas Electronics et Syntiant, une puce de deep learning sans souci company, ont annoncé le développement conjoint d’une solution d’IA multimodale à commande vocale.

La solution d'IA permet un fonctionnement sans contact à faible consommation pour le traitement d'images dans les systèmes IoT et périphériques basés sur l'IA de vision, tels que les caisses automatiques, les caméras de sécurité, les systèmes de vidéoconférence et les appareils intelligents tels que les appareils de nettoyage robotiques.

L'appareil combine l'unité de microprocesseur (MPU) d'IA de vision Renesas RZ/V Series et le processeur de décision neuronale Syntiant NDP120 multimodal et multi-fonctions à faible consommation pour offrir des capacités avancées de traitement de la voix et de l'image.

Cette solution commune comprend une fonctionnalité toujours active avec une activation rapide à déclenchement vocal à partir du mode veille pour effectuer la reconnaissance d'objets, la reconnaissance faciale et d'autres tâches basées sur la vision qui sont des fonctions essentielles des caméras de sécurité et d'autres systèmes. Par exemple, alors que les signaux vocaux définis par l'utilisateur entraînent l'activation et le fonctionnement du système, la reconnaissance par l'IA de vision suit le comportement de l'opérateur et contrôle le fonctionnement ou émet un avertissement lorsque des actions suspectes sont détectées.

L'architecture multimodale facilite la création d'expériences utilisateur sans contact pour les systèmes basés sur l'IA de vision. L'utilisation d'une puce dédiée et économe en énergie pour la reconnaissance vocale réduit la consommation d'énergie en veille tout en accélérant le développement du système, car il est possible de développer des logiciels indépendamment de la fonctionnalité Vision AI.

« Nous prévoyons que la demande de systèmes multimodaux qui utilisent plusieurs flux d'informations d'entrée augmentera à l'avenir comme moyen d'améliorer à la fois la facilité d'utilisation et la sécurité », a déclaré Hiroto Nitta, vice-président principal et responsable de l'activité SoC dans l'activité IoT et infrastructure. Unité à Renesas.

« Les interfaces utilisateur basées sur la voix permettront aux clients de proposer de nouvelles expériences utilisateur qui feront passer la prochaine génération d'idées innovantes du concept à la réalité, a ajouté Kurt Busch, PDG de Syntiant. « Nous avons déjà expédié plus de 15 millions de nos NDP d'apprentissage en profondeur dans le monde pour permettre une voix toujours active dans une grande variété d'applications IoT grand public et industrielles. »

Le MPU Renesas RZ/V Series pour l'IA de vision intègre l'accélérateur DRP-AI (Dynamically Reconfigurable Processor-AI) de Renesas et combine une inférence AI de haute précision avec une efficacité énergétique qui élimine le besoin de mesures de dispersion de la chaleur telles que des dissipateurs thermiques ou des ventilateurs de refroidissement, ce qui réduit le coût de la nomenclature (BOM) et permet d'intégrer l'IA de vision dans une large gamme d'applications embarquées.

La puce Syntiant NDP120 intègre des capacités d'IA qui peuvent être utilisées pour mettre en œuvre de nombreuses fonctions vocales mains libres de haute précision, notamment la reconnaissance du locuteur, la détection de mots clés, plusieurs mots de réveil et la reconnaissance de commandes locales. Emballé avec le moteur d'inférence de réseau neuronal Syntiant Core 2, le NDP120 peut également exécuter plusieurs applications simultanément tout en minimisant la consommation d'énergie à une puissance de batterie de 1 mW.