La solución de IA multimodal facilita el diseño de voz inteligente en sistemas de visión integrados

Actualización: 4 de agosto de 2021

Renesas Electronics Corp. y Syntiant Corp. han desarrollado conjuntamente una solución de inteligencia artificial (IA) multimodal controlada por voz que permite la operación sin contacto de baja potencia para el procesamiento de imágenes en sistemas de borde y de IoT basados ​​en IA de visión. Las aplicaciones para la solución de IA multimodal incluyen máquinas de autopago, cámaras de seguridad, sistemas de videoconferencia y dispositivos inteligentes como dispositivos de limpieza robóticos.

La solución, que ofrece capacidades de procesamiento de voz e imágenes, combina la unidad de microprocesador de inteligencia artificial (MPU) de visión de la serie RZ / V de Renesas y el procesador de decisión neuronal Syntiant NDP120 multimodal de bajo consumo. La solución conjunta presenta una funcionalidad siempre activa con activación rápida activada por voz desde el modo de espera para realizar el reconocimiento de objetos, el reconocimiento facial y otras tareas basadas en la visión.

(Fuente: Renesas Electronics)

Un ejemplo de aplicación citado son las señales de voz definidas por el usuario que impulsan la activación y el funcionamiento del sistema, mientras que el reconocimiento de IA de visión rastrea el comportamiento del operador y controla el funcionamiento o emite una advertencia cuando se detectan acciones sospechosas.

(Imagen: Renesas Electronics)

“La arquitectura multimodal facilita la creación de experiencias de usuario sin contacto para sistemas de visión basados ​​en inteligencia artificial”, dijo Renesas. "El uso de un chip dedicado y de bajo consumo para el reconocimiento de voz reduce el consumo de energía en espera y acelera el desarrollo del sistema porque es posible desarrollar software independientemente de la funcionalidad de IA de visión".

La MPU de la serie Renesas RZ / V para IA de visión incorpora el acelerador de IA de procesador (DRP-AI) reconfigurable dinámicamente y combina inferencia de IA de alta precisión con alta eficiencia energética. Este rendimiento energético elimina la necesidad de dispositivos de gestión térmica como disipadores de calor o ventiladores de refrigeración, lo que reduce el costo de la lista de materiales (BOM) y hace posible integrar la IA de visión en una amplia gama de aplicaciones integradas, dijo Renesas.

(Imagen: Renesas Electronics)

El chip Syntiant NDP120 incorpora capacidades de inteligencia artificial avanzadas que se pueden utilizar para implementar funciones de voz de manos libres de alta precisión, incluido el reconocimiento del hablante, la detección de palabras clave, varias palabras de activación y el reconocimiento de comandos locales. El NDP120, equipado con el motor de inferencia de red neuronal Syntiant Core 2, también puede ejecutar múltiples aplicaciones simultáneamente mientras minimiza el consumo de energía a 1 mW de energía de la batería.

La solución de IA multimodal controlada por voz utiliza varios dispositivos compatibles entre sí de la cartera de Renesas y es parte de los diseños de referencia de Winning Combinations de la compañía que cuentan con combinaciones de productos de procesamiento integrado, analógico y de potencia. El diseño de referencia para la solución de IA multimodal ya está disponible, incluidos los diagramas de circuitos y las listas de listas de materiales.

acerca de Renesas Electronics America