Solución de IA multimodal controlada por voz

Renesas Electronics y Syntiant, un chip de aprendizaje profundo la tecnología compañía, han anunciado el desarrollo conjunto de una solución de IA multimodal controlada por voz.

La solución de IA permite el funcionamiento sin contacto de bajo consumo para el procesamiento de imágenes en sistemas de borde y de IoT basados en IA de visión, como máquinas de autopago, cámaras de seguridad, sistemas de videoconferencia y dispositivos inteligentes como dispositivos de limpieza robóticos.

El dispositivo combina la unidad de microprocesador (MPU) de inteligencia artificial (MPU) de la serie RZ / V de Renesas y el procesador de decisión neuronal Syntiant NDP120 multimodal de baja potencia y múltiples funciones para ofrecer capacidades avanzadas de procesamiento de voz e imagen.

Esta solución conjunta presenta una funcionalidad siempre activa con activación rápida activada por voz desde el modo de espera para realizar el reconocimiento de objetos, el reconocimiento facial y otras tareas basadas en la visión que son funciones críticas en las cámaras de seguridad y otros sistemas. Por ejemplo, mientras que las señales de voz definidas por el usuario impulsan la activación y el funcionamiento del sistema, el reconocimiento de inteligencia artificial de visión rastrea el comportamiento del operador y controla el funcionamiento o emite una advertencia cuando se detectan acciones sospechosas.

La arquitectura multimodal facilita la creación de experiencias de usuario sin contacto para sistemas basados en IA de visión. El uso de un chip dedicado y de bajo consumo para el reconocimiento de voz reduce el consumo de energía en espera y acelera el desarrollo del sistema porque es posible desarrollar software independientemente de la funcionalidad de IA de visión.

"Anticipamos que la demanda de sistemas multimodales que utilizan múltiples flujos de información de entrada aumentará en el futuro como una forma de mejorar tanto la facilidad de uso como la seguridad", dijo Hiroto Nitta, vicepresidente senior y director de SoC Business en IoT e Infraestructura. Unidad en Renesas.

“Las interfaces de usuario basadas en voz harán posible que los clientes brinden nuevas experiencias de usuario que lleven la próxima generación de ideas innovadoras del concepto a la realidad, agregó el CEO de Syntiant, Kurt Busch. "Ya hemos enviado más de 15 millones de nuestros NDP de aprendizaje profundo a nivel mundial para permitir la voz siempre activa en una amplia variedad de aplicaciones de IoT industriales y de consumo".

La MPU de la serie RZ / V de Renesas para IA de visión incorpora el acelerador DRP-AI (Procesador dinámico reconfigurable-AI) de Renesas y combina la inferencia de IA de alta precisión con eficiencia energética que elimina la necesidad de medidas de dispersión de calor como disipadores de calor o ventiladores de refrigeración, lo que reduce el costo de la lista de materiales (BOM) y hace posible integrar la IA de visión en una amplia gama de aplicaciones integradas.

El chip Syntiant NDP120 incorpora capacidades de inteligencia artificial que se pueden utilizar para implementar muchas funciones de voz manos libres de alta precisión, incluido el reconocimiento de oradores, la detección de palabras clave, varias palabras de activación y el reconocimiento de comandos locales. Empaquetado con el motor de inferencia de red neuronal Syntiant Core 2, el NDP120 también puede ejecutar múltiples aplicaciones simultáneamente mientras minimiza el consumo de energía a una batería de 1 mW.