Мультимодальное AI-решение с голосовым управлением

Renesas Electronics и Syntiant, чип глубокого обучения technology объявили о совместной разработке мультимодального решения искусственного интеллекта с голосовым управлением.

Решение AI обеспечивает бесконтактную обработку изображений с низким энергопотреблением для обработки изображений в IoT на основе искусственного интеллекта и периферийных системах, таких как автоматы самообслуживания, камеры видеонаблюдения, системы видеоконференцсвязи и интеллектуальные устройства, такие как роботизированные устройства для уборки.

Устройство сочетает в себе микропроцессор Renesas RZ / V Series Vision AI (MPU) и маломощный мультимодальный многофункциональный процессор принятия решений Syntiant NDP120 для обеспечения расширенных возможностей обработки голоса и изображений.

Это совместное решение обеспечивает постоянную работу с быстрой активацией по голосу из режима ожидания для выполнения распознавания объектов, распознавания лиц и других задач, связанных со зрением, которые являются критически важными функциями в камерах видеонаблюдения и других системах. Например, в то время как определяемые пользователем голосовые подсказки управляют активацией и работой системы, распознавание Vision AI отслеживает поведение оператора и контролирует работу или выдает предупреждение при обнаружении подозрительных действий.

Мультимодальная архитектура упрощает создание бесконтактных пользовательских интерфейсов для систем Vision на основе искусственного интеллекта. Использование специального энергоэффективного чипа для распознавания голоса снижает энергопотребление в режиме ожидания и ускоряет разработку системы, поскольку можно разрабатывать программное обеспечение независимо от функций Vision AI.

«Мы ожидаем, что спрос на мультимодальные системы, использующие несколько потоков входной информации, будет расти в дальнейшем как способ повышения простоты использования и безопасности», - сказал Хирото Нитта, старший вице-президент и руководитель подразделения SoC в сфере Интернета вещей и инфраструктуры. Подразделение в Renesas.

«Голосовые пользовательские интерфейсы позволят клиентам предоставлять новый пользовательский опыт, который воплощает новое поколение инновационных идей от концепции к реальности, - добавил генеральный директор Syntiant Курт Буш. «Мы уже отгрузили более 15 миллионов наших NDP для глубокого обучения по всему миру, чтобы обеспечить постоянную голосовую связь в широком спектре потребительских и промышленных приложений Интернета вещей».

MPU Renesas RZ / V Series для Vision AI включает ускоритель Renesas DRP-AI (Dynamically Reconfigurable Processor-AI) и сочетает в себе высокоточный логический вывод ИИ с энергоэффективностью, что устраняет необходимость в мерах по рассеиванию тепла, таких как радиаторы или охлаждающие вентиляторы, что снижает стоимость ведомости материалов (BOM) и позволяет интегрировать компьютерный искусственный интеллект в широкий спектр встраиваемых приложений.

Чип Syntiant NDP120 включает в себя возможности искусственного интеллекта, которые можно использовать для реализации многих высокоточных голосовых функций без помощи рук, включая распознавание говорящего, обнаружение ключевых слов, множественные слова пробуждения и локальное распознавание команд. Оснащенный механизмом логического вывода нейронной сети Syntiant Core 2, NDP120 также может запускать несколько приложений одновременно, минимизируя энергопотребление до 1 мВт энергии батареи.