Nhận dạng giọng nói điện toán biên trên bộ xử lý RISC-V hỗ trợ DSP

Cyberon, nhà cung cấp giải pháp giọng nói nhúng và Andes Công nghệ, nhà cung cấp lõi xử lý RISC-V 32/64-bit, đang hợp tác để phát triển giải pháp nhận dạng giọng nói điện toán biên, Cyberon DSpotter.

DSpotter sử dụng các lõi CPU RISC-V hỗ trợ DSP của Andes như D25F và môi trường phát triển phần mềm toàn diện để cung cấp giải pháp hiệu quả về chi phí, hiệu suất cao và dễ triển khai.

AI đã và đang thúc đẩy thị trường nhận dạng giọng nói và ngoài các dịch vụ trợ lý giọng nói dựa trên kiến trúc điện toán đám mây, ngày càng có nhiều nhu cầu về nhận dạng giọng nói cục bộ bằng các thiết bị điện toán biên. Nhận dạng lệnh ngoại tuyến được thực thi cục bộ cung cấp cho người dùng giao diện hoạt động bằng giọng nói phản hồi nhanh, bảo vệ quyền riêng tư cá nhân và giảm chi phí phát triển và bảo trì của các nhà sản xuất thiết bị.

Cyberon's DSpotter đã được phát triển để đáp ứng nhu cầu của các sản phẩm có nhu cầu cao về điều khiển bằng giọng nói, chẳng hạn như thiết bị đeo, thiết bị gia dụng, thiết bị IoT, v.v., yêu cầu tài nguyên máy tính thấp và hiệu suất nhận dạng cao.

DSpotter đã áp dụng mô hình âm học dựa trên âm vị để nâng cao hiệu quả phát triển sản phẩm của khách hàng. Các nhà phát triển không cần phải thu thập trước một lượng lớn kho dữ liệu đào tạo, thay vào đó họ có thể tạo các lệnh cần thiết bằng cách nhập văn bản.

Cyberon đã phát triển hơn 40 ngôn ngữ toàn cầu cho DSpotter. Về hiệu suất nhận dạng, DSpotter có độ chính xác cao và độ ồn cao do thế mạnh của mô hình âm học bao gồm kiến trúc TDNN-F. Ngoài ra, thuật toán đã được Cyberon tối ưu hóa tốt để phù hợp với các nền tảng MCU nói chung mà không cần sử dụng bộ xử lý mạng thần kinh chuyên dụng - có nghĩa là các nhà sản xuất có thể cung cấp các sản phẩm có giao diện thoại thông qua phần cứng hiệu quả về chi phí.

Ngoài ra, hiệu suất của DSpotter được tăng lên đáng kể bằng cách tận dụng các lệnh RISC-V DSP / SIMD P-extension (RVP) trên AndesCore D25F, lõi CPU 32-bit RISC-V với đường ống 5 tầng được tối ưu hóa cao.

RVP cho phép nhiều dữ liệu trong thanh ghi số nguyên được xử lý trong một chu kỳ duy nhất, giúp tăng cường hiệu quả các tính toán để xử lý giọng nói, âm thanh, hình ảnh và tín hiệu. Nó cũng cải thiện đáng kể hiệu suất cho AI cạnh liên quan đến các loại dữ liệu trên. D25F là bộ xử lý có khả năng RISC-V RVP đầu tiên đã được chứng minh trên thị trường và có hệ sinh thái hoàn chỉnh nhất trong các công cụ phát triển, thư viện cho DSP và mạng nơ-ron cũng như codec âm thanh / giọng nói.

Alex Liou, Phó chủ tịch của Cyberon Embedded solution BU cho biết: “Công nghệ AI của điện toán biên đã dần đi vào cuộc sống của con người. “Thuật toán DSpotter của Cyberon giúp các nhà phát triển giảm chi phí phát triển các ứng dụng nhận dạng giọng nói. Chúng tôi cung cấp một công cụ tiện lợi và dễ sử dụng để tạo các lệnh tùy chỉnh của các ngôn ngữ toàn cầu.

“Các nhà phát triển có thể tạo ra các ứng dụng nhận dạng giọng nói khác nhau một cách hiệu quả để đáp ứng nhu cầu mạnh mẽ và đa dạng của thị trường. Sự hợp tác với Andes mở rộng việc ứng dụng công nghệ DSpotter cho các nền tảng RISC-V và thể hiện hiệu suất tính toán và nhận dạng tuyệt vời. Hy vọng rằng sẽ mang đến nhiều sản phẩm có giao diện thoại thông minh và tiện lợi hơn cho cuộc sống của người dân ”.