Nhận dạng âm nhạc quang học với mạng thần kinh kết hợp

Cập nhật: ngày 9 tháng 2023 năm XNUMX

Nhận dạng ký tự quang học (OCR) thường được sử dụng để chuyển đổi văn bản trong tài liệu được quét thành dạng có thể tìm kiếm và chỉnh sửa trên máy tính là một kỹ thuật số hóa đã được thiết lập tốt. Nhưng còn những loại tài liệu giàu ý nghĩa khác, chẳng hạn như bản thảo âm nhạc thì sao?

Một phương pháp tiếp cận mới được phát triển bởi một nhóm tại Đại học Bina Nusantara ở Jakarta, Indonesia, sử dụng công nghệ máy học sâu và mạng nơ-ron phức hợp được đào tạo để nhận ra sắc thái của ký hiệu âm nhạc trên các bản thảo đã biết. Sau đó, thuật toán có thể chuyển đổi một bản thảo âm nhạc mới được trình bày thành một dạng số hóa với độ chính xác 8 phần trăm. Ngay cả ở cấp độ này, điều này làm giảm đáng kể lượng đầu vào và chỉnh sửa thủ công cần thiết để chuyển đổi một bản thảo.

Hệ thống yêu cầu phím khóa, cọc và phím nhạc phải ở đúng vị trí, nhưng chúng dễ dàng được gán trong một khuôn mẫu. Việc chuyển đổi một bản thảo được quét sau đó sẽ phát hiện vị trí trên cọc của mỗi nốt nhạc, do đó xác định cao độ. Bước tiếp theo sẽ là sử dụng một thuật toán song song để phát hiện thời lượng của mỗi nốt nhạc và xác định vị trí của các khoảng lặng, khoảng nghỉ và các đặc điểm khác của bản thảo.

Sau khi được số hóa hoàn toàn, với phần mềm hiện tại, việc sử dụng máy tính để “chơi” bản thảo bằng cách sử dụng tất cả các cách thức của âm thanh nhạc cụ hoặc thậm chí để tương quan giữa bản nhạc trữ tình với bản nhạc và để máy tính “hát” bài hát. OMR, khi đã trưởng thành, sẽ có nhiều ứng dụng trong việc lưu trữ các bản thảo âm nhạc, trong việc biểu diễn âm nhạc và trong giáo dục âm nhạc. Nhóm nghiên cứu gợi ý rằng cách tiếp cận của họ có thể cho phép các nhà phát triển "ứng dụng" phần mềm viết một chương trình cho điện thoại thông minh hoặc máy tính bảng để cho phép mọi người quét nhanh một bản nhạc, chẳng hạn và thực hiện OMR trên bản thảo đó.