Automatické rozpoznávání hudebního zápisu pomocí neuronových sítí

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce řeší problém rozpoznání hudebních zápisů z obrázku do textové podoby pomocí umělé inteligence a neuronových sítí. Zaměřuje se konkrétně na tištěnou polyfonní hudbu (více not a hlasů naráz). Cílem práce je vytvořit model schopný rozpoznat složité zápisy a jeho úspěšnost porovnat s předchozí literaturou a známými modely. Zvolený problém jsem vyřešil díky využití architektury Vision-transformer, kde jsem testoval několik variant sítě za účelem nalezení té nejvýkonější, a vytvoření nového datasetu s polyfonní hudbou. Práce představuje proces vytvoření datasetu pomocí syntetizování obrázků z formátu MusicXML programem MuseScore. Nejúspěšnější varianta architektury Vision-Transformer dosahuje minimální chybovosti pouze 7,86 %, což je velmi slibné pro další vývoj a využití. Hlavním zjištěním je, že architektura má potenciál dominovat na tomto poli stejně jako na jiných polích výzkumu a pro konkrétní úlohu rozpoznání polyfonních hudebních zápisů existuje funkční řešení, což bylo doteď předmětem debaty.
This thesis consideres the problem of optical music recognition from images to text using Artificial inteligence and neural networks. I have choosed particularly the field of printed polyphonic music (more notes and voices at the same time). The goal of this thesis is to create a model capable of recognising complex notations and its accuracy compare with previous literature and other known models. I solved the chosen problem by utilizing the Vision Transformer architecture, where I tested several network variants to find the most powerful one. And by creating a new dataset with polyphonic music. The work presents the process of creating the dataset by synthesizing images from MusicXML format using the MuseScore program. The most successful variant of the Vision Transformer architecture achieves an error rate of only 7.86 %, which is very promising for further development and utilization. The main finding is that the architecture has the potential to dominate in this field, just as it does in other areas of research, and there is a functional solution for the specific task of polyphonic music notation recognition, which has been only up for a debate until now.
Description
Citation
VLACH, V. Automatické rozpoznávání hudebního zápisu pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Tomáš Martínek, Ph.D. (člen)
Date of acceptance
2023-06-12
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO