Última alteração: 2019-09-30
Resumo
Organizar e recuperar informação musical automaticamente é uma tarefa altamente requerida. Rotular músicas com informações que a descrevam sucintamente possui implicações nessas e em outras tarefas relacionadas. Um dos modos mais comuns de se rotular gravações musicais é por meio da informação de gênero. Porém, essa é uma tarefa bastante difícil. Nos últimos anos, a literatura tem mostrado um avanço significativo nessa tarefa ao se aplicar algoritmos de aprendizado de máquina baseados em redes neurais profundas (RNPs). Nesse cenário, a prática comumente adotada é utilizar representações visuais de tempo-frequência do áudio como entrada para uma RNP. Neste trabalho, foi investigado o impacto da utilização de variadas representações de música obtidas a partir de seu áudio na classificação de gêneros por meio de RNPs. Demonstrou-se que a combinação de representações diversas pode melhorar a eficácia dos modelos de classificação de gênero musical baseados em conteúdo.
Palavras-chave
Referências
BERGSTRA, J., CASAGRANDE, N., ERHAN, D., ECK, D., Kégl, B. Aggregate features and a da b oost for music classification. Machine learning, v. 65, n. 2-3, p. 473-484, 2006.
CHOI, K., FAZEKAS, G., SANDLER, M., & CHO, K. Convolutional recurrent neural networks for music classification. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017. p. 2392-2396.
COSTA, Y. M. G., OLIVEIRA, L. S., SILLA JR, C. N. An evaluation of convolutional neural networks for music classification using spectrograms. Applied Soft Computing, vol. 52, p. 28-38, 2017.
JEONG, Y, II., LEE, K. Learning Temporal Features using a Deep Neural Network and its Application to Music Genre Classification. Anais da 17th International Society for Music Information Retrieval Conference, New York City, p. 434-440, 2016.
KNEES, P., SCHEDL, M. Music Retrieval and Recommendation: A Tutorial Overview. Anais da 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago, ACM, p. 1133-1136, 2015.
KERELIUK, C., STURM, B. L., LARSEN, J. Deep learning, audio adversaries, and music content analysis. Anais do IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, p. 1-5, 2015.
LAMERE, P. Social tagging and music information retrieval. Journal of new music research, vol. 37, no. 2, p. 101-114, 2008.
MCFEE, Brian; HUMPHREY, Eric J.; BELLO, Juan Pablo. A software framework for musical data augmentation. In: ISMIR. 2015. p. 248-254.
NANNI, L., COSTA, Y. M., LUCIO, D. R., SILLA Jr, C. N., & BRAHNAM, S. Combining visual and acoustic features for audio classification tasks. Pattern Recognition Letters, vol. 88, p. 49-56, 2017.
NANNI, L., COSTA, Y. M. G., AGUIAR, R. L., SILLA Jr, C. N., BRAHNAM, S. Ensemble of deep learning, visual and acoustic features for music genre classification. Journal of New Music Research, online first, 1-15, 2018.
ORAMAS, S., NIETO, O., BARBIERI, F., SERRA, X. Multi-Label Music Genre Classification from Audio, Text and Images Using Deep Features. Anais da 18th International Society for Music Information Retrieval Conference, Suzhou, p. 23-30, 2017.
SCHEDL, M., GÓMEZ, E., URBANO J. Music Information Retrieval: Recent Developments and Applications. Foundations and Trends in Information Retrieval, Hanover, now Publishers Inc., vol. 8, no. 2-3, p. 127–261, 2014.
SIGTIA, S., DIXON, S. Improved music feature learning with deep neural networks. Anais da IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, p. 6959-6963, 2014.
SIMONYAN, Karen; ZISSERMAN, Andrew. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
TZANETAKIS, G., COOK, P. Musical genre classification of audio signals. IEEE Transactions on speech and audio processing, v. 10, n. 5, p. 293-302, 2002.
VAN DEN OORD, Aäron; DIELEMAN, Sander; SCHRAUWEN, Benjamin. Transfer learning by supervised pre-training for audio-based music classification. In: Conference of the International Society for Music Information Retrieval (ISMIR 2014). 2014.
WAN, Yan. Deep learning for music classification. Dissertação (Master of Philosophy) - Department of Electronic and Computer Engineering, Hong Kong University of Science and Technology, 2006.
WEST, K., COX, S. Finding An Optimal Segmentation for Audio Genre Classification. Anais da International Society for Music Information Retrieval Conference, London, p. 680-685, 2005.
ZEILER, M. D.. FERGUS, R. Visualizing and understanding convolutional networks. Anais da European conference on computer vision, Cham, 2014. p. 818-833.