Algoritmos para Classificação, Regressão e Agrupamento em Fluxos Contínuos de Dados

Vitor Freitas Xavier Soares; Heloisa de Arruda Camargo

Portal de Eventos CoPICT - UFSCar, XXVII CIC e XII CIDTI

Vitor Freitas Xavier Soares, Heloisa de Arruda Camargo

Última alteração: 2021-02-25

Resumo

Com o advento da internet, a quantidade de dados gerados aumentou de forma abrupta. Assim, surgiram oportunidades e, acima de tudo, a necessidade de tratar tais dados. Determinadas fontes geram dados continuamente exigindo tratamento diferente do convencional. Além disso, a distribuição dos dados, com o decorrer do tempo, pode mudar e acarretar na obsolescência dos modelos gerados. Assim, as técnicas tradicionais de AM devem ser adaptadas para o fluxo de dados e os modelos continuamente atualizados.

Este trabalho visa propiciar um maior entendimento sobre alguns algoritmos existentes para tratar da mineração em fluxo de dados, levando em consideração diferentes tarefas de aprendizado (classificação, regressão ou agrupamento) e as características dos conjuntos de dados (estacionários ou não estacionários), utilizando o framework MOA (Massive Online Analysis) para a mineração do fluxo de dados.

A metodologia utilizada consiste na seleção de algoritmos, conjunto de geradores de dados e métodos de avaliação e parâmetros, execução de algoritmos combinados com os métodos de avaliação e geradores selecionados e análise de resultados para as tarefas de aprendizado.

Em suma, para a tarefa de Classificação, o algoritmo OzaBagAdwin obteve melhores resultados de Acurácia e Kappa Statistic, em detrimento de um gasto muito maior na média do tempo de execução. Em relação a estratégia de avaliação de desempenho Sliding Window, foi possível verificar que o tamanho da janela influencia na acurácia final obtida e nem sempre um tamanho de janela menor vai trazer uma acurácia mais elevada. Para os conjuntos de dados gerados neste trabalho a estratégia Sliding Window foi a que obteve melhor desempenho.

Para a tarefa de Regressão, o algoritmo Fast Incremental Model Tree With Drift Detection obteve melhores resultados para o MAE e o RMSE para os conjuntos de dados Random Tree Generator e Random Basis Function. Entretanto, a média de tempo de avaliação do FIMT-DD é muito maior, chegando a ser quarenta e duas vezes maior em um caso, por exemplo. Para o caso do conjunto de dados Random Basis Function com Speed Change de 0,001, que faz com que os dados sejam não estacionários, o Perceptron e o FIMT-DD obtiveram resultados muito semelhantes em relação ao MAE e ao RMSE, entretanto o Perceptron foi muito mais rápido para avaliar.

Para a tarefa de Agrupamento, foi possível visualizar que o algoritmo ClusTree obteve resultados melhores, em suma, em relação ao StreamKM++. Além disso, ficou mais claro a interferência do ruído em relação ao desempenho do agrupamento, e portanto, da necessidade do tratamento dos dados em situações reais, visando obter os melhores resultados possíveis.

Após todas as análises para as diferentes tarefas de aprendizado, foi possível inferir que não há um algoritmo geral que obtém os melhores resultados para todos os possíveis conjuntos de dados. Assim, é necessário o conhecimento do conjunto de dados para uma escolha efetiva do algoritmo a ser utilizado. Além disso, as métricas devem ser analisadas conjuntamente para entender realmente o comportamento do modelo, e assim, poder escolher o melhor algoritmo para determinada aplicação.

Palavras-chave

aprendizado de máquina, aprendizado em fluxo de dados, classificação, regressão, agrupamento

Referências

[1] Albert Bifet e Ricard Gavaldà. “Adaptive Learning from Evolving Data Streams”. Em: ago. de 2009, pp. 249–260. DOI: 10.1007/978-3-642-03915-7_22.

[2] Albert Bifet e Ricard Gavaldà. “Learning from Time-Changing Data with Adaptive Windowing”. Em: vol. 7. Abr. de 2007. DOI: 10.1137/1.9781611972771.42.

[3] Albert Bifet, Geoffrey Holmes e Bernhard Pfahringer. “Leveraging Bagging for Evolving Data Streams”. Em: ago. de 2010, pp. 135–150. DOI: 10.1007/978-3- 642-15880-3_15.

[4] Albert Bifet et al. Machine Learning for Data Streams with Practical Examples in MOA. https://moa.cms.waikato.ac.nz/book/. MIT Press, 2018.

[5] Albert Bifet et al. “MOA: Massive Online Analysis”. Em: J. Mach. Learn. Res. 11 (2010), pp. 1601–1604. URL: http://portal.acm.org/citation.cfm?id= 1859903.

[6] Albert Bifet et al. “New ensemble methods for evolving data streams”. Em: Proce edings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (jan. de 2009). DOI: 10.1145/1557019.1557041.

[7] Tianfeng Chai e R. Draxler. “Root mean square error (RMSE) or mean absolute error (MAE)?” Em: Geosci. Model Dev. 7 (jan. de 2014). DOI: 10.5194/gmdd-7- 1525-2014.

[8] TG Dietterich. “Ensemble methods in machine learning”. Em: jan. de 2000, pp. 1– 15. ISBN: 3-540-67704-6.

[9] Katti Faceli et al. Inteligência Artificial: Uma abordagem de Aprendizagem de Máquina. LTC, 2011.

[10] João Gama. Knowledge Discovery from Data Streams. Chapman e Hall, 2010.

[11] João Gama, Raquel Sebastião e Pedro Rodrigues. “On evaluating stream lear ning algorithms”. Em: Machine Learning 90 (out. de 2013), pp. 317–346. DOI: 10.1007/s10994-012-5320-9.

[12] Elena Ikonomovska, João Gama e Sašo Džeroski. “Learning model trees from evolving data streams”. Em: (jul. de 2011). DOI: 10.1007/s10618-010-0201-y.

[13] Mary McHugh. “Interrater reliability: The kappa statistic”. Em: Biochemia medica : casopis Hrvatskoga društva medicinskih biokemi ˇ cara / HDMB ˇ 22 (out. de 2012), pp. 276–82. DOI: 10.11613/BM.2012.031.

[14] Tom M. Mitchell. Machine Learning. McGraw-Hill Education(ISE Editions), 1997.

[15] Nikunj Oza e Stuart Russell. “Online Bagging and Boosting”. Em: Proceedings of Artificial Intelligence and Statistics (jan. de 2001).