Portal de Eventos CoPICT - UFSCar, XXVII CIC e XII CIDTI

Tamanho da fonte: 
Seleção de Atributos para Problemas de Classificação Hierárquica Multirrótulo
Murilo Naldi, Luan Vinicius Moraes da Silva

Última alteração: 2021-03-18

Resumo


INTRODUÇÃO

Classificação Hierárquica Multirrótulo (HMC), em Aprendizado de Máquina, diz respeito a um caso especial da Classificação Hierárquica, em que uma instância pode ser atribuída a duas ou mais classes (rótulos) simultaneamente, onde tais classes são estruturadas de forma hierárquica. Em Aprendizado de Máquina, a Seleção de Atributos desempenha um papel importante na tarefa de classificação, uma vez que pode efetivamente reduzir a dimensionalidade do conjunto de dados, removendo atributos irrelevantes e/ou redundantes, melhorando a precisão do classificador ao mesmo tempo que reduz o tempo de treino. Embora muitos problemas relevantes do mundo real pertençam ao domínio hierárquico multirrótulo, a maioria das pesquisas relacionadas com seleção de atributos abordam a tarefa com foco em problemas de classificação unirrótulo. Em muitos trabalhos, mesmo quando a proposta abordada pertence a problemática multirrótulo, as classes não estão associadas a uma estrutura hierárquica. Nesse sentido, é evidente a necessidade de trabalhos que lidem com a tarefa de seleção de atributos no contexto hierárquico multirrotulo.

OBJETIVO

Este trabalho tem por objetivo estudar como métodos convencionais de Seleção de Atributos podem ser aplicados em Problemas de Classificação Hierárquica Multirrotulo.

METODOLOGIA

Para este fim, este trabalho propõe uma abordagem que combina as estratégias de transformação multittórulo Binary Revelance (BR) e Label Powerset (LP) com os avaliadores de atributo ReliefF (RF) e Information Gain (IG), em adição também foi empregado um método de redução de espaço não supervisionado Principal Component Analises (PCA). A abordagem proposta foi testada em 10 conjuntos de dados reais do campo da genômica funcional, referência em trabalhos de classificação hierárquica multirrótulo.

RESULTADOS

Como principais resultados obtidos, o método BR-IG na subdivisão mediana, produziu ganhos em 8/10 datasets, com exceção de Eisen and Seq. O método BR-RF na partição mediana produziu ganhos em 7/10 datasets, com exceção para Cellcycle, Church e Seq. E a estratégia de redução de espaço PCA se mostrou inadequada para estruturas hierárquicas.

CONCLUSÃO

Este trabalho analisou como métodos convencionais de Seleção de Atributos podem ser aplicados em estruturas hierárquicas multirrótulo, a partir dos resultados foi possível concluir que três dos quatro métodos propostos produziram/mantiveram a performance preditiva enquanto reduziram o espaço de atributos. A Seleção de Atributos no contexto de estruturas hierárquicas ainda tem um grande campo para se desenvolver e mostra-se um tema de relevância e que merece ser explorado, neste contexto é possível concluir que a partir da abordagem proposta outros métodos de Seleção de Atributos poderiam ser aplicados.

Palavras-chave


classificação hierárquica, classificação multirrótulo, aprendizado de máquina, seleção de atributos