Aprendizado de Máquina para Classificação das Linhagens das Superfamílias de Retrotransposons Copia e Gypsy

Murilo Naldi; Thayana Vieira Tavares

Portal de Eventos CoPICT - UFSCar, XXVII CIC e XII CIDTI

Murilo Naldi, Thayana Vieira Tavares

Última alteração: 2021-02-25

Resumo

Este projeto de pesquisa teve como objetivo principal a criação de um método eficiente e automático para classificação taxonômica de retrotransposons, especificamente das superfamílias Copia e Gypsy.

Utilizou-se mais de 28.000 sequências de Copia e Gypsy de angiospermas, as quais foram úteis para a criação de dois conjuntos de dados distintos, um deles com kmers e o outro quantificando características físico-químicas encontradas nas sequências. No treinamento, aplicou-se diferentes algoritmos de Aprendizado de Máquina: KNN, Árvore de Decisão e Redes Neurais. Para realizar a mensuração do desempenho, utilizou-se medidas de avaliação específicas: acurácia, precisão, revocação (também chamada de sensibilidade) e F1-score.

Após implementação do teste estatístico Anova conjuntamente com o teste Tukey para múltipla comparação das médias levando em conta os desvios padrões, pode-se citar como parte dos resultados obtidos que três algoritmos se destacaram e o melhor destes para classificar as sequências depende do que se busca aplicar: Rede neural com conjunto de dados kmers, Rede Neural com conjuntos de dados de características físico-químicas e KNN sem PCA e conjunto de dados kmers.

Palavras-chave

aprendizado de máquina, bioinformática, elementos transponíveis