Portal de Eventos CoPICT - UFSCar, XXVII CIC e XII CIDTI

Tamanho da fonte: 
Aprendizado de Máquina para Classificação das Linhagens das Superfamílias de Retrotransposons Copia e Gypsy
Murilo Naldi, Thayana Vieira Tavares

Última alteração: 2021-02-25

Resumo


Este projeto de pesquisa teve como objetivo principal a criação de um método eficiente e automático para classificação taxonômica de retrotransposons, especificamente das superfamílias ​Copia ​e ​Gypsy.

Utilizou-se mais de 28.000 sequências de ​Copia ​e ​Gypsy de angiospermas, as quais foram úteis para a criação de dois conjuntos de dados distintos, um deles com kmers e o outro quantificando características físico-químicas encontradas nas sequências. No treinamento, aplicou-se diferentes algoritmos de Aprendizado de Máquina: KNN, Árvore de Decisão e Redes Neurais. Para realizar a mensuração do desempenho, utilizou-se medidas de avaliação específicas: acurácia, precisão, revocação (também chamada de sensibilidade) e F1-score.

Após implementação do teste estatístico Anova conjuntamente com o teste Tukey para múltipla comparação das médias levando em conta os desvios padrões, pode-se citar como parte dos resultados obtidos que três algoritmos se destacaram e o melhor destes para classificar as sequências depende do que se busca aplicar: Rede neural com conjunto de dados kmers, Rede Neural com conjuntos de dados de características físico-químicas e KNN sem PCA e conjunto de dados kmers.



Palavras-chave


aprendizado de máquina, bioinformática, elementos transponíveis