Última alteração: 2021-02-25
Resumo
Este projeto de pesquisa teve como objetivo principal a criação de um método eficiente e automático para classificação taxonômica de retrotransposons, especificamente das superfamílias Copia e Gypsy.
Utilizou-se mais de 28.000 sequências de Copia e Gypsy de angiospermas, as quais foram úteis para a criação de dois conjuntos de dados distintos, um deles com kmers e o outro quantificando características físico-químicas encontradas nas sequências. No treinamento, aplicou-se diferentes algoritmos de Aprendizado de Máquina: KNN, Árvore de Decisão e Redes Neurais. Para realizar a mensuração do desempenho, utilizou-se medidas de avaliação específicas: acurácia, precisão, revocação (também chamada de sensibilidade) e F1-score.
Após implementação do teste estatístico Anova conjuntamente com o teste Tukey para múltipla comparação das médias levando em conta os desvios padrões, pode-se citar como parte dos resultados obtidos que três algoritmos se destacaram e o melhor destes para classificar as sequências depende do que se busca aplicar: Rede neural com conjunto de dados kmers, Rede Neural com conjuntos de dados de características físico-químicas e KNN sem PCA e conjunto de dados kmers.