BioAutoML: Democratizing Machine Learning in Life Sciences (2024)
- Authors:
- Autor USP: BONIDIA, ROBSON PARMEZAN - ICMC
- Unidade: ICMC
- Sigla do Departamento: SME
- DOI: 10.11606/T.55.2024.tde-01042024-092414
- Subjects: APRENDIZADO COMPUTACIONAL; BIOINFORMÁTICA; ANÁLISE DE DADOS; ASSISTÊNCIA À SAÚDE
- Keywords: Automated feature engineering; BioAutoML; BioAutoML; Biological sequences; Descritores matemáticos; Engenharia de características automatizada; Mathematical descriptors; MathFeature; MathFeature; Meta-aprendizado; Metalearning; Sequências biológicas
- Agências de fomento:
- Language: Inglês
- Abstract: Avanços tecnológicos recentes permitiram uma expansão exponencial dos dados de sequências biológicas e a extração de informações significativas por meio de algoritmos de Aprendizado de Máquina (AM). Esse conhecimento aprimorou a compreensão dos mecanismos relacionados a várias doenças fatais, como o câncer e a COVID-19, contribuindo para o desenvolvimento de soluções inovadoras, como a edição de genes com base no CRISPR, vacinas contra o coronavírus e medicina de precisão. Esses avanços beneficiam nossa sociedade e economia, impactando diretamente a vida das pessoas em várias áreas, como cuidados de saúde, descoberta de medicamentos, análise forense e análise de alimentos. No entanto, abordagens de AM aplicadas a dados biológicos requerem características representativas, quantitativas e informativas. Necessariamente, uma vez que muitos algoritmos de AM só podem lidar com dados numéricos, as sequências precisam ser traduzidas em um vetor de características. Esse processo, conhecido como extração de características, é uma etapa fundamental para a elaboração de modelos de AM de alta qualidade em bioinformática, permitindo a etapa de engenharia de características, com o design e seleção de características adequadas. A engenharia de características, a seleção de algoritmos de AM e o ajuste de hiperparâmetros são frequentemente processos manuais e demorados, que requerem amplo conhecimento do domínio e são realizados manualmente por um especialista humano. Para lidar com esseproblema, desenvolvemos um novo pacote, o BioAutoML, que executa automaticamente um pipeline de AM de ponta a ponta. O BioAutoML extrai características numéricas e informativas de bancos de dados de sequências biológicas, automatizando a seleção de características, a recomendação de algoritmos de AM e o ajuste de hiperparâmetros, usando o Aprendizado de Máquina Automatizado (AutoML). O BioAutoML possui dois componentes, divididos em quatro módulos: (1) engenharia de características automatizada (módulos de extração e seleção de características) e (2) Meta-Aprendizado (módulos de recomendação de algoritmos e ajuste de hiperparâmetros). Nossos resultados experimentais, ao avaliar a relevância de nossa proposta, indicam resultados robustos para diferentes domínios de problemas, como SARS-CoV-2, peptídeos anticancerígenos, sequências de HIV e RNAs não codificadores. De acordo com nossa revisão sistemática, nossa proposta é inovadora em comparação com estudos disponíveis na literatura, sendo o primeiro estudo a propor engenharia de características automatizada e metalearning para sequências biológicas. O BioAutoML tem um alto potencial para reduzir significativamente a expertise necessária para usar pipelines de AM, auxiliando os pesquisadores no combate a doenças, principalmente em países de baixa e média renda. Esta iniciativa pode oferecer aos biólogos, médicos, epidemiologistas e outras partes interessadas a oportunidade de utilizar amplamente essas técnicas para aprimorar asaúde e o bem-estar de suas comunidades.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Data da defesa: 31.01.2024
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
BONIDIA, Robson Parmezan. BioAutoML: Democratizing Machine Learning in Life Sciences. 2024. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/. Acesso em: 10 jun. 2024. -
APA
Bonidia, R. P. (2024). BioAutoML: Democratizing Machine Learning in Life Sciences (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ -
NLM
Bonidia RP. BioAutoML: Democratizing Machine Learning in Life Sciences [Internet]. 2024 ;[citado 2024 jun. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ -
Vancouver
Bonidia RP. BioAutoML: Democratizing Machine Learning in Life Sciences [Internet]. 2024 ;[citado 2024 jun. 10 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01042024-092414/ - Pilot sequence allocation schemes in massive MIMO systems using heuristic approaches
- A novel decomposing model with evolutionary algorithms for feature selection in long non-coding RNAs
- Feature extraction approaches for biological sequences: a comparative study of mathematical features
- MathFeature: feature extraction package for DNA, RNA and protein sequences based on mathematical
- Procedural versus human level generation: two sides of the same coin?
- CRISPRloci: comprehensive and accurate annotation of CRISPR-Cas systems
- BioAutoML: automated feature engineering and metalearning to predict noncoding RNAs in bacteria
- BioPrediction: democratizing machine learning in the study of molecular interactions
- BioDeepfuse: a hybrid deep learning approach with integrated feature extraction techniques for enhanced non-coding RNA classification
- BioPrediction: democratizando a aprendizagem de máquina no estudo de interações moleculares
Informações sobre o DOI: 10.11606/T.55.2024.tde-01042024-092414 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas