Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (2023)
- Authors:
- Autor USP: TRECENTI, JULIO ADOLFO ZUCON - IME
- Unidade: IME
- Sigla do Departamento: MAE
- DOI: 10.11606/T.45.2023.tde-20042023-113409
- Subjects: APRENDIZADO COMPUTACIONAL; RECONHECIMENTO DE PADRÕES; INTELIGÊNCIA ARTIFICIAL
- Keywords: Aprendizado de máquinas; Aprendizado estatístico; Aprendizado fracamente supervisionado; Captcha; Machine learning; Partial label; Raspagem de dados; Rótulos parciais; Statistical learning; Weak supervised learning; Web scraping
- Language: Português
- Abstract: Captcha (Completely Automated Public Turing tests to tell Computers and Humans Apart), é um desafio utilizado para identificar se o acesso à uma página na internet é realizada por uma pessoa ou uma máquina. O desafio é projetado para ser fácil de resolver por humanos, mas difícil de resolver por máquinas. A utilização de Captchas em serviços públicos pode ser prejudicial à população, limitando o acesso a dados e incentivando empresas a contratarem serviços que utilizam mão de obra humana para resolução dos Captchas. Este trabalho tem como foco os Captchas com textos (números e letras) em imagens. Já existem soluções para resolver Captchas deste tipo utilizando aprendizado de máquinas, sendo as redes neurais profundas os modelos com melhor desempenho. No entanto, esses modelos precisam de grandes bases de dados anotadas ou de procedimentos de ajuste intrincados e pouco acessíveis. Neste trabalho, é proposto um método inovador, chamado Web Automatic Weak Learning (WAWL), que alia técnicas de raspagem de dados e aprendizado de máquinas com rótulos parciais, utilizando dados obtidos automaticamente da internet para acelerar o ajuste dos modelos. O método é agnóstico à arquitetura utilizada para o modelo, sendo necessário realizar apenas uma adaptação na função de perda. O método apresenta resultados significativos, aumentando a acurácia inicial de modelos fracos em mais de 30\% nos mais de 10 Captchas estudados, sem a necessidade de realizar uma nova rodada de anotação manual.Adicionalmente, um novo pacote computacional de uso livre foi desenvolvido para resolver Captchas e disponibilizar os resultados publicamente. Espera-se que o trabalho possa reduzir o incentivo econômico de contratar serviços que utilizam mão de obra humana para resolver Captchas
- Imprenta:
- Data da defesa: 31.03.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
TRECENTI, Julio Adolfo Zucon. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado. 2023. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/. Acesso em: 29 maio 2024. -
APA
Trecenti, J. A. Z. (2023). Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/ -
NLM
Trecenti JAZ. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado [Internet]. 2023 ;[citado 2024 maio 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/ -
Vancouver
Trecenti JAZ. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado [Internet]. 2023 ;[citado 2024 maio 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/ - Diagramas de influência: uma aplicação em Jurimetria
- Relatório de análise estatística sobre o projeto Juntos sobreviveremos, divididos pereceremos: quais países mais entram em coalizões no Gatti/OMC?
- Relatório de análise estatística sobre o projeto "índice glicêmico e carga glicêmica da dieta de mulheres portadoras de neoplasia mamária sob tratamento quimioterápico"
Informações sobre o DOI: 10.11606/T.45.2023.tde-20042023-113409 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas