Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado

Trecenti, Julio Adolfo Zucon; Fossaluza, Victor

Tese

Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (2023)

Authors:
- Trecenti, Julio Adolfo Zucon
- Fossaluza, Victor (Orientador)
Autor USP: TRECENTI, JULIO ADOLFO ZUCON - IME
Unidade: IME
Sigla do Departamento: MAE
DOI: 10.11606/T.45.2023.tde-20042023-113409
Subjects: APRENDIZADO COMPUTACIONAL; RECONHECIMENTO DE PADRÕES; INTELIGÊNCIA ARTIFICIAL
Keywords: Aprendizado de máquinas; Aprendizado estatístico; Aprendizado fracamente supervisionado; Captcha; Machine learning; Partial label; Raspagem de dados; Rótulos parciais; Statistical learning; Weak supervised learning; Web scraping
Language: Português
Abstract: Captcha (Completely Automated Public Turing tests to tell Computers and Humans Apart), é um desafio utilizado para identificar se o acesso à uma página na internet é realizada por uma pessoa ou uma máquina. O desafio é projetado para ser fácil de resolver por humanos, mas difícil de resolver por máquinas. A utilização de Captchas em serviços públicos pode ser prejudicial à população, limitando o acesso a dados e incentivando empresas a contratarem serviços que utilizam mão de obra humana para resolução dos Captchas. Este trabalho tem como foco os Captchas com textos (números e letras) em imagens. Já existem soluções para resolver Captchas deste tipo utilizando aprendizado de máquinas, sendo as redes neurais profundas os modelos com melhor desempenho. No entanto, esses modelos precisam de grandes bases de dados anotadas ou de procedimentos de ajuste intrincados e pouco acessíveis. Neste trabalho, é proposto um método inovador, chamado Web Automatic Weak Learning (WAWL), que alia técnicas de raspagem de dados e aprendizado de máquinas com rótulos parciais, utilizando dados obtidos automaticamente da internet para acelerar o ajuste dos modelos. O método é agnóstico à arquitetura utilizada para o modelo, sendo necessário realizar apenas uma adaptação na função de perda. O método apresenta resultados significativos, aumentando a acurácia inicial de modelos fracos em mais de 30\% nos mais de 10 Captchas estudados, sem a necessidade de realizar uma nova rodada de anotação manual.Adicionalmente, um novo pacote computacional de uso livre foi desenvolvido para resolver Captchas e disponibilizar os resultados publicamente. Espera-se que o trabalho possa reduzir o incentivo econômico de contratar serviços que utilizam mão de obra humana para resolver Captchas
Imprenta:
- Publisher place: São Paulo
- Date published: 2023
Data da defesa: 31.03.2023

Informações sobre o DOI: 10.11606/T.45.2023.tde-20042023-113409 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo é de acesso aberto
URL de acesso aberto
Cor do Acesso Aberto: gold
Licença: cc-by-nc-sa

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

TRECENTI, Julio Adolfo Zucon. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado. 2023. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/. Acesso em: 29 maio 2024.
APA

Trecenti, J. A. Z. (2023). Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/
NLM

Trecenti JAZ. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado [Internet]. 2023 ;[citado 2024 maio 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/
Vancouver

Trecenti JAZ. Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado [Internet]. 2023 ;[citado 2024 maio 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-20042023-113409/

ReP

Exportar registro bibliográfico

Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Resolvendo Captchas: usando raspagem de dados e aprendizado fracamente supervisionado (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: