Pesquisadores criam versão de processo que protege sites de bots para transcrever com eficiência conteúdo de livros e jornais.
Pesquisadores da Universidade Carnegie Mellon desenvolveram um método que permite a digitalização de livros com mais de 99% de precisão, por meio de uma releitura do sistema de segurança CAPTCHA.
O trabalho dos cientistas foi batizado de reCAPTCHA. O método visual protege os sites de bots, pedindo que o usuário decifre um código distorcido que uma máquina não seria capaz.
Segundo a instituição, diariamente milhões de usuários de computadores transcrevem, coletivamente, cerca de 160 livros, sem saber que estão fazendo este trabalho. A versão da Carnegie Mellon, em seu primeiro ano de operação, teve 1,2 bilhão de ‘captchas’ resolvidos - mais de 440 milhões de palavras foram decifradas, o equivalente a 17.600 livros.
A Universidade afirma que o reCAPTCHA está sendo usado para digitalizar obras para o Internet Archive, além das edições impressas do The New York Times.
Os sistemas tradicionais, que transformam o texto usando reconhecimento óptico de caracteres, falham porque quando a tinta está fraca, o software não reconhece as palavras - o que este método é capaz de fazer.
Para criar o reCAPTCHA, os cientistas usaram imagens de palavras de textos antigos que os softwares tradicionais não conseguiram ler. O reCAPTCHA pode ser usado gratuitamente pelos sites interessados.
Pesquisadores da Universidade Carnegie Mellon desenvolveram um método que permite a digitalização de livros com mais de 99% de precisão, por meio de uma releitura do sistema de segurança CAPTCHA.
O trabalho dos cientistas foi batizado de reCAPTCHA. O método visual protege os sites de bots, pedindo que o usuário decifre um código distorcido que uma máquina não seria capaz.
Segundo a instituição, diariamente milhões de usuários de computadores transcrevem, coletivamente, cerca de 160 livros, sem saber que estão fazendo este trabalho. A versão da Carnegie Mellon, em seu primeiro ano de operação, teve 1,2 bilhão de ‘captchas’ resolvidos - mais de 440 milhões de palavras foram decifradas, o equivalente a 17.600 livros.
A Universidade afirma que o reCAPTCHA está sendo usado para digitalizar obras para o Internet Archive, além das edições impressas do The New York Times.
Os sistemas tradicionais, que transformam o texto usando reconhecimento óptico de caracteres, falham porque quando a tinta está fraca, o software não reconhece as palavras - o que este método é capaz de fazer.
Para criar o reCAPTCHA, os cientistas usaram imagens de palavras de textos antigos que os softwares tradicionais não conseguiram ler. O reCAPTCHA pode ser usado gratuitamente pelos sites interessados.
Nenhum comentário:
Postar um comentário