Posts Tagged 'python'

Minha (quase) vida bandida

Blog juntando moscas, deixa eu ressucitar um projetinho de fim de semana para ver se anima um pouco.

A ideia inicial desse post surgiu na PythonBrasil do ano passado. Pensei em fazer uma lightning talk, mas não ficou pronta a tempo (Nota: sempre bom deixar alguma lightning talk preparada).

Como começou a história: recebi email de uma prima, pedindo para que os amigos e parentes ajudassem a votar na filha dela em um site de roupas infantis. A criança mais votada participaria de um comercial e ia embolsar um monte de roupas.

Ok, ok. Odeio esse tipo de spam, mas também não custa ajudar, né? Fui na página de votação. Votei uma vez, depois de preencher um captcha, e tentei votar de novo para ver o que acontecia. “Você votou na última hora, aguarde para votar novamente”. Hmm. Como será que o controle disso é feito?

Abri o código. Hmm, essa função em javascript aqui que processa o evento do botão, ela chama uma URL…

  function votoAprovar(cadastroId){
    captcha = document.getElementById('cadastroCaptcha').value;
    window.location = 'voto_v.php?votoStatus=1&cadastroId='+cadastroId+"&captcha="+captcha;
  }

Opa. E se eu tentar acessar essa URL direto?

voto_v.php?votoStatus=1&cadastroId=98374&captcha=adb356

Tenho que acertar o captcha. Onde está o captcha? Ah, olha só, o link da imagem é um arquivo captcha.php, será que dá para acessar direto? Deu.

Essa é a imagem original.

Resumindo, eu tinha a URL para votar, e atualizando o captcha eu conseguia votar quantas vezes quisesse. Mas ficar fazendo isso na mão é chato. Como será que funciona identificação de captcha? Uma pesquisa rapidinha e caí nesse site. E em Python, para facilitar ainda mais minha vida.

Brinquei um pouco com o PIL, e consegui deixar a imagem com caracteres bem definidos. Incrivelmente, só precisei converter para escala de cinza, e aplicar um limiar.

def captcha_to_greyscale(captcha):
    if captcha.mode == 'L':
        return captcha
    captcha = captcha.convert('L', (.4, .4, .4, 0))
    return captcha

def light_pixels_to_white_pixels(pixels, w, h):
    for x in xrange(w):
        for y in xrange(h):
            if pixels[x, y] > 50:
                pixels[x, y] = 255
    return pixels

def clean_captcha(img):
    img2 = captcha_to_greyscale(img)

    w, h = img2.size
    light_pixels_to_white_pixels(img2.load(), w, h)

    return img2

Imagem, depois de processada pelo PIL.

E, conforme ia acumulando mais imagens, vi que a minha vida seria mais fácil ainda: o captcha só tinha caracteres hexadecimais, então nem precisaria mapear o alfabeto inteiro, só de zero a nove e de ‘a’ até ‘f’. Depois de limpar algumas imagens e juntá-las numa pasta, rodei o treinador do tesseract-ocr, e depois dos arquivos de treinos prontos, tinha 100% de acerto nas imagens. Sigh, que maravilha de captcha…

Agora, testar. Criei um perfil falso, e me assustei. Tentei rodar o script para ver se contava um voto, e quando abri o perfil já tinha 5! Aparentemente, as mães fazem um “vote-no-meu-filho-que-eu-voto-no-seu”, e como os perfis mais novos aparecem na página principal, me acharam rapidinho. Ok, rodemos um loop então, cem votos. Yep, todos contados.

    br = mechanize.Browser()

    page = br.open('******/captcha/captcha.php')
    img_str = StringIO(page.read())

    img = Image.open(img_str)
    output = clean_captcha(img)

    fp = open('tmp.tif', 'wb')
    output.save(fp, format='tiff')
    fp.close()

    getoutput('tesseract tmp.tif output -l captcha')
    fp = open('output.txt')
    captcha = fp.read()[:6]
    fp.close()

    cadId = 28477

    vote_page = '******/voto_v.php?votoStatus=1&cadastroId=%d&captcha=%s' % (cadId, captcha)
    br.open(vote_page)

Omiti o endereço do site, mas basicamente o script é esse.

Agora chega o grande momento, o clímax da história, onde o herói escolhe entre a fama e fortuna ou o que parece moralmente certo. (Que grandioso!). “Com grandes poderes vêm grandes responsabilidades!”. E todo esse lero-lero.

Apesar de o propósito inicial ter sido ajudar a minha prima, rodar o script me pareceu uma ajuda grande demais. E meu objetivo era testar o buraco no sistema de votação, não me aproveitar dele. Acabei deixando pra lá, e o código ficou mofando no meu computador.

Hoje, quando fui escrever o post, vi que já aconteceu a segunda edição do concurso, e miseravelmente o sistema é exatamente o mesmo. Vou mandar esse post para a empresa, quem sabe para o próximo corrijam.

UPDATE: O Lameiro deu a dica nos comentários: buscando no google.com.br por “captcha PHP” temos, como primeiro hit, um tutorial ensinando a gerar o captcha que esse site usa. E, como ele bem notou, deve ter muitos sites no Brasil com esse mesmo problema.

Fica a dica: nunca confie no primeiro hit do google para implementar a sua solução de segurança. Aliás, não confie em nenhuma, até saber como ela funciona.

Robô Shrek

Na última quarta-feira aconteceu a Feira de Informática Aplicada, ligada à Semana de Computação da UFSCar. Eu e Alphalpha resolvemos participar para testar o Arduino que eu tinha comprado no começo do ano. O tempo era curto, mas mesmo assim fomos em frente e juntamos algumas peças que sobraram do robô do GEDAI, um N800, um Arduino Duemilanove e montamos nosso próprio robô, chamado de Shrek.

Por que Shrek? Porque Shrek é um ogro, ogros são como cebolas (fedem são feitos de camadas), e nosso robô é feito de várias camadas simples que, juntas, fazem algo complexo.

Como funciona? O Arduino controla os motores, e recebe dados pelo USB (como uma porta serial) vindos do N800. O N800 está conectado em uma rede wifi, e recebe comandos via socket. Além disso, também envia vídeo e áudio para a aplicação (que no momento roda em um PC), e a aplicação envia os comandos e exibe o vídeo e o áudio.

Devido ao pouco tempo, apenas 3 comandos simples foram implementados (frente, giro à esquerda, giro à direita), mas nosso objetivo estava cumprido: a comunicação entre as partes estava funcionando direitinho, e agora podemos partir para incrementá-lo.

Todo o código está disponível no Google Code, e queremos levá-lo para o FISL (depois de arranjarmos motores melhores).

Hand

Ontem, enquanto gravava um DVD, comecei a generalizar os scripts que geram os feeds do post anterior. E disso surgiu o Hand, um gerador de feeds RSS.

Como funciona?

O meu objetivo inicial era gerar feeds para sites que não os disponibilizavam, recorrendo ao bom e velho screen scraping. Comecei fazendo o feed dos quadrinhos da Folha, o mais complicado, pois era necessário fazer autenticação de usuário e percorrer várias páginas para extrair links. Ao fazer o dos Malvados, segui a mesma estrutura de funções, e comecei a perceber que dava para generalizar bastante o processo.

Eis que surge Hand. No fundo é uma classe que implementa alguns métodos (build_date, generate_description, build_feed, process), e exige que você derive a classe e implemente o método generate_data. generate_data é um método que retorna uma lista de dicionários, com cada dicionário contendo os campos title, page_link, description, pubDate e guid correspondentes a um item do feed. Simples assim.

E funciona?

Yep. Mantenho quatro feeds no momento:

Onde posso ver esta maravilha?

O código está disponível no Github, mas ainda está bem cru, preciso empacotá-lo direito.

Quais os próximos passos?

O feed da Folha demora para ser gerado, porque toda vez que o script é rodado ele precisa consultar todas as páginas. Portanto penso em adicionar persistência, mas bem simples, um sqlite é mais que suficiente.

Além disso, quero descrever a configuração do feed (onde gerá-lo, qual template usar) num arquivo, e fazer a classe base ler essas opções. Assim fica ainda mais fácil fazer um novo feed.

Que nominho, hein?

Para quem não entendeu o nome: qual um bom para um gerador de feeds? Enquanto pensava, lembrei de uma música do NIN chamada ‘The Hand That Feeds’. E, além disso, ele também te dá uma mão para gerar feeds, certo? *TU-DUM-TISH*!

Feeds de quadrinhos

Infelizmente a Folha de São Paulo não disponibiliza feeds dos quadrinhos diários dela. Isso significa privar-nos de Laerte e Adão, mas não temam! Caso queiram tirinhas frescas toda a manhã no seu leitor de feeds favorito, basta usar o que eu fiz.

A idéia (sim, sou antigo, meus netos ainda vão dizer ‘meu vô é do tempo que se escrevia ideia com acento’) é simples, e foi baseada na do Leandro Siqueira: apesar do conteúdo da Folha ser exclusivo para assinantes, as imagens das tirinhas são acessíveis. Basta descobrir o padrão do nome delas. Mas percebi que as tirinhas de domingo não estavam aparecendo, pois existem autores diferentes nesse dia (Allan Sieber e irmãos Bá, atualmente). Então resolvi fazer um que fosse um pouquinho mais dinâmico, e deu certo, porque quando houve a transição das dominicais o feed continuou funcionando sem modificações.

Como foi feito? Python, Beautiful Soup e Mechanize. O script autentica no site, busca o índice dos quadrinhos, e acha o link das imagens para gerar o feed. Aliás, Beautiful Soup é uma das bibliotecas mais úteis que já usei, para mexer com HTML não tem nada melhor.

E, como o mais complicado já estava feito, semana passada fiz rapidinho um feed para os Malvados também. Até tem um feed lá, mas é só para o blog. Ainda não resolvi como fazer para mostrar as séries, mas as normais aparecem sem problemas no feed (acho, eu uso Google Reader e aparece. Por favor, testem em outros readers e me avisem).

Ando pensando em generalizar um pouco os dois scripts, para facilitar a escrita de screen scrapers, mas não sei se vale a pena, já que eles são extremamente dependentes da estrutura da página. Mas vamos ver o que sai =D