quinta-feira, 31 de janeiro de 2013

[Filmes] [Programação] Extrator

Um projeto teste que desenvolvi, cujo o objetivo era realizar a leitura de uma página HTML, e recuperar elementos em formato escrito e filtrado da página.

O Extrator, tem como objetivo pegar informações de filmes e montá-las em formato XML, ele pode ser utilizado para programas que cadastram filmes, poupando tempo em adicionar cada uma das informações. Abaixo a tela principal do programa desenvolvido com Visual Studio em C#.


O funcionamento é relativamente simples, o usuário coloca uma ou mais URL's do filme, separadas por um enter, neste caso baseada no site do CINEPOP ( um dos maiores e completos sites sobre cinema do Brasil ). Após colocar a URL, o usuário informa a ID inicial que deseja para o filme a ser "extraído", e o ano do(s) filme(s). Ao clicar no botão Extrair, o software recebe a página web, lê os elementos necessários, filtra códigos HTML, eliminando-os, e salva a capa encontrada do filme no computador, e o processo está pronto.

Para o exemplo, utilizamos o ótimo filme do Lincoln como base, sua URL ( http://www.cinepop.com.br/filmes/lincoln.php ) e ao clicar em Extrair, o seguinte resultado foi exposto:

  <filme>
    <id>0</id>
    <ano>2013</ano>
    <duracao>150</duracao>
    <dvds>1</dvds>
    <codigo>BD077</codigo>
    <titulo>Lincoln</titulo>
    <tituloOriginal>Lincoln</tituloOriginal>
    <genero>8</genero>
    <idioma>1</idioma>
    <midia>4</midia>
    <sinopse>Daniel Day-Lewis dá vida ao 16º presidente dos Estados Unidos, durante o final de seu mandato, em uma época sangrenta. Em uma nação dividida pela guerra e por fortes ventos de mudança, o presidente Lincoln percorre um caminho de difíceis ações, a fim de terminar a guerra, unir o país e abolir a escravidão. Com coragem moral e força para obter sucesso, suas escolhas nesse período crucial mudam o destino das gerações que ainda estão por vir.</sinopse>
    <elenco>Daniel Day-Lewis, Tommy Lee Jones, Joseph Gordon-Levitt, James SpaderLee Pace, Sally Field, Jackie Earle Haley, Michael Stuhlbarg, John Hawkes, Joseph Cross, David Strathairn, Tim Blake Nelson.</elenco>
    <diretor>Steven Spielberg</diretor>
    <capa>Capas\lincoln_1.jpg</capa>
    <lancamento>25/1/2013 00:00:00</lancamento>
    <cadastro>31/1/2013 00:00:00</cadastro>
    <secao>
    </secao>
  </filme>

Assim, esse software desenvolvido demostra processos para se retirar material necessário da WEB. Ressalto que o objetivo desse software, assim como das informações por ele extraída, são totalmente para estudos.

Nenhum comentário:

Postar um comentário