Crawlers e Web Semântica


Os Web Crawlers, ou apenas crawlers, são programas de computador que navegam pela web de uma forma metódica e automatizada. O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca (ex: Google e Yahoo), usam crawlers para manter uma base de dados atualizada. Estes  recursos são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas.

Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web site, como checar os links ou validar o código HTML. Os crawlers também podem ser usados para obter tipos específicos de informação das páginas da Web, como minerar endereços de email (mais comumente para spam).

Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar (também chamado de seeds). À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um  conjunto de regras.

O trabalho dos crawlers dá importância à web semântica de uma página, ou seja, isso quer dizer que é melhor para o crawler ver uma tag e no seu interior, um conteúdo associado à tag. Para melhor analisar este contexto, imaginemos a seguinte situação:

Supondo que um site irá listar alguns produtos:

Exemplo – 1:
<h2>Times de futebol no estado de São Paulo</h2>
<ul>
<li>Palmeiras</li>
<li>Santos</li>
<li>Corinthians</li>
<li>São Paulo</li>
<li>…</li>
</ul>

Utilizando as tag de forma correta, contém muito mais relevância semântica. Em alguns casos, é comum encontrar sites desenvolvidos desta forma:
Exemplo – 2:
<b> Times de futebol no estado de São Paulo </b><br />
Palmeiras<br />
Santos<br />
Corinthians<br />
São Paulo<br />
… <br />

O conteúdo produzido e publicado neste formato não causa danos à web, mas dificulta a leitura dos crawlers na busca dos conteúdos da página.

Analisando outro exemplo, sobre envio de forms4:
Exemplo – 3:
<form>
<input type=”text” name=”email” id=”email” value=”Digite seu e-mail” />
<input type=”submit” value=”Enviar”/>
</form>
Essa forma de desenvolvimento tem mais relevância do que o modelo abaixo:
Exemplo – 4:
<form>
<input type=”text” name=”email” id=”email” value=”Digite seu e-mail” />
<img onclick=”enviar_formulario();” />
</form>

Existem inúmeras formas de desenvolver um site, mas é necessário que o profissional tenha conhecimento dessas informações para garantir um bom posicionamento em sites de busca que são abastecidos pelo trabalho dos crawlers.

Fonte:

A Web Semântica. Disponível em: http://www.tableless.com.br/a-web-semantica

ENGE, Eric; SPENCER, Stephan; FISHKIN, Rand; STRICCHIOLA, Jessie. A arte de SEO. 1 ed. São Paulo: Novatec, 2010.

O que é SEO? Disponível em: http://www.mestreseo.com.br/seo/o-que-e-seo

 

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.