23
set
2011

Aprenda o que é o Robots.txt e como utilizá-lo

SEO - Search Engine Optimization

Os Googlebot, robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.

ROBOTS.TXT - SINTAXE

O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:

User-agent

A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:

  • Google: User-agent: Googlebot
  • Yahoo: User-agent: Slurp
  • MSN: User-agent: msnbot.
  • Todos os mecanismos: User-agent: *.

Disallow

Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:

  • Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
  • Disallow: print1.html instrui os robots a não indexarem a página print1.html.
  • Allow

    Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.

    EXEMPLOS DE ROBOTS.TXT

    Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.

    Exemplo 2: Considere a seguinte estrutura de um determinado site:

    /
    Index.html
    Contato.html
    /Interno
    Ambiente.html
    /News
    Novidades.html
    /Admin
    Restrito.html
    Seguranca.html
    robots.txt

    Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.

    O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:

    User-agent: *
    Disallow: /Interno
    Allow: /Interno/News
    Disallow: /Admin

    Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News".

    EXEMPLOS REAIS DE ROBOTS.TXT

    Google: www.google.com.br/robots.txt
    Registro.br: http://registro.br/robots.txt

    Fonte: SEO Marketing