39;>

quinta-feira, 12 de abril de 2012

Tutorial de robots.txt

Olá leitores da MestreSEO!

Como muitos de vocês sabem, os mecanismos de busca utilizam-se de robôs de busca, também conhecidos como webcrawlers, para percorrer toda a web, indexando todo ou quase todo o conteúdo disponível. Diante disto, foi criado um padrão onde cada website pode incluir na raíz do seu website um arquivo chamado robots.txt que diz aos robôs de busca quais páginas eles não podem visitar.

Pois bem, aprender como funciona o robots.txt é muito importante no processo de otimização de sites, evitando assim que algum conteúdo restrito fique disponível na web ou ainda que você sofra de conteúdo duplicado.

Vejamos abaixo mais alguns detalhes sobre o padrão robots.txt:

Como Criar um Arquivo robots.txt
Existem diversas maneiras de criar um arquivo robots.txt, como por exemplo, abrir o bloco de notas e criar a partir de lá. Mas aqui na MestreSEO disponibilizamos uma ferramenta online e gratuita onde você pode inserir quais páginas você deseja bloquear dos robôs de busca e ele simplesmente fornece todo o código necessário para gerar o seu arquivo robots.txt. Vale apena testar.

Exemplos de Formatação do robots.txt
Permite que todos os arquivos sejam indexados

User-agent: *

Disallow:

Não permite que nenhum arquivo seja indexado

User-agent: *

Disallow: /

Não permite que uma pasta seja indexada, com aexceção do arquivo myfile.html que está dentro da pasta

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

nformação Contida no robots.txt
Os search engines são vorazes por padrão. Eles querem indexar o máximo de informação de qualidade que conseguirem, e eles presumem que podem indexar tudo, a menos que alguém diga para eles pararem.

Se você especificar dados para todos os bots (*) e dados para bots específicos (como o Googlebot), então os comandos específicos para bots serão seguidos enquanto o bot especificado (no nosso exemplo o Googlebot) irá ignorar os comandos globais. Logo, se você fizer um comando global que queira aplicar para um bot específico, então você deverá colocar o comando para o bot específico também.


Quando você bloqueia URLs para que elas não sejam indexadas no Google pelo robots.txt, ele (o Google) pode ainda mostrar estas URLs nos resultados das pesquisas. Uma solução completa é bloquear usando as meta tags:



Se você não tem um arquivo robots.txt, os logs dos servidores irão retornar erros 404 sempre que um bot tentar acessar o arquivo. Você pode fazer upload do arquivo em branco com o nome robots.txt na pasta raiz do seu site.

Alguns search engines também permitem que você especifique o endereço de um sitemap XML no arquivo robots.txt.

Caracteres Especiais
Google, Yahoo! e MSN permitem o uso de caracteres especiais no arquivo robots.txt.

Para bloquear acesso para todas as URLs que incluem uma interrogação (? – URLs com parâmetros via GET), você deve usar o seguinte código:

User-agent: *

Disallow: /*?

Você pode também especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .asp, coloque no robots.txt :

User-agent: Googlebot

Disallow: /*.asp$

Excentricidades
Sabemos que o Google vem “preenchendo” formulários de pesquisa e indexando as páginas geradas. Para evitar que tais páginas sejam indexadas, bloqueie pelo robots.txt. Suponha que a variável de pesquisa na URL seja “search”. Então você poderia por:

User-agent: *

Disallow: /?search=

para evitar que as páginas geradas por pesquisa sejam geradas.

Analisando o robots.txt
No Google Webmaster Central, existe uma ferramenta de análise muito eficiente, que mostra os erros que o crawler encontrou durante a anáise do seu site. Mais detalhes podem ser encontrados no meu artigo de otimização de sites usando o google webmaster tools.

Conclusões
O uso do robots.txt é uma importante técnica para controle de indexação do seu site e é uma dos primeiros itens a se verificar quando se realiza uma consultoria de SEO. Então fique de olho e não se esqueça de testar o seu robots.txt.

Nenhum comentário:

Postar um comentário

▲ Topo