Crie o seu arquivo robots.txt e ajude os robôs dos mecanismos de busca a indexarem corretamente o seu site.
O arquivo robots.txt é usado para controlar a ação dos robôs dos mecanismos de busca dentro do seu site. Com esse arquivo é possível definir quais arquivos ou pastas o robô pode ou não indexar. O arquivo deve ser colocado na pasta raiz do site para que os robôs possam identificá-lo e processá-lo antes de vasculhar o site.
Sintaxe
Um arquivo robots.txt simples utiliza duas regras básicas, veja:
- User-agent: identifica o robô que deverá receber a regra seguinte
- Disallow: identifica o URL que deseja bloquear
O que deve estar listado na linha “User-agent”?
Um user-agent é um robô com mecanismos de pesquisa específicos. A Web Robots Database relaciona muitos bots comuns. Configure uma entrada para ser aplicada em um robô específico (listando o nome) ou configure-a para ser aplicada em todos os robôs (listando um asterisco). Uma entrada que se aplica a todos os robôs tem este formato:
User-agent: *
O Google usa diversos robôs (user-agents), por exemplo: para pesquisa na web é o Googlebot, para sites desenvolvidos para celulares é o Googlebot-Mobile e para imagens o Googlebot-Image. É possível definir regras para cada um desses robôs utilizando a tag User-agent.
O que deve estar listado na linha “Disallow”?
A linha “Disallow” lista as páginas que você deseja bloquear. Relacione um URL específico ou um padrão. A entrada deve começar com uma barra (/).
Para bloquear todo o site, use uma barra normal.
Disallow: /
Para bloquear um diretório e tudo que houver nele, adicione a mesma barra após o nome do diretório.
Disallow: /diretorio-lixo/
Para bloquear uma página, liste a página.
Disallow: /arquivo_particular.html
Para remover uma imagem específica da pesquisa de imagens do Google, adicione o seguinte:
User-agent: Googlebot-Image
Disallow: /imagens/dogs.jpg
Para remover todas as imagens do seu site da pesquisa de imagens do Google:
User-agent: Googlebot-Image
Disallow: /
Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:
User-agent: Googlebot
Disallow: /*.gif$
Para impedir que as páginas do seu site sejam rastreadas, mas continuem exibindo anúncios do AdSense, bloqueie todos os robôs, exceto o Mediapartners-Google. Isso impede que as páginas apareçam nos resultados de pesquisa, mas permite que o robô Mediapartners-Google analise as páginas para determinar os anúncios que devem ser mostrados. O robô Mediapartners-Google não compartilha páginas com outros user-agents do Google. Por exemplo:
User-agent: *
Disallow: /pasta1/User-agent: Mediapartners-Google
Allow: /pasta1/
Observe que as diretivas diferenciam caracteres maísculos e minúsculos. Por exemplo, Disallow: /arquivo_lixo.asp – bloquearia http://www.example.com/arquivo_lixo.asp, mas permitiria http://www.example.com/Arquivo_lixo.asp.
Correspondência por padrão
O Googlebot (mas não todos os mecanismos de pesquisa) respeita algumas correspondências por padrão.
Para fazer com que uma seqüência de caracteres gere uma correspondência, use um asterisco (*). Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com “particular”:
User-agent: Googlebot
Disallow: /particular*/
Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação ou por qualquer string):
User-agent: Googlebot
Disallow: /*?
Para especificar a correspondência do fim do URL, use $. Por exemplo, para bloquear os URLs que terminam com .xls:
User-agent: Googlebot
Disallow: /*.xls$
Use essa correspondência por padrão juntamente com a instrução “Allow”. Por exemplo, se um “?” indicar um ID de sessão, convém excluir todos os URLs que contenham o caractere para assegurar que o Googlebot não rastreie páginas duplicadas. Mas os URLs terminados em “?” podem ser a versão da página que você deseja incluir. Nesse caso, você pode configurar o arquivo robots.txt da seguinte maneira:
User-agent: *
Allow: /*?$
Disallow: /*?
A instrução Disallow: / *? bloqueará qualquer URL que contenha um “?” (mais especificamente, a linha bloqueará qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, seguida por um ponto de interrogação, seguido por qualquer string).
A instrução Allow: /*?$ permitirá qualquer URL que termine com “?” (mais especificamente, a linha permitirá qualquer URL que comece com o nome do seu domínio, seguido por uma string, seguida por um “?” e sem qualquer caractere depois do “?”).
Nota: A maneira mais fácil de criar um arquivo robots.txt é usar a ferramenta “Gerar robots.txt” do Google Webmasters Tools. Depois de criar o arquivo, use a ferramenta Analisar robots.txt para verificar se o arquivo apresenta o comportamento esperado.
Fonte: 72DPI