Googlebot é o nome genérico do rastreador da Web do Google. Esse nome é usado para dois tipos diferentes de rastreadores: um rastreador para computadores e outro para dispositivos móveis que simulam a ação de um usuário em cada um desses ambientes.
Seu site provavelmente será rastreado pelo Googlebot Desktop e pelo Googlebot Mobile. Você pode identificar o subtipo do Googlebot observando a string do user agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot para smartphones nem o Googlebot para computadores com o robots.txt.
Sabendo disso, vamos saber como o Googlebot funciona:
O que você irá saber neste artigo:
Como o Googlebot acessa seu site
Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.
O Googlebot foi desenvolvido para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Além disso, para reduzir o uso de largura de banda, muitos rastreadores funcionam em máquinas localizadas perto dos sites que podem ser rastreados. Assim os registros talvez mostrem visitas de diversas máquinas no google.com, todas com o user agent do Googlebot. Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita sem sobrecarregar a largura de banda do servidor. Caso seu site esteja com problemas no acompanhamento das solicitações de rastreamento do Google, é possível fazer a solicitação de uma mudança na taxa de rastreamento.
Geralmente, o Googlebot rastreia via HTTP/1.1. No entanto, a partir de novembro de 2020, o Googlebot passou a rastrear sites que se beneficiarem dele com o HTTP/2 se ele for compatível com o site. Isso pode poupar recursos de computação (por exemplo, CPU e RAM) do site e do Googlebot, mas não afetará a indexação nem a classificação do site.
Para desativar o rastreamento via HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Googlebot tentar rastrear o site dessa maneira. Se isso não for viável, é possível enviar uma mensagem para a equipe do Googlebot. No entanto, essa solução é temporária.
Como impedir o acesso do Googlebot ao seu site
É quase impossível manter um servidor da Web em sigilo não publicando links para ele. Quando alguém segue um link do seu servidor “secreto” para outro servidor da Web, o URL “secreto” pode aparecer na tag de referência, ser armazenado e publicado pelo outro servidor da Web no seu registro de referência. De modo similar, a Web tem muitos links desatualizados e corrompidos. Sempre que alguém publicar um link incorreto para seu site ou deixar de atualizar links de acordo com as mudanças no seu servidor, o Googlebot tentará rastrear esse link.
Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. Há diferenças entre evitar o rastreamento de uma página pelo Googlebot, impedir que ele indexe uma página e não permitir que uma página seja acessada por rastreadores nem por usuários.
Controle o que você compartilha com o Google
Controle as informações que o Google encontra no site e o que é exibido nos resultados da pesquisa. Veja algumas razões para querer ocultar conteúdo do Google:
- Para manter a privacidade dos dados: é possível ter dados particulares hospedados no site que você não quer que outros usuários acessem. Você pode impedir que o Google rastreie esses dados para que eles não apareçam nos resultados da pesquisa.
- Para ocultar o conteúdo de menor valor para o público-alvo: O site pode ter o mesmo conteúdo em lugares diferentes, o que afeta negativamente as classificações da página na Pesquisa Google. Um bom exemplo de onde o conteúdo duplicado pode surgir é uma função de busca em todo o site para ajudar os usuários a navegarem pelo conteúdo do site. Algumas funções de pesquisa geram e exibem páginas de resultados de pesquisa personalizadas quando um usuário insere uma consulta. O Google poderá rastrear todas as páginas de resultados da pesquisa personalizadas individualmente se não estiverem bloqueadas. Como resultado, o Google vê um site com muitas páginas semelhantes e pode categorizar o conteúdo duplicado como spam, o que pode prejudicar a classificação da página na Pesquisa Google. Seu site pode compartilhar informações geradas por fontes de terceiros que estão disponíveis em outros lugares na Web. O Google vê menos valor em incluir páginas com grande quantidade de conteúdo duplicado nos resultados da Pesquisa Google. É possível bloquear o conteúdo copiado para aprimorar o que o Google vê e otimizar a classificação da página na Pesquisa Google.
- Para que o Google se concentre no conteúdo importante: se você tiver um site muito grande (milhares de URLs) e páginas com conteúdo menos importante, ou se tiver muito conteúdo duplicado, evite que o Google o rastreie para que se concentre no conteúdo mais importante.
Como bloquear conteúdo
Veja as principais maneiras de bloquear a exibição de conteúdo no Google:
Métodos | |
---|---|
Remover o conteúdo | Para todos os tipos de conteúdo: Remover o conteúdo do site é a melhor maneira de garantir que ele não apareça na Pesquisa Google ou em qualquer lugar. Se as informações já aparecerem no Google, talvez seja preciso tomar medidas adicionais para que a remoção seja permanente. |
Proteger seus arquivos com senha | Para todos os tipos de conteúdo: Se tiver conteúdo confidencial ou particular que você não quer que apareça nos resultados da pesquisa do Google, saiba que a forma mais simples e eficaz de bloquear URLs particulares é armazená-los em um diretório protegido por senha no servidor local. O Googlebot e todos os outros rastreadores não poderão acessar o conteúdo em diretórios protegidos por senha. Usuários avançados: se você usa o servidor da Web Apache, edite o arquivo .htaccess para proteger o diretório por senha no servidor. Existem várias ferramentas na Web que podem ajudar você a fazer isso. |
robots.txt e/ou solicitação emergencial de remoção de imagem | Para imagens: Use regras do robots.txt para bloquear imagens. |
Diretiva noindex | Para páginas da WebA diretiva noindex é uma técnica que impede o Google de ler a página ou de deixá-la aparecer nos resultados da pesquisa. As páginas ainda podem ser acessadas por links e visitadas por outras páginas da Web, mas não serão exibidas nos resultados da pesquisa do Google. Esse método requer conhecimento técnico e poderá não estar disponível se você hospedar seu site em um sistema de gerenciamento de conteúdo. |
Não autorizar Serviços do Google específicos | Para páginas da Web: É possível dizer ao Google para não incluir o conteúdo do site em Serviços do Google específicos, em vez de em todos os Serviços. |
Metatag nosnippet | Para snippets exibidos nos resultados da Pesquisa: Adicione a tag <meta name="robots" content="nosnippet" /> à seção head no HTML da página para evitar que um snippet apareça na Pesquisa. No entanto, isso pode gerar uma mensagem confusa nos resultados da pesquisa (“Não há informações disponíveis sobre esta página”). |
Ferramenta de parâmetros de URL | Páginas da Web, seções do site, padrões de URL: Os usuários avançados podem usar a Ferramenta de parâmetros de URL para bloquear o rastreamento de URLs com parâmetros específicos. Recomendamos usar esse método somente se você for um usuário bastante avançado, já que ele pode bloquear grande parte do espaço de URL do site, e, caso isso seja feito errado, a depuração será complicada. |
Verificação do Googlebot
Antes de decidir bloquear o Googlebot, não esqueça que a string do user agent usada pela ferramenta muitas vezes é falsificada por spoofing por outros rastreadores. É importante verificar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se uma solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação.
O Googlebot e todos os bots de mecanismos de pesquisa confiáveis respeitam as instruções do robots.txt, mas há usuários mal-intencionados e criadores de spam que não fazem isso. O Google combate ativamente criadores de spam. Por isso, se você notar páginas ou sites de spam nos resultados da Pesquisa Google, denuncie ao Google.