Os erros de rastreamento ocorrem quando um mecanismo de pesquisa tenta acessar uma página do seu site, mas não consegue.

Vamos lançar um pouco mais de luz sobre o rastreamento primeiro. Rastreamento é o processo em que um mecanismo de pesquisa tenta visitar todas as páginas do seu site por meio de um bot. Um robô de mecanismo de pesquisa encontra um link para seu site e começa a encontrar todas as suas páginas públicas a partir daí. O bot rastreia as páginas e indexa todo o conteúdo para uso no Google, além de adicionar todos os links dessas páginas à pilha de páginas que ainda precisa rastrear. Seu principal objetivo como proprietário de um site é garantir que o bot do mecanismo de pesquisa possa chegar a todas as páginas do site. A falha neste processo retorna o que chamamos de erros de rastreamento.

Seu objetivo é certificar-se de que cada link em seu site leva a uma página real. Isso pode ser por meio de um redirecionamento 301, mas a página no final desse link sempre deve retornar uma resposta do servidor 200 OK.

O Google divide os erros de rastreamento em dois grupos:

  1. Erros do site. Você não quer isso, pois significa que todo o seu site não pode ser rastreado.
  2. Erros de URL. Você também não quer isso, mas, como estão relacionados a apenas um URL específico por erro, são mais fáceis de manter e corrigir.

Vamos ver mais sobre isso.

Erros do site

Os erros do site são todos os erros de rastreamento que impedem o bot do mecanismo de pesquisa de acessar o seu site. Isso pode ter vários motivos, sendo os mais comuns:

  • Erros de DNS. Isso significa que um mecanismo de pesquisa não consegue se comunicar com seu servidor. Pode estar fora do ar, por exemplo, o que significa que seu site não pode ser visitado. Isso geralmente é um problema temporário. O Google voltará ao seu site mais tarde e o rastreará de qualquer maneira. Se você vir avisos sobre isso em seu Google Search Console em erros de rastreamento, isso provavelmente significa que o Google tentou algumas vezes e ainda não conseguiu.
  • Erros do servidor. Se seu console de pesquisa mostra erros de servidor, isso significa que o bot não conseguiu acessar seu site. A solicitação pode ter expirado. O mecanismo de pesquisa (f.i.) tentou visitar seu site, mas demorou tanto para carregar que o servidor exibiu uma mensagem de erro. Erros de servidor também ocorrem quando há falhas em seu código que impedem o carregamento de uma página. Isso também pode significar que seu site tem tantos visitantes que o servidor simplesmente não consegue lidar com todas as solicitações. Muitos desses erros são retornados como códigos de status 5xx, como os códigos de status 500 e 503 descritos aqui.
  • Falha de robôs. Antes de rastrear, (f.i.) o Googlebot tenta rastrear seu arquivo robots.txt também, apenas para ver se há alguma área em seu site que você prefere não indexar. Se esse bot não conseguir acessar o arquivo robots.txt, o Google adiará o rastreamento até que ele alcance o arquivo robots.txt. Portanto, sempre verifique se ele está disponível.

Isso explica um pouco sobre os erros de rastreamento relacionados a todo o seu site. Agora vamos ver que tipo de erro de rastreamento pode ocorrer em páginas específicas.

Erros de URL

Conforme mencionado, os erros de URL referem-se a erros de rastreamento que ocorrem quando um robô de mecanismo de pesquisa tenta rastrear uma página específica do seu site. Quando discutimos erros de URL, tendemos a discutir erros de rastreamento como erros (soft) 404 Not Found.  Primeiro você deve verificar com frequência esses tipos de erros (use o Google Search Console ou as ferramentas para webmasters do Bing) e corrigi-los. Se a página / assunto dessa página realmente sumiu para nunca mais retornar ao seu site, veicule uma página 410. Se você tiver conteúdo semelhante em outra página, use um redirecionamento 301. Certifique-se de que o mapa do site e os links internos também estejam atualizados, obviamente.

Descobrimos que muitos desses erros de URL são causados por links internos, aliás. Portanto, muitos desses erros são culpa sua. Se você remover uma página do seu site em algum momento, ajuste ou remova todos os links de entrada para ela também. Esses links não têm mais uso. Se esse link permanecer o mesmo, um bot irá encontrá-lo e segui-lo, apenas para encontrar um beco sem saída (erro 404 Não encontrado). Em seu site. Você precisa fazer alguma manutenção de vez em quando em seus links internos!

Outro erro comum de URL é aquele com as palavras "URL enviado" no título. Esses erros aparecem assim que o Google detecta um comportamento inconsistente. Por um lado, você enviou o URL para indexação, então está dizendo ao Google: “Sim, quero que você indexe esta página”. Por outro lado, outra coisa está dizendo ao Google: “Não, não indexe esta página”. Um possível motivo pode ser que sua página esteja bloqueada por seu arquivo robots.txt. Ou que a página está marcada como ‘noindex’ por uma metatag ou cabeçalho HTTP. Se você não corrigir a mensagem inconsistente, o Google não indexará seu URL.

Entre esses erros comuns, pode haver um erro ocasional de DNS ou de servidor para esse URL específico. Verifique novamente o URL mais tarde e veja se o erro desapareceu. Certifique-se de usar fetch as Google e marcar o erro como corrigido no Google Search Console, se essa for sua principal ferramenta de monitoramento.

Erros de URL muito específicos

Existem alguns erros de URL que se aplicam apenas a determinados sites. É por isso que eu gostaria de listá-los separadamente:

  • Erros de URL específicos para celular. Isso se refere a erros de rastreamento específicos da página que ocorrem em um smartphone moderno. Se você tiver um site responsivo, é improvável que isso apareça. Talvez apenas por aquele pedaço de conteúdo em Flash que você já queria substituir. Se você mantiver um subdomínio móvel separado, como m.example.com, poderá encontrar mais erros. Algo parecido com redirecionamentos defeituosos do site para desktop para o site móvel. Você pode até ter bloqueado parte desse site móvel com uma linha em seu robots.txt.
  • Erros de malware. Se você encontrar erros de malware em suas ferramentas para webmaster, isso significa que o Bing ou o Google encontrou software malicioso nesse URL. Isso pode significar que foi encontrado um software que é usado, por exemplo, “para coletar informações protegidas ou para interromper sua operação em geral” (Wikipedia). Você precisa investigar essa página e remover o malware.
  • Erros do Google News. Existem alguns erros específicos do Google Notícias. Há uma grande lista desses possíveis erros na documentação do Google, então, se seu site está no Google Notícias, você pode obter esses erros de rastreamento. Eles variam desde a falta de um título a erros que informam que sua página não parece conter um artigo de notícias. Certifique-se de verificar por si mesmo se isso se aplica ao seu site.

Corrija seus erros de rastreamento

O ponto principal neste artigo é definitivamente: se você encontrar erros de rastreamento, corrija-os. Deve fazer parte da programação de manutenção do seu site verificar se há erros de rastreamento de vez em quando.

Fonte: Tradução livre para o português do site https://yoast.com/crawl-errors/