Se você trabalha em uma equipe de marketing ou cria sites, provavelmente deseja que as pessoas encontrem seu site. Você também precisa de bots de mecanismo de pesquisa para rastrear e indexar as inúmeras páginas da Web do seu site para que possam ser incluídas nos resultados da pesquisa.
Robots.txt e um mapa do site XML são dois arquivos separados no lado técnico do seu site que ajudam esses bots a encontrar as informações de que precisam.
Um arquivo de texto simples chamado Robots.txt é colocado no diretório raiz do seu site. Os robôs do mecanismo de pesquisa podem ler as instruções neste arquivo para saber quais páginas do seu site podem ou não rastrear.
Como adicionar Sitemap ao arquivo Robots.txt e por quê
Também é possível impedir que robôs específicos visitem o site usando o arquivo robots.txt. Um site em desenvolvimento, por exemplo, se beneficiaria com o bloqueio do acesso aos robôs até que esteja pronto para ser lançado.
O que é um arquivo Robots.txt?
Ao visualizar um site, os rastreadores geralmente começam lendo o arquivo robots.txt. Ainda é uma prática recomendada incluir um arquivo robots.txt em seu site, mesmo que você deseje permitir que todos os robôs acessem todas as páginas.
O endereço do XML Sitemap, outro arquivo crucial, também deve ser listado nos arquivos Robots.txt. Isso fornece informações sobre cada página do seu site que você deseja que os mecanismos de pesquisa encontrem.
Este artigo demonstrará como e onde incluir uma referência ao sitemap XML no arquivo robots.txt. Mas primeiro, vamos ver um mapa do site e por que ele é crucial.
Por que um arquivo robots.txt é necessário?
Rastreando páginas, clicando em links para mover do site A para o site B para o site C e assim por diante, os mecanismos de pesquisa indexam a web. O arquivo robots.txt em um domínio, que especifica quais URLs naquele site o mecanismo de pesquisa tem permissão para rastrear, é aberto por um mecanismo de pesquisa antes que rastreie qualquer página desse domínio que não tenha encontrado.
Os mecanismos de pesquisa normalmente armazenam em cache o conteúdo do robots.txt, mas geralmente o atualizam para refletir as alterações o mais rápido possível.
Onde devo colocar meu arquivo robots.txt?
Na raiz do seu domínio, sempre deve haver um arquivo robots.txt. Portanto, deve ser acessível via https://www.example.com/robots.txt se o seu domínio for www.example.com.
É crucial que seu arquivo robots.txt realmente tenha o nome robots.txt. Certifique-se de inserir o nome corretamente porque o caso afeta o funcionamento.
O que o arquivo robots.txt faz?
Os mecanismos de pesquisa indexam a Web rastreando páginas, seguindo links do site A para o site B, para o site C e assim por diante. Antes de um mecanismo de pesquisa rastrear qualquer página em um domínio que não encontrou, ele abrirá o arquivo robots.txt desse domínio, que informa ao mecanismo de pesquisa quais URLs ele pode indexar.
Os mecanismos de pesquisa normalmente armazenam em cache o conteúdo do robots.txt, mas geralmente o atualizam várias vezes ao dia para que as alterações sejam refletidas rapidamente.
Onde devo colocar meu arquivo robots.txt?
O arquivo robots.txt sempre deve estar na raiz do seu domínio. Portanto, se seu domínio for www.example.com, ele deverá ser encontrado em https://www.example.com/robots.txt.
Também é muito importante que seu arquivo robots.txt se chame robots.txt. O nome diferencia maiúsculas de minúsculas, portanto, faça isso direito ou não funcionará.
Mapas de site XML
Um Mapa do site XML é um arquivo XML que contém uma lista de todas as páginas em um site que você deseja que os robôs descubram e acessem.
Por exemplo, você pode querer que os mecanismos de pesquisa acessem suas postagens de blog para que apareçam nos resultados da pesquisa. No entanto, talvez você não queira que eles tenham acesso às suas páginas de tags, pois elas podem não ser boas páginas de destino e, portanto, não devem ser incluídas nos resultados da pesquisa.
Os sitemaps XML também podem conter informações adicionais sobre cada URL na forma de metadados. E, assim como o robots.txt, um mapa do site XML é obrigatório. É importante garantir que os bots dos mecanismos de pesquisa possam descobrir todas as suas páginas e ajudá-los a entender a importância de suas páginas.
Uma lista de todas as páginas em um site que você deseja que os robôs encontrem e acessem está contida em um mapa do site XML, que é um arquivo XML.
Por exemplo, você pode querer que todas as entradas do seu blog sejam acessíveis pelos mecanismos de pesquisa para que possam aparecer nos resultados da pesquisa. Suas páginas de tags, no entanto, podem não ser os sites de destino ideais e não devem ser exibidas nos resultados da pesquisa, portanto, talvez você não queira que as pessoas tenham acesso a elas.
Na forma de metadados, os sitemaps XML podem incluir informações adicionais sobre cada URL. Um must-have é um sitemap XML, exatamente como robots.txt. Você não apenas deve garantir que os bots dos mecanismos de pesquisa possam encontrar todas as suas páginas, mas também deve transmitir a eles o significado dessas páginas.
Como os sitemaps e o robots.txt se relacionam?
Yahoo, Microsoft e Google se uniram em 2006 para oferecer suporte ao mecanismo estabelecido para fornecer as páginas de um site por meio de sitemaps XML. Seus sitemaps XML tiveram que ser enviados via Google Search Console, Ferramentas para webmasters do Binge Yahoo, como alguns outros motores de busca, incluindo DuckDuckGo, dependem Resultados do Yahoo e Bing.
Após cerca de seis meses, em abril de 2007, eles se uniram para dar suporte ao Sitemaps Autodiscovery, uma técnica para procurar mapas de site XML via robots.txt. Isso indicou que não havia problema em enviar o mapa do site para determinados mecanismos de pesquisa. Eles primeiro localizariam o endereço do mapa do site no arquivo robots.txt em seu site.
A maioria dos mecanismos de pesquisa ainda permite o envio de sitemaps, mas lembre-se de que o Google e o Bing não são as únicas opções.
Como os administradores da Web podem possibilitar que os robôs dos mecanismos de pesquisa encontrem todas as páginas em seu site, o arquivo robots.txt tornou-se ainda mais importante para os administradores da Web.
Como posso fazer uma referência robots.txt ao meu sitemap?
Referenciar seu(s) sitemap(s) XML em seu arquivo robots.txt é considerado uma boa prática. Documentação do mapa do site do Google também o sugere.
As regras básicas são as seguintes:
- Consulte o URL absoluto do mapa do site XML.
- Você pode usar diferentes referências de sitemap XML.
- Mapas de site XML regulares e índices de mapa de site XML também estão disponíveis.
- Se seu domínio for example.com e seu sitemap XML estiver em example2.com, você poderá se referir a esse domínio ao fazer referência a sitemaps XML em outro domínio.
Também sugerimos enviar seus sitemaps XML usando o Bing Webmaster Tools e o Google Search Console.
Referência de mapa do site XML
Veja o exemplo abaixo para referência precisa para sitemaps XML:
User-agent: *
Disallow:
Sitemap: https://www.website.com/page.xml
Sitemap: https://www.website.com/post.xml
Sitemap: https://www.website.com/categories.xml
Sitemap: https://www.website.com/users.xml
Referência de sitemap XML incorreta
User-agent: *
Disallow:
Sitemap: /post.xml
Referência de sitemap XML precisa, mas não permitida
User-agent: *
Disallow: /
Sitemap: https://www.website.com/pages.xml
Sitemap: https://www.website.com/posts.xml
Como atualizar seu arquivo Robots.txt para incluir seu sitemap XML
Para adicionar a localização do seu sitemap XML ao seu arquivo robots.txt, siga estas três etapas simples:
Encontre o URL do mapa do site
Se um desenvolvedor terceirizado criou seu site, verifique primeiro se ele forneceu um mapa do site XML. A URL do seu sitemap será, por padrão, /sitemap.xml. O mapa do site XML para https://website.com, por exemplo, está localizado em https://website.com/sitemap.xml
Portanto, substitua “website.com” pelo seu domínio ao inserir esta URL em seu navegador.
Deve haver um mapa do site para mapas do site, pois alguns sites têm vários mapas do site XML (conhecidos como índice de mapa do site). Se você usar o plug-in Yoast SEO com o WordPress, um índice de mapa do site será adicionado automaticamente a /sitemap index.xml.
Ao utilizar os operadores de pesquisa demonstrados nos exemplos abaixo, você também poderá encontrar seu sitemap usando a pesquisa do Google:
site:website.com filetype:xml
or
filetype:xml site:website.com inurl:sitemap
No entanto, isso só será eficaz se o Google tiver rastreado e indexado seu site anteriormente.
Você pode procurar seu arquivo de mapa do site XML se puder acessar o Gerenciador de arquivos do seu site.
Você pode fazer um sitemap se não houver um em seu site. Vários programas estão disponíveis para ajudar nisso, como o Gerador de mapa do site XML, gratuito para até 500 páginas; no entanto, todas as páginas que você não deseja incluir devem ser removidas manualmente. Como alternativa, siga o procedimento detalhado em Sitemaps.org.
Encontre o arquivo Robots.txt
Ao adicionar /robots.txt após seu domínio, por exemplo, https://website.com/robots.txt, você pode ver se seu site possui um arquivo robots.txt.
Você deve criar um arquivo robots.txt e adicioná-lo ao diretório raiz do seu servidor web, caso ainda não tenha um. Você precisará acessar seu servidor da web para concluir isso. Muitas vezes, ele é colocado no mesmo local que o arquivo “index.html” principal do seu site.
Dependendo do software de servidor da web que você usa, esses arquivos podem estar localizados em lugares diferentes. Se você não estiver familiarizado com esses arquivos, considere procurar a ajuda de um desenvolvedor da web.
Lembre-se de nomear o arquivo que contém o texto robots.txt em letras minúsculas. Evite nomear seu arquivo Robots.TXT ou Robots.Txt.
Adicione a localização do Sitemap ao arquivo Robots.txt
Agora acesse o arquivo robots.txt localizado na raiz do site. Mais uma vez, você deve ter acesso ao seu servidor web para fazer isso. Portanto, se você não tiver certeza de onde encontrar e alterar o arquivo robots.txt para seu site, ligue para um desenvolvedor da Web ou seu provedor de hospedagem para obter ajuda.
A diretiva robots.txt que fornece a localização do mapa do site pode ser inserida em qualquer lugar. Não importa onde está porque é independente da linha user-agent.
Você pode visitar seu site favorito e adicionar /robots.txt ao final do domínio para verificar como isso aparece em um site ativo. Por exemplo, https://website.com/robots.txt.
O que acontece se você tiver mais de um sitemap?
Os sitemaps XML não devem incluir mais de 50.000 URLs e não devem ter mais de 50 MB de tamanho quando não compactados, de acordo com as recomendações de sitemap do Google e do Bing. Assim, você pode criar muitos arquivos de mapa do site se o seu site tiver muitos URLs e for maior.
Um arquivo de índice de mapa de site deve fornecer uma lista de todos os locais de arquivo de mapa de site. O arquivo de índice do mapa do site, um mapa do site de mapas do site, tem um formato XML semelhante ao arquivo do mapa do site.
Você pode mencionar a URL do seu arquivo de índice de sitemap em seu arquivo robots.txt quando tiver vários sitemaps, como no exemplo abaixo:
- Mapa do site: http://website.com/sitemap_index.xml.
Como alternativa, você pode fornecer URLs exclusivos para cada arquivo de mapa do site que possui, como nos exemplos abaixo:
- Mapa do site: http://website.com/sitemap_pages.xml
- Mapa do site: http://website.com/sitemap_posts.xml
Encerrando
Presumivelmente, agora você sabe como adicionar um local de mapa do site a um arquivo robots.txt. Há um grande benefício em fazer isso, e é algo sobre o qual você não deve dormir. Use as informações acima para te ajudar!
Via > Seorankserp
Este post foi modificado pela última vez em 16/12/2022 19:05