Copiado com sucesso!

Gerador de Robots.txt

Crie arquivos robots.txt válidos para controlar o rastreamento do seu site por mecanismos de busca. 🤖
robots.txt gerado

Esta ferramenta processa os dados localmente no seu navegador. Nenhuma informação é enviada a servidores.

O que é o robots.txt?

O robots.txt é um arquivo de texto simples colocado na raiz de um site que segue o Robots Exclusion Protocol. Ele informa aos robôs de busca (crawlers) quais partes do site podem ou não ser rastreadas. Mecanismos como Google, Bing, Yandex e DuckDuckGo leem esse arquivo antes de iniciar o rastreamento.

Estrutura do arquivo

O robots.txt é composto por blocos de regras. Cada bloco começa com User-agent: seguido do nome do crawler, e depois as diretivas Allow: e Disallow: com os caminhos afetados. O arquivo pode conter múltiplos blocos para crawlers diferentes.

Diretivas principais

  • User-agent: — define para qual crawler as regras se aplicam (* para todos)
  • Disallow: — bloqueia o rastreamento do caminho especificado
  • Allow: — permite o rastreamento (útil para exceções dentro de um bloco Disallow)
  • Crawl-delay: — solicita um intervalo entre requisições (reconhecido por Bing e Yandex)
  • Sitemap: — indica a localização do mapa do site XML

Boas práticas

Sempre teste seu robots.txt antes de publicá-lo. Evite bloquear CSS e JavaScript necessários para renderização, pois isso pode prejudicar a indexação. Use o Google Search Console para validar seu arquivo e verificar como o Googlebot interpreta suas regras.

Múltiplos User-Agents Configure regras diferentes para cada crawler — Google, Bing, GPTBot e outros — em grupos separados.
Templates Prontos Use presets para cenários comuns: permitir tudo, bloquear tudo, WordPress, e-commerce e mais.
Validação Inteligente Receba avisos sobre erros comuns como caminhos sem barra, regras conflitantes e diretivas esquecidas.
Copiar e Baixar Copie o conteúdo para a área de transferência ou baixe o arquivo robots.txt pronto para publicar.

Perguntas Frequentes

O robots.txt é um arquivo de texto colocado na raiz de um site que instrui robôs de busca (crawlers) sobre quais páginas ou diretórios podem ou não ser rastreados. Ele segue o Robots Exclusion Protocol e é lido por mecanismos como Google, Bing e outros.

O arquivo deve ser colocado na raiz do seu domínio, acessível em https://seusite.com/robots.txt. Ele precisa estar exatamente nesse caminho para que os crawlers o encontrem automaticamente.

Não necessariamente. O robots.txt impede o rastreamento (crawling), mas uma página pode ainda ser indexada se houver links apontando para ela. Para impedir a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag.

O asterisco (*) é um curinga que representa todos os robôs de busca. Regras definidas sob User-agent: * se aplicam a qualquer crawler que não tenha um bloco específico no arquivo.

Disallow impede que o crawler acesse o caminho especificado. Allow permite explicitamente o acesso, sendo útil para criar exceções dentro de um diretório bloqueado. Por exemplo, Disallow: /admin/ com Allow: /admin/public/ bloqueia tudo em /admin/ exceto /admin/public/.

Crawl-delay é uma diretiva que solicita ao crawler que aguarde um número de segundos entre requisições consecutivas. Isso ajuda a reduzir a carga no servidor. O Google não respeita essa diretiva (use o Google Search Console para controlar a taxa), mas Bing e Yandex a reconhecem.

Sim. Adicionar a diretiva Sitemap: https://seusite.com/sitemap.xml no robots.txt é uma forma padrão de informar aos mecanismos de busca onde encontrar o seu mapa do site. Você pode incluir múltiplas linhas Sitemap se tiver mais de um.

Infraestrutura DokeHost

Hospedar com Quem Entende de Tecnologia

Nossa infraestrutura enterprise sustenta desde ferramentas gratuitas até servidores críticos de empresas. Conheça os serviços que podem impulsionar o seu projeto.