Gerador de Robots.txt
Esta ferramenta processa os dados localmente no seu navegador. Nenhuma informação é enviada a servidores.
O que é o robots.txt?
O robots.txt é um arquivo de texto simples colocado na raiz de um site que segue o Robots Exclusion Protocol. Ele informa aos robôs de busca (crawlers) quais partes do site podem ou não ser rastreadas. Mecanismos como Google, Bing, Yandex e DuckDuckGo leem esse arquivo antes de iniciar o rastreamento.
Estrutura do arquivo
O robots.txt é composto por blocos de regras. Cada bloco começa com User-agent: seguido do nome do crawler, e depois as diretivas Allow: e Disallow: com os caminhos afetados. O arquivo pode conter múltiplos blocos para crawlers diferentes.
Diretivas principais
- User-agent: — define para qual crawler as regras se aplicam (
*para todos) - Disallow: — bloqueia o rastreamento do caminho especificado
- Allow: — permite o rastreamento (útil para exceções dentro de um bloco Disallow)
- Crawl-delay: — solicita um intervalo entre requisições (reconhecido por Bing e Yandex)
- Sitemap: — indica a localização do mapa do site XML
Boas práticas
Sempre teste seu robots.txt antes de publicá-lo. Evite bloquear CSS e JavaScript necessários para renderização, pois isso pode prejudicar a indexação. Use o Google Search Console para validar seu arquivo e verificar como o Googlebot interpreta suas regras.
Perguntas Frequentes
O robots.txt é um arquivo de texto colocado na raiz de um site que instrui robôs de busca (crawlers) sobre quais páginas ou diretórios podem ou não ser rastreados. Ele segue o Robots Exclusion Protocol e é lido por mecanismos como Google, Bing e outros.
O arquivo deve ser colocado na raiz do seu domínio, acessível em https://seusite.com/robots.txt. Ele precisa estar exatamente nesse caminho para que os crawlers o encontrem automaticamente.
Não necessariamente. O robots.txt impede o rastreamento (crawling), mas uma página pode ainda ser indexada se houver links apontando para ela. Para impedir a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag.
O asterisco (*) é um curinga que representa todos os robôs de busca. Regras definidas sob User-agent: * se aplicam a qualquer crawler que não tenha um bloco específico no arquivo.
Disallow impede que o crawler acesse o caminho especificado. Allow permite explicitamente o acesso, sendo útil para criar exceções dentro de um diretório bloqueado. Por exemplo, Disallow: /admin/ com Allow: /admin/public/ bloqueia tudo em /admin/ exceto /admin/public/.
Crawl-delay é uma diretiva que solicita ao crawler que aguarde um número de segundos entre requisições consecutivas. Isso ajuda a reduzir a carga no servidor. O Google não respeita essa diretiva (use o Google Search Console para controlar a taxa), mas Bing e Yandex a reconhecem.
Sim. Adicionar a diretiva Sitemap: https://seusite.com/sitemap.xml no robots.txt é uma forma padrão de informar aos mecanismos de busca onde encontrar o seu mapa do site. Você pode incluir múltiplas linhas Sitemap se tiver mais de um.