Observando alguns log’s em um servidor de uma determinada empresa em um processo de auditoria interna que tive a oportunidade de fazer, verifiquei que algumas técnicas comuns são executadas por scripts que ficam vasculhando a internet em busca de informações.
No log gerado dos acessos ao serviço de Web, nesse caso um IIS (Internet Information Service), verifiquei uma excessiva requisição “GET” no qual o final do endereço pesquisado tinha “/robots.txt”. Notei que não só essa empresa mas que em diversos sites é comum ter esse arquivo publicado, inclusive sites com alto nível de acessos, como o Terra e o Google.
Experimente digitar http://www.terra.com.br/robots.txt e http://www.google.com.br/robots.txt e verá a lista de serviços que estão ativos e publicados na internet (mas que estão bloqueados ou liberados para robôs de busca).
Com o resultado dessa busca, temos a informação valiosa de quais serviços ou diretórios estão publicados e em funcionamento, aumentando consideravelmente os riscos para que atacantes encontrem alguma pasta com falha nas permissões do diretório, e assim, alterar não só o site da organização mas prejudicar a imagem de uma empresa que levou tanto tempo para se firmar no mercado e demonstrar confiança nos seus negócios.
Não pense que o ato de vasculhar sites em busca de sites mal configurados é feito por pessoas, isso demandaria muito tempo em referência aos milhares de sites que existem na internet. Basta criar um script para executar essa pesquisa e pronto, tudo fica mais fácil e rápido. É assim que as coisas funcionam na área da tecnologia.
Portanto, cuidado com as configurações de seu site. A qualquer momento, você poderá ser “visitado” por um desses scripts que ficam sendo executados na internet 24h por dia.
5 Comentários
Muito bom vc ter exposto aqui o robots.txt, conheço ele há algum tempo e utilizo principalmente para fazer mirrors de sites que eu gosto e tenho preguiça de ficar fazendo downloads.
Agora… qto tempo será que vai levar para alguém reclamar dos links “quebrados” ? 🙂
Eduardo,
A questão dos links quebrados realmente é difícil responder quanto ao tempo. Mas eu aconselho realmente que os administradores de sites não utilizem o robots.txt
Abraços,
Sabe o que é mais engraçado? Olhem só: http://www.profissionaisdeti.com.br/robots.txt
Thiago,
Realmente não entendemos o que achou engraçado… ainda mais por não abrir nada no site que vc linkou em seu comentário.
Se vc estiver se referindo ao Robots.txt do PTI (http://www.profissionaisti.com.br/robots.txt) vai ver que não temos uma lista de diretórios como os do Terra e Google, ou seja, não expomos os diretórios que existem abaixo de nosso usuário no servidor.
Obrigado pela participação. Abraço!
Muito bom artigo