SERVIDORES APACHE: BLOQUEANDO ROBOTS MEDIANTE ARCHIVOS .HTACCESS

01.12.2017 10:52
El estándar de exclusión de robots es un método para evitar que ciertos bots que exploran los sitios web agreguen en los resultados de búsqueda información que el administrador de un sitio no quiere hacer pública. Un archivo robots.txt en un sitio web funcionará como una petición que solicita que los robots o determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. 
 
El problema radica en que el protocolo es consultivo. Se confía en que los programas robóticos tendrán en cuenta los límites especificados en robots.txt de modo que se marca una o más áreas de un sitio fuera de los límites de búsqueda, pero eso no necesariamente será tenido en cuenta por los programas de exploración. Más aún, el archivo robots.txt puede poner en evidencia precisamente directorios que no queremos mostrar, lo cual eventualmente puede ser aprovechado por piratas informáticos.
 
Si queremos asegurarnos de que determinado robot no explorará nuestro sitio web podemos echar mano a diferentes recursos, uno de ellos es el uso de archivos .htaccess.
 
"Generalmente, solo debería usar ficheros .htaccess cuando no tiene acceso al fichero principal de configuración del servidor. Hay, por ejemplo, una creencia errónea de que la autenticación de usuario debería hacerse siempre dentro de ficheros .htaccess, y, más recientemente, otra creencia errónea de que las directivas de mod_rewrite deben ir en ficheros .htaccess. Esto sencillamente no es el caso. Puede poner las configuraciones de autenticación de usuario en la configuración principal del servidor, y esto es de hecho, el método preferido de configurar Apache. Del mismo modo, las directivas mod_rewrite funcionan mejor, en muchos sentidos, en el fichero de configuración principal del servidor."
 
Sin embargo el uso de estos archivos es bastante sencillo y puede ser el primer recurso que aprendemos a utilizar. Más adelante convendrá reemplazarlo por otra técnica. Para evitar el ingreso de un robot no deseado podemos crear un archivo .htaccess con un código de este tipo en el directorio en que corresponda:
 
#Deshacerse de un robot no deseado
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Robot_maligno
RewriteRule ^(.*)$ https://fuerade.aqui/
 
También podemos dar la indicación de modo opuesto, permitiendo el ingreso de un robot (quedará excluido el resto):
 
#Permitir el ingreso de determinado robot
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} !Robot_benigno [NC]
RewriteRule ^ - [F,L]