Tutorial: Como crear fichero robots.txt
El fichero robots.txt es el encargado de establecer las pautas de comportamiento de los robots o también llamados crawler cuando acceden a una página web. El objetivo de los robots, en general, es indexar la página web y darla a conocer en los diferentes motores de búsqueda como por ejemplo Google, Bing, etc.
Funcionamiento del fichero robots.txt |
Hay que tener en cuenta dos aspectos a la hora de trabajar con el fichero robots.txt:
- Los robots pueden ignorar el contenido de nuestro fichero robots.txt, especialmente los robots malware que escanean las web en busca de vulnerabilidades de seguridad y direcciones de correo electrónico que venderán a los spammers.
- Cualquiera que tenga acceso al fichero robots.txt tendrá acceso a la estructura de tu página web puesto que la información que contiene el fichero es pública.
A continuación se muestran alguna de las ventajas de crear el fichero robots.txt:
- Impedir que ciertos robots tengan acceso a nuestra página web. Esto funciona en la teoría pero no en la práctica.
- Restringir el acceso a determinados directorios de nuestra web. Lo ideal es mover todos los ficheros a los que queremos restringir el acceso a este directorio, a través de la configuración del servidor web hacer que dicho directorio no se pueda listar e indicar en el fichero robots.txt que no se permiten robots en dicho directorio.
- Indicar el sitio del mapa o sitemap.
¿Cómo crear el fichero robots.txt?
El fichero robots.txt debe estar situado en el directorio raiz de nuestro sitio web.
Ejemplo: En el contador de caracteres situado en la url http://www.characterscounter.com el fichero robots debe estar colocado en la siguiente url: http://www.characterscounter.com/robots.txt.
¿Qué se pone en el fichero robots.txt?
El fichero robots.txt más sencillo utiliza dos reglas:
User-agent: El robot al que se le aplica la siguiente regla
Disallow: La URL que queremos bloquear
La directiva Disallow indica las páginas que quieres bloquear, puedes indicar una URL o un determinado patrón. La entrada siempre debe comenzar con la barra inclinada /
- Para bloquear todo el sitio: Utilizamos la barra inclinada.
- Para bloquear un directorio y todo su contenido: Utilizamos la barra inclinada después del nombre del directorio.
- Para bloquear una página: Utilizamos el nombre de la página.
- Para bloquear ficheros de una determinada extensión: Como por ejemplo .jpg
- Para bloquear directorios que empiecen por un determinado texto: Como por ejemplo "carpeta"
- Para bloquear url que contengan el símbolo ?
Disallow: /
Disallow: /nombre-directorio/
Disallow: /nombre-pagina.html
Disallow: /*.jpg$
Disallow: /carpeta*/
Disallow: /*?