20 nov. 2012

Como crear fichero robots.txt

Tutorial: Como crear fichero robots.txt

El fichero robots.txt es el encargado de establecer las pautas de comportamiento de los robots o también llamados crawler cuando acceden a una página web. El objetivo de los robots, en general, es indexar la página web y darla a conocer en los diferentes motores de búsqueda como por ejemplo Google, Bing, etc.

Como crear fichero robots.txt
Funcionamiento del fichero robots.txt
Hay que tener en cuenta dos aspectos a la hora de trabajar con el fichero robots.txt:
  • Los robots pueden ignorar el contenido de nuestro fichero robots.txt, especialmente los robots malware que escanean las web en busca de vulnerabilidades de seguridad y direcciones de correo electrónico que venderán a los spammers.
  • Cualquiera que tenga acceso al fichero robots.txt tendrá acceso a la estructura de tu página web puesto que la información que contiene el fichero es pública.
A continuación se muestran alguna de las ventajas de crear el fichero robots.txt:
  • Impedir que ciertos robots tengan acceso a nuestra página web. Esto funciona en la teoría pero no en la práctica.
  • Restringir el acceso a determinados directorios de nuestra web. Lo ideal es mover todos los ficheros a los que queremos restringir el acceso a este directorio, a través de la configuración del servidor web hacer que dicho directorio no se pueda listar e indicar en el fichero robots.txt que no se permiten robots en dicho directorio.
  • Indicar el sitio del mapa o sitemap.

¿Cómo crear el fichero robots.txt? 

El fichero robots.txt debe estar situado en el directorio raiz de nuestro sitio web. 

Ejemplo: En el contador de caracteres situado en la url http://www.characterscounter.com el fichero robots debe estar colocado en la siguiente url: http://www.characterscounter.com/robots.txt.

¿Qué se pone en el fichero robots.txt?

El fichero robots.txt más sencillo utiliza dos reglas:
User-agent: El robot al que se le aplica la siguiente regla Disallow: La URL que queremos bloquear

La directiva Disallow indica las páginas que quieres bloquear, puedes indicar una URL o un determinado patrón. La entrada siempre debe comenzar con la barra inclinada /
  • Para bloquear todo el sitio: Utilizamos la barra inclinada.
  • Disallow: /
  • Para bloquear un directorio y todo su contenido: Utilizamos la barra inclinada después del nombre del directorio.
  • Disallow: /nombre-directorio/
  • Para bloquear una página: Utilizamos el nombre de la página.
  • Disallow: /nombre-pagina.html
  • Para bloquear ficheros de una determinada extensión: Como por ejemplo .jpg
  • Disallow: /*.jpg$
  • Para bloquear directorios que empiecen por un determinado texto: Como por ejemplo "carpeta"
  • Disallow: /carpeta*/
  • Para bloquear url que contengan el símbolo ?
  • Disallow: /*?

Artículos que te pueden interesar