Para que sirve y como se crea el archivo robots.txt
Los buscadores habitualmente usan robots para indexar todas
las páginas que existen en la red. Para facilitar la indexación de tu web puedes
editar un fichero de texto llamado robots.txt en el que puedes indicar que
partes de tu sitio son indexables y que robots pueden tener acceso.
Para que sirve y como se crea el archivo robots.txt
Los buscadores lanzan a su robot a la búsqueda de páginas que irán acopiando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban únicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site (es ahí donde debes colocarlo) y es un simple fichero de texto.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con el propósito de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar pautas sólo para algunos robots en específicos.
El robot primero busca en robots.txt o en nuestro caso en http://www.trucospc.info/robots.txt cuando entra a indexar tu website, y es ahí donde deberás incluir tu fichero robots.txt. En caso de que no dispongas de dicho fichero, el robot considerara que no hay ninguna excepción y podrá rastrear cualquier página del web site sin excepción.
Ejemplos de robots.txt:
- User-agent: *
- Disallow :
- El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no limita el acceso a ninguna página ni a ningún robot. Implica acceso total.
- User-agent: *
- Disallow: /cgi-bin/
- Disallow: /tmp/
- Disallow: /privado/
- Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / privado.
- Atención porque necesitarás una sentencia para cada directorio.
- User-agent: *
- Disallow: /
- Todos los robots tienen prohibido el acceso a cualquier directorio del web site.
- User-agent: Googlebot
- Disallow : /
- Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.
- User-agent: Googlebot
- Disallow : /
- User-agent: *
- Disallow:/privado/fotos.htm
- Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página “fotos.htm” del directorio “privado” que está restringido. Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.
- También puedes restringir el acceso a una página determinada, con las etiquetas “META”
- <META NAME="robots" CONTENT = "noindex">
- No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr una buena promoción para tu web.



