Tag Archive for robots.txt

El robots.txt del BOE

A través del Twitter de @soydelbierzo me entero de que el robots.txt del BOE tiene unas 8133 líneas con reglas para que los buscadores como Google no indicen parte del contenido del sitio. De esa manera, ciertos textos del BOE no se pueden consultar a no ser que sepas la dirección concreta, ya que no aparecen en los resultados de Google. No es un caso aislado, tambien pasa con el Boletin Oficial de Madrid, Castilla y León y Alicante. En este último ya ni se complican y directamente impiden la indización de todo el Boletín al completo.

La pregunta es, ¿Que tiene el BOE que esconder? Pues segun parece un 22,3% de las URLs que aparecen en el robots.txt del BOE habla de indultos y el resto son nombramientos, becas y un largo etc. El caso es que no ocultan dicha información sólo porque no interesa que se divulgue lo que alli está redactado, sino porque legalmente están obligados por la Agencia de Protección de Datos, como se puede leer en este artículo

Lo irónico de todo este asunto, es que si quiero conocer todo lo que el BOE quiere ocultar, no tengo que esforzarme mucho puesto que ya me lo dan todo hecho, porque el método que usan para ocultar información es a su vez una lista pública del contenido prohibido. Esto podría dar lugar a que alguien crease una aplicación que se bajase periódicamente el robots.txt del BOE, visitase los sitios de la lista y pusiese una copia de su contenido en una web dispuesta a tal efecto, y como dicha web si sería indizada por Google al final el contenido estaría accesible desde el buscador, haciendo inutil completamente el sistema de censura del BOE.

La cuestión en este caso es que la medida no es efectiva, pero su alternativa sería el borrado del contenido, cosa que sería muy problemática ya que por un lado está el derecho al olvido pero por otro choca con la transparencia y el derecho de todo español a obtener información de lo que pasa a nivel estatal. ¿Cual de las dos cosas es más importante? Difícil decidirlo…