En esta gran red de información que es Internet, a priori, se pueden distinguir dos tipos de información, a las cuales se hace referencia mediante los términos: Internet visible e Internet invisible. El criterio que determina si una información se encuentra dentro de una tipología u otra, es el modo de localizar dicha información.
Siguiendo este criterio, nos encontramos con que el primer tipo de información, la visible, está constituida por una información localizable mediante buscadores. El segundo tipo, está integrado por un tipo de información no accesible a través de los tradicionales buscadores (Google, Yaaho, Lycos ...).
Para identificar a este último tipo de información, surge el concepto de Internet Invisible, con objeto de hacer referencia a una gran cantidad de recursos de información, cuyo contenido no está disponible usando los tradicionales motores de búsqueda.
La existencia de Internet invisible, viene determinada por la forma en que los motores de búsqueda recaban información. Cuando se utilizan los buscadores tradicionales (Google, Altavista, etc.), no se busca en toda la red, sino en la base de datos de dicho buscador, la cual ha sido generada por la acción de “spiders”.
En principio, todos los motores de búsqueda funcionan de la misma manera:
El spider, es el programa que recorre la Web moviéndose de un documento a otro descendiendo progresivamente a través de los enlaces. El programa de indización, se ocupa de indexar la información de las páginas web ubicadas en los servidores conectados a la red, y de elaborar gigantescas bases de datos a las que acceden los usuarios a través de la interfaz del buscador.
Antes de seguir con las explicaciones, haremos un paréntesis para comentar lo que entendemos por pagina estática o dinámica. Por página web estática se entiende todo fichero de texto que contiene etiquetas HTML y que se accede a el desde otro enlace. Por el contrario, la página web dinámica, no es un fichero permanente, son páginas temporales en formato HTML, que son construidas en el momento, con una estructura y contenidos resultantes de la consulta a una base de datos. Una vez cerrada la ventana, la página desaparece.
Según algunos estudios, se estima que el volumen de información en Internet es alrededor de 4000 millones de páginas estáticas y más de 500 millones dinámicas. Esto hace de Internet una gran red información a la cual podemos acceder, pero en la cual es muy “difícil” encontrar información útil que nos interese.
Por la forma de trabajar de los buscadores, se determina que sólo sean capaces de acceder a una parte de la información disponible en Internet. Está parte estaría constituida sólo por las páginas web estáticas. Pero son incapaces de descubrir y analizar la información generada por páginas dinámicas, dado que están constituidas por bases de datos que solamente muestran su contenido cuando son consultadas.
A la hora de determinar los tipos de información que conforman Internet invisible se pueden detectar los siguientes:
La razón que determina que este tipo de información se enmarque dentro del Internet visible, en vez de en el Internet visible, deriva del hecho de que se trata de contenidos no indizables por los buscadores.
En el caso de las bases de datos, la información proporcionada por las misma, se genera previa consulta de las mismas, generando páginas dinámicas. Ello hace que los buscadores, puedan proporcionar solamente acceso a la página de inicio de dichas bases de datos, pero no podemos acceder al resto de los sitios.
Los motores de búsqueda, en un principio, fueron creados para leer, descargar e indizar únicamente páginas HTML. Cualquier otro formato era invisible para ellos. En la actualidad esta forma de proceder está cambiando, ya que existen buscadores que indizan documentos en formatos no HTML, como es el caso de Google, que puede indizar el contenido de fichero doc, pdf, xml, etc..
Existen determinadas páginas web que , expresamente, se excluyen de la actividad indizadora de los motores de búsqueda. Para conseguir esto, los servidores excluyen a los motores de búsqueda de todos o de parte de sus carpetas y directorios mediante el uso de un protocolo de exclusión.
Por último, están todas aquellas páginas que precisan de un usuario y clave para acceder a ellas, cuyo contenido queda vetado a los motores de búsqueda.
La Invisibilidad, de gran parte de la información contenida en Internet, para los motores de búsqueda, hace que la recuperación de dicha información deba de llevarse a cabo por otros medios. Por ejemplo ....
| Servicio de referencia de la biblioteca de la UNED |
|
| Obras de referencia electrónicas de la Biblioteca de la Universidad de Zaragoza |
|
| Biblioteca Universidad de San Andrés (Argentina) |
|
| The Big Hub |
|
| Internet Invisible |
|
| The Invisible Web |
|
| Complete Planet |
|
| Lycos Invisible Web Catalogs |
|
| Invisible Web.net |
|
| Infomine Multiple Database Search |
|
| Librarian´s Index to the Internet |
|
| Library Spot |
|
| Dmoz |
|
Agustín Montes - montes@baratz.es
Soraya García - sgarcia@baratz.es