Como todos sabemos, existe mucha información en Internet. Esta información es múltiple y variada tanto en el contenido, ya que abarca todas las materias del conocimiento, general o científico, y entretenimiento, como en el idioma en el que se expresa.
La posibilidad de localizar lo que necesitamos en la Red se asemeja, a priori, a encontrar una aguja en un pajar. Para contrarrestar esta circunstancia, existen herramientas en la Red que nos facilitan la localización de la información deseada, y que son los llamados "buscadores". En pocas palabras, podría decirse que son grandes bases de datos documentales encargadas de indizar las páginas de la Red para que el usuario pueda localizar lo que necesita.
La clasificación de los buscadores se realiza en función de la manera de recabar los datos. Los que se asemejan a la forma manual de introducir los datos en la base, son los índices o directorios temáticos, y los que lo hacen de manera automática, son los llamados motores de búsqueda.
Los directorios recogen la información a través de formularios que ellos proporcionan con los datos necesarios para que el usuario se dé de alta en el buscador. Los datos mínimos que solicitan son: la url, título, descripción y clasificación o la asociación en una categoría. En algunos, como Yahoo, son los propios profesionales los que visitan las páginas solicitadas para situarlas en la clasificación adecuada. Estas herramientas contienen las materias jerarquizadas desde una clasificación genérica a una más especifica. Dentro de esta categoría se encuentran buscadores como LookSmart, Yahoo, Excite o Lycos.
Los motores de búsqueda, llamados así porque utilizan un software denominado robot, exploran la red automáticamente en busca de páginas nuevas y actualizadas para indizar su contenido. Utilizan las etiquetas del lenguaje html para extraer las palabras clave y utilizar los enlaces para recabar más información. Entre esos buscadores se encuentran Altavista, Google y Hotbot.
En la actualidad, es difícil su distinción porque, en general, la mayoría de los buscadores incluyen un directorio temático. Es el caso de Altavista y Hotbot, que entre sus servicios incluían un directorio temático de otra empresa, el de LookSmart.
Como se ha comentado antes, intentar encontrar la información (relevante) que necesitamos puede ser muy difícil y para ello se ha de hacer una estrategia de búsqueda predefinida.
Lo primero que hay que plantearse es la elección del buscador adecuado. Como en todo, existen buscadores generales y otros más específicos, y dependiendo de los conocimientos que tengamos sobre el tema optaremos por uno u otro. Para encontrar una herramienta adecuada podemos apoyarnos en Buscopio, que es un buscador de buscadores y que contiene referencias de miles de buscadores clasificados en función de la materia de la que traten.
Aunque es una buena forma de empezar, generalmente nos dejamos llevar por lo cotidiano y utilizamos los mismos buscadores independientemente de la consulta que vayamos a realizar. Estos son siempre de contenido multidisciplinar y multilingües, como por ejemplo Google, Altavista, Yahoo o Lycos.
Una vez seleccionado el buscador, es aconsejable irse primero a la ayuda para conocer las posibilidades de búsqueda que nos ofrece. Aunque por lo general no suelen ser muy diferentes de lo que vamos a explicar, pueden tener sus propias características.
Este texto se va a referir a estrategias de búsqueda empleadas por los buscadores en general.
Supongamos que estamos interesados en la Edad Media sin más, y que no buscamos nada específico sobre ella. Podríamos dirigirnos a un motor de búsqueda y poner: “edad media” en la caja de consulta. El resultado será muy variado encontrando miles de páginas que tratan sobre la Edad Media en sus diferentes aspectos, pero habrá otros miles de páginas que ni siquiera traten de este tema y que han sido recuperadas porque en su contenido se encuentran las palabras de edad y media. Por ejemplo, una pagina personal de alguien que relate las peripecias de su vida.
Lo más lógico seria utilizar un directorio temático para ir descendiendo en los niveles de clasificación, llamados categorías, e ir desde Historia hasta Edad Media y dentro de ella en los diferentes aspectos que nos puedan interesar. Los niveles de especificidad dependen de cada buscador. Si aún así los resultados siguen siendo demasiados, estas herramientas ofrecen la posibilidad de consultar en esa categoría por términos, restringiendo la consulta al conjunto de las páginas bajo esa clasificación.
Si conocemos algo más sobre el tema podemos utilizar la consulta simple que nos ofrecen todos los buscadores y que consiste en poner los términos que deben contener las paginas resultantes en la caja de consulta. El operador por defecto de la consulta simple es la unión equivalente a las palabras “y” o “and” de la consulta avanzada. Con él , si se busca por varios términos, el resultado serán aquellas páginas que contengan los términos solicitados. Por ejemplo, si necesitamos saber la discografía de U2, habría que escribir: discografía U2.
También puede haber problemas con la utilización de caracteres idiomáticos como la “ñ”, “ç” o acentos. Al igual que con las mayúsculas, la inclusión en la consulta de estos caracteres puede ser perjudicial ya que podríamos perder documentos relevantes que no lleven estos signos ya sea por la utilización de otra configuración de teclado u errores ortográficos. Para solventar estos posibles problemas se puede utilizar el truncamiento, como por ejemplo: espa*a, ling*stica o proven*a, para localizar documentos que contengan España/Espana, lingüística/lingüística o Provença/Provenza/Provenca.
La consulta en Google, por ejemplo, no distingue mayúsculas o caracteres especiales y encontraría Martín como martin o España como espana. Para que recupere exactamente el término que queremos, utiliza el signo “+” delante del término para distinguir entre términos como +caña o +cana y +peña o +pena.
En este modo de consulta se pueden usar las posibilidades de consulta simple (comillas, truncamientos, etc.). Además permite la utilización de los operadores booleanos para hacer consultas más exhaustivas.
El uso de los paréntesis en las consultas booleanas es importante. Se utiliza para agrupar términos que van unidos por el mismo operador o los que pueden ser afectados por otro operador. Un ejemplo de su utilización puede ser la localización de documentos que traten sobre la edad de piedra y del bronce pero que hablen de la edad del hierro: ((“edad de piedra” or paleolitico or mesolitico or neolitico) and “edad del bronce”) not “edad del hierro”
En la actualidad la mayoría de los buscadores simplifican la utilización de los operadores al usuario con un interfaz de consulta más sencillo. A través de una página a modo de formulario, te permite seleccionar opciones de menús desplegables o rellenar los cuadros precedidos por términos como “todas las palabras” (and), “cualquiera de las palabras” (or), “ninguna palabra” (not), “frases exactas”, etc. Un ejemplo lo podemos ver la Hotbot, Google o Lycos.
También se pueden usar en la consulta simple. Sirven para limitar la consulta a unos campos o lugares concretos de los documentos. Como es sabido, el lenguaje de la paginas web (html) es etiquetado, es decir, utiliza unas etiquetas estandarizadas para determinar o resaltar partes del documento. Estas etiquetas de campo pueden ser utilizadas para restringir las consultas.
El nombre de las etiquetas en la consulta y su posible uso depende del buscador. Comentaremos la etiquetas posibles en Altavista ya que es el que más tiene.
Al igual que con los operadores booleanos, los responsables de algunos de los buscadores han facilitado al usuario la consulta por estas etiquetas y por otros campos como fecha o lenguaje de los documentos, creando unas paginas de consulta en forma de formulario para rellenar los campos necesarios, como es el caso de Hotbot.
Los resultados suelen salir ordenados en función de la relevancia. Para estimar la relevancia, los sistemas pueden utilizar algoritmos complejos como los que determinan el peso de los términos de la consulta dentro de los documentos en función del lugar de la palabra en el texto. Por ejemplo, tendrán más valor los términos encontrados dentro de las etiquetas de cabecera, titulo o resaltadas con una fuente distinta. También pueden usar algoritmos sencillos que calculan la relevancia en función de la frecuencia de aparición de los términos dentro del documento.
En algunos buscadores se puede elegir el orden de aparición de los resultados. Altavista se puede elegir el término por el que se quiere ordenar, en Hotbot se puede determinar el peso de los términos en función del lugar en que se encuentre (Page Depth) o en Lycos se puede ordenar por relevancia o dominios.
Por último, algunos buscadores como Google, dentro de cada resultado ofrecen otras posibilidades como las de traducir la página al idioma del usuario o hacer una nueva búsqueda tomando como ejemplo el documento en cuestión (Páginas similares).
Agustín Montes - amontes@baratz.es