absysnet.com - Centro de recursos y servicios para bibliotecas y bibliotecarios

Cómo localizar información en la Red

Otros temas

Cómo localizar información en la Red

Introducción Inicio

Como todos sabemos, existe mucha información en Internet. Esta información es múltiple y variada tanto en el contenido, ya que abarca todas las materias del conocimiento, general o científico, y entretenimiento, como en el idioma en el que se expresa.

La posibilidad de localizar lo que necesitamos en la Red se asemeja, a priori, a encontrar una aguja en un pajar. Para contrarrestar esta circunstancia, existen herramientas en la Red que nos facilitan la localización de la información deseada, y que son los llamados "buscadores". En pocas palabras, podría decirse que son grandes bases de datos documentales encargadas de indizar las páginas de la Red para que el usuario pueda localizar lo que necesita.

Tipo de buscadores Inicio

La clasificación de los buscadores se realiza en función de la manera de recabar los datos. Los que se asemejan a la forma manual de introducir los datos en la base, son los índices o directorios temáticos, y los que lo hacen de manera automática, son los llamados motores de búsqueda.

Los directorios recogen la información a través de formularios que ellos proporcionan con los datos necesarios para que el usuario se dé de alta en el buscador. Los datos mínimos que solicitan son: la url, título, descripción y clasificación o la asociación en una categoría. En algunos, como Yahoo, son los propios profesionales los que visitan las páginas solicitadas para situarlas en la clasificación adecuada. Estas herramientas contienen las materias jerarquizadas desde una clasificación genérica a una más especifica. Dentro de esta categoría se encuentran buscadores como LookSmart, Yahoo, Excite o Lycos.

Los motores de búsqueda, llamados así porque utilizan un software denominado robot, exploran la red automáticamente en busca de páginas nuevas y actualizadas para indizar su contenido. Utilizan las etiquetas del lenguaje html para extraer las palabras clave y utilizar los enlaces para recabar más información. Entre esos buscadores se encuentran Altavista, Google y Hotbot.

En la actualidad, es difícil su distinción porque, en general, la mayoría de los buscadores incluyen un directorio temático. Es el caso de Altavista y Hotbot, que entre sus servicios incluían un directorio temático de otra empresa, el de LookSmart.

La búsqueda Inicio

Como se ha comentado antes, intentar encontrar la información (relevante) que necesitamos puede ser muy difícil y para ello se ha de hacer una estrategia de búsqueda predefinida.

Lo primero que hay que plantearse es la elección del buscador adecuado. Como en todo, existen buscadores generales y otros más específicos, y dependiendo de los conocimientos que tengamos sobre el tema optaremos por uno u otro. Para encontrar una herramienta adecuada podemos apoyarnos en Buscopio, que es un buscador de buscadores y que contiene referencias de miles de buscadores clasificados en función de la materia de la que traten.

Aunque es una buena forma de empezar, generalmente nos dejamos llevar por lo cotidiano y utilizamos los mismos buscadores independientemente de la consulta que vayamos a realizar. Estos son siempre de contenido multidisciplinar y multilingües, como por ejemplo Google, Altavista, Yahoo o Lycos.

Una vez seleccionado el buscador, es aconsejable irse primero a la ayuda para conocer las posibilidades de búsqueda que nos ofrece. Aunque por lo general no suelen ser muy diferentes de lo que vamos a explicar, pueden tener sus propias características.

Este texto se va a referir a estrategias de búsqueda empleadas por los buscadores en general.

Directorios temáticos Inicio

Supongamos que estamos interesados en la Edad Media sin más, y que no buscamos nada específico sobre ella. Podríamos dirigirnos a un motor de búsqueda y poner: “edad media” en la caja de consulta. El resultado será muy variado encontrando miles de páginas que tratan sobre la Edad Media en sus diferentes aspectos, pero habrá otros miles de páginas que ni siquiera traten de este tema y que han sido recuperadas porque en su contenido se encuentran las palabras de edad y media. Por ejemplo, una pagina personal de alguien que relate las peripecias de su vida.

Lo más lógico seria utilizar un directorio temático para ir descendiendo en los niveles de clasificación, llamados categorías, e ir desde Historia hasta Edad Media y dentro de ella en los diferentes aspectos que nos puedan interesar. Los niveles de especificidad dependen de cada buscador. Si aún así los resultados siguen siendo demasiados, estas herramientas ofrecen la posibilidad de consultar en esa categoría por términos, restringiendo la consulta al conjunto de las páginas bajo esa clasificación.

Motores de búsqueda Inicio

Consulta simple.

Si conocemos algo más sobre el tema podemos utilizar la consulta simple que nos ofrecen todos los buscadores y que consiste en poner los términos que deben contener las paginas resultantes en la caja de consulta. El operador por defecto de la consulta simple es la unión equivalente a las palabras “y” o “and” de la consulta avanzada. Con él , si se busca por varios términos, el resultado serán aquellas páginas que contengan los términos solicitados. Por ejemplo, si necesitamos saber la discografía de U2, habría que escribir: discografía U2.

  1. Comandos de presencia y ausencia. Esta es la forma más sencilla de consultar, pero no permite tener ningún control sobre los resultados. Para ello, existen los operadores denominados de presencia (+) y ausencia (-). Cuando los utilizamos delante de los términos, estamos indicando unas condiciones que los resultados deben cumplir. Por ejemplo, queremos conocer la filmografía de los Hermanos Marx, la consulta podría ser: marx + filmografía y las páginas resultantes contendrían esas dos palabras. Pero, si no nos interesan las páginas comerciales dedicadas a la venta, sino sólo las que contengan información sobre la filmografía, la consulta podría ser: marx + filmografía - precio.
  2. Frase exacta. Otro comando que se puede utilizar son las comillas (“”) acotando los términos para indicar la unión de palabras, que deben ir juntas y por ese orden. Es lo que se llama la adyacencia estricta o frase exacta. En el ejemplo anterior la consulta puede ser: “hermanos marx” + filmografía - precio
  3. Truncamientos. Una posibilidad muy cómoda en la consulta es la de sustituir una parte de un término por un símbolo que actúa de comodín para encontrar los derivados de las palabras. El carácter más utilizado para el truncamiento suele ser el asterisco “*”. Un ejemplo de ello es la posibilidad de no discriminar singular/plural o entre géneros.. De esto podía ser: dieta* +aliment* para localizar documentos de dieta o dietas alimenticias. Otra posibilidad es como sustitutivo en medio de un término: biblio*ia para encontrar páginas relacionadas con la bibliografía, biblioteconomía, bibliotecología, bibliometría. etc.
  4. Utilización de los caracteres. En algunos buscadores la utilización de la mayúsculas/minúsculas o caracteres especiales puede favorecer la recuperación de la información o perjudicarla. Por ejemplo en Altavista la inclusión de mayúsculas en los nombres propios nos puede se de utilidad para descartar otros documentos que contenga el mismo término en otro contexto. Por ejemplo para buscar Sierra Nevada, la forma correcta podría ser: Sierra Nevada, o mejor aun “Sierra Nevada”.

    También puede haber problemas con la utilización de caracteres idiomáticos como la “ñ”, “ç” o acentos. Al igual que con las mayúsculas, la inclusión en la consulta de estos caracteres puede ser perjudicial ya que podríamos perder documentos relevantes que no lleven estos signos ya sea por la utilización de otra configuración de teclado u errores ortográficos. Para solventar estos posibles problemas se puede utilizar el truncamiento, como por ejemplo: espa*a, ling*stica o proven*a, para localizar documentos que contengan España/Espana, lingüística/lingüística o Provença/Provenza/Provenca.

    La consulta en Google, por ejemplo, no distingue mayúsculas o caracteres especiales y encontraría Martín como martin o España como espana. Para que recupere exactamente el término que queremos, utiliza el signo “+” delante del término para distinguir entre términos como +caña o +cana y +peña o +pena.

Consulta Avanzada

En este modo de consulta se pueden usar las posibilidades de consulta simple (comillas, truncamientos, etc.). Además permite la utilización de los operadores booleanos para hacer consultas más exhaustivas.

  1. Los operadores más comunes son:
    • El de intersección (“and” o “y”) que sirve para encontrar los documentos que lleven todos los términos usados en la consulta. Por ejemplo si queremos localizar los documentos sobre los televisores Philips: televisión and philips.
    • El de unión (“or” u “o”) que sirve para encontrar documentos que lleven al menos alguno de los términos usados en la consulta. Por ejemplo si queremos localizar los documentos sobre vasos de vidrio o barro: vaso and (vidrio or barro).
    • El de exclusión (“not”, ”and not” o “no”) que sirve para encontrar documentos que no lleven el término solicitado. Por ejemplo, localizar documentos que traten del historia medieval exceptuando los que tratasen de economia: historia and medieval (not economia).
  2. Paréntesis
  3. El uso de los paréntesis en las consultas booleanas es importante. Se utiliza para agrupar términos que van unidos por el mismo operador o los que pueden ser afectados por otro operador. Un ejemplo de su utilización puede ser la localización de documentos que traten sobre la edad de piedra y del bronce pero que hablen de la edad del hierro: ((“edad de piedra” or paleolitico or mesolitico or neolitico) and “edad del bronce”) not “edad del hierro”

  4. Otros operadores booleanos
    • Proximidad (“near”) que sirve para localizar palabras que suelen ir juntas o separadas por pocas palabras. Puede ser útil para la búsqueda por nombres de personas del mundo anglosajón que suelen anteponer al apellido, la inicial del apellido materno. Una variante menos usada de este operador es el “onear”. Se utiliza para indicar al sistema que los términos tienen que ir en el orden de la consulta. Ej.: John near Kennedy.
    • Adyacencia (“adj”) que sirve para localizar palabras que deben ir juntas en una frase. La variante “oadj” es para indicar que debe encontrarlo en el orden escrito en la consulta. Es similar a la opción de la comillas. Ej. Internet adj cursos.
    • Lejanía (“far”) para indicar que los términos están a una cierta distancia entre sí. La variante “ofar” para restringir al orden utilizado en la consulta.<

    En la actualidad la mayoría de los buscadores simplifican la utilización de los operadores al usuario con un interfaz de consulta más sencillo. A través de una página a modo de formulario, te permite seleccionar opciones de menús desplegables o rellenar los cuadros precedidos por términos como “todas las palabras” (and), “cualquiera de las palabras” (or), “ninguna palabra” (not), “frases exactas”, etc. Un ejemplo lo podemos ver la Hotbot, Google o Lycos.

  5. Delimitadores de campos
  6. También se pueden usar en la consulta simple. Sirven para limitar la consulta a unos campos o lugares concretos de los documentos. Como es sabido, el lenguaje de la paginas web (html) es etiquetado, es decir, utiliza unas etiquetas estandarizadas para determinar o resaltar partes del documento. Estas etiquetas de campo pueden ser utilizadas para restringir las consultas.

    El nombre de las etiquetas en la consulta y su posible uso depende del buscador. Comentaremos la etiquetas posibles en Altavista ya que es el que más tiene.

    • title. Para encontrar el texto indicado en el titulo o cabecera de la página web. Ej. title:”señor de los anillos”.
    • anchor. Para localizar el texto que se encuentre en un hiperenlace. Ej. Encontrar páginas que enlacen con la biblioteca nacional: anchor:”biblioteca nacional” and españa.
    • Link. Es una variante de la anterior que sirve para encontrar la dirección concreta de un hiperenlace. Con el mismo ejemplo anterior sería: link:www.bne.es.
    • Image. Para localizar el texto de una imagen en el documento. Ej. Localizar la imagen del Vaticano: image:vaticano
    • Host. Para restringir la búsqueda a un determinado servidor. Ej. Buscar los horarios de la biblioteca en la Universidad de La Laguna: (horario and biblioteca) and host:www.ull.es. En algunos buscadores como Google en lugar de host es la etiqueta site.
    • Url. Busca el texto solicitado en la dirección de Internet completa. Ej. Si queremos encontrar la pagina de productos de Microsoft, una opción podría ser: url:productos and host:www.microsoft.com

    Al igual que con los operadores booleanos, los responsables de algunos de los buscadores han facilitado al usuario la consulta por estas etiquetas y por otros campos como fecha o lenguaje de los documentos, creando unas paginas de consulta en forma de formulario para rellenar los campos necesarios, como es el caso de Hotbot.

¿Cómo enfrentarnos a los resultados Inicio

Los resultados suelen salir ordenados en función de la relevancia. Para estimar la relevancia, los sistemas pueden utilizar algoritmos  complejos como los que determinan el peso de los términos de la consulta dentro de los documentos en función del lugar de la palabra en el texto. Por ejemplo, tendrán más valor los términos encontrados dentro de las etiquetas de cabecera,  titulo o resaltadas con una fuente distinta. También pueden usar algoritmos sencillos que calculan la relevancia en función de la frecuencia de aparición de los términos dentro del documento.

En algunos buscadores se puede elegir el orden de aparición de los resultados. Altavista se puede elegir el término por el que se quiere ordenar, en Hotbot se puede determinar el peso de los términos en función del lugar en que se encuentre (Page Depth) o en Lycos se puede ordenar por relevancia o dominios.

Por último, algunos buscadores como Google, dentro de cada resultado ofrecen otras posibilidades como las de  traducir la página al idioma del usuario o hacer una nueva búsqueda tomando como ejemplo el documento en cuestión (Páginas similares).

Referencias

Resource Description Framework (RDF)

Otros temas

Agustín Montes - amontes@baratz.es

@bsysnet.com 2001-2005 | baratz - Servicios de Teledocumentación