Recherche et évaluation de l'information biomédicale sur le web

Les moteurs de recherche

1.2.1. Principes de fonctionnement

Des robots ("crawlers", "spiders") sont programmés pour collecter automatiquement l'information disponible sur le Web; ils naviguent de liens en liens, selon des instructions définies au préalable, pour explorer tout ou partie des sites, avec des périodicités de mise à jour variables, selon l'importance et la notoriété des sources.

Le contenu des pages collectées est ensuite stocké dans la base de données du moteur de recherche et indexé : chaque mot utilisé pour la recherche d'une information est considéré comme une chaîne de caractères, et permet de retrouver, puis d'afficher les pages qui le contiennent dans la base de données du moteur.

Google (http://www.google.fr), plébiscité actuellement dans le monde par plus de la moitié des utilisateurs, doit son succès à son mode de classement des résultats, le Page Rank, ou indice de popularité des pages.

Pour chaque page affichée dans les résultats d'une recherche, le nombre de liens effectués par d'autres sites du Web sur cette page est calculé par Google, qui classe en tête les pages recueillant le plus grand nombre de liens.

Avec Google, les principaux moteurs sont Yahoo (http:// fr.yahoo.com) et Live de Microsoft (http://www.live.com).

Il est utile de connaître la syntaxe de recherche sur un moteur pour optimiser ses requêtes avec le mode de recherche simple; le mode avancé explicite cette syntaxe pour faciliter les requêtes.

Le site Abondance (http:// www.abondance.com) présente une rubrique qui détaille la syntaxe des principaux outils de recherche disponibles.

1.2.2. Exemples de recherche sur un moteur : Google

a) Recherche simple

image

Cette requête permet de retrouver toutes les pages du Web qui contiennent, soit cette expression, soit les deux termes séparément.

b) Recherche avancée

image

Cette requête permet de retrouver toutes les pages du Web qui contiennent à la fois l'expression "dysplasies ectodermiques" et le terme "classification".

image

c) Combinaison de termes avec une équation de recherche

Avec chaque page de résultats, Google affiche l'équation de recherche effectuée sur sa base de données. Pour l'exemple précédent :

image

Une équation de recherche est constituée de mots-clés reliés par des opérateurs, notamment les opérateurs logiques ET, OU, SAUF, dits aussi opérateurs booléens.

Inserm ET associations : recherche tous les documents qui contiennent simultanément les 2 termes

Inserm OU associations : recherche tous les documents où apparaît au moins un des termes

Inserm SAUF associations : recherche tous les documents où figure le terme Inserm, mais où ne figure pas le terme associations.

La recherche avancée de Google présente explicitement ces opérateurs :

ET: imageimage
OU: imageimage
SAUF: imageimage

d) Identification de termes synonymes dans les résultats d'une recherche

La lecture des premiers résultats permet d'identifier des synonymes (ici, "myélome multiple") ou des termes plus précis, que l'on peut utiliser pour relancer une recherche.

image
image

e) Recherche sur le titre des pages

La recherche avancée permet de délimiter une recherche, par exemple sur le titre des pages et sur la langue. L'équation de recherche est affichée avec les résultats.

image

image

image

f) Recherche en Anglais

La même recherche, effectuée en Anglais, affiche un nombre de résultats plus élevé, correspondant à des pages anglophones.

image

g) Le correcteur d'orthographe de Google

Google propose les termes exacts pour des requêtes comportant des erreurs orthographiques.

image

image

h) Google n'accepte pas la troncature

La troncature (ou caractère joker) est un signe (* ou $ ou ?), qui remplace une ou plusieurs lettres d'un mot d'une recherche.

i) Recherche du nombre de pages d'un site répertoriées sur Google

Il est possible de connaître le nombre de pages d'un site répertoriées par Google en tapant l'adresse du site dans le champ "Pages du site ou du domaine".

image

j) Recherche du nombre de liens effectués sur un site

Ce nombre de liens permet, notamment, de suivre la popularité d'un site.

image
date de modification: 01/08/2007
Mission Inserm Associations