Recherche et fiabilité de l’information en ligne

Introduction

Les médias en réseaux permettent d’accéder à une gigantesque quantité de documents et de données. Face à cette masse de contenus, se posent la question de la recherche d’information et celle de l’évaluation de sa fiabilité.
Concrètement, la recherche d’information est une activité de l’usager qui souhaite obtenir une réponse à une ou plusieurs requêtes spécifiques, que ce soit dans le cadre de son travail (éventuellement scolaire) ou dans un cadre privé ou ludique (recherche de données concernant une personne, d’une solution relative à un jeu vidéo, etc.). Dans cette démarche, le concept de pertinence prend toute son importance : une réponse satisfaisante est une réponse adéquate, qui correspond à la requête que l’internaute formule.
L’évaluation de la fiabilité d’une information concerne quant à elle la qualité de cette information en termes de vraisemblance, de crédibilité : l’usager détermine le degré de confiance qu’il va accorder aux contenus qu’il rencontre. Autrement dit, il s’agit de juger si les éléments de la ou des sources consultées (qu’il s’agisse d’un texte, d’une photo, d’une vidéo…) sont dignes de foi ou non.
Par ailleurs, au-delà du problème de la pertinence et de la fiabilité des différents contenus, il s’agit également d’interroger et de réfléchir à leur traitement, leur organisation (sélection, tri, catégorisation…), leur (re)production, etc.

 Caractéristiques, Usages et enjeux de l’information sur Internet

Ce thème relatif à la recherche et à l’évaluation de l’information n’est pas nouveau. Par conséquent, plusieurs éléments observés avant l’arrivée des médias numériques les concernent également : ainsi en est-il notamment de la question de la sincérité des acteurs de la communication, de la présence de figures d’autorité…
Aussi, des tendances amorcées par d’autres médias de masse (presse papier, télévision) semblent se renforcer dans une certaine mesure : par exemple, la diversité des formats médiatiques (multimédia), l’instantanéité, la question de la quantité croissante de données accessibles, etc.
Enfin, des caractéristiques spécifiques aux médias en réseaux (ou du moins particulièrement liées à ces médias) peuvent être relevées : l’usage de liens hypertextes, la possibilité de revêtir un pseudonyme ou d’agir de manière relativement anonyme, ou encore divers aspects collaboratifs.

A.Intérêts en présence, figures d’autorité et questionnement critique

Les questionnements relatifs à la sincérité, aux intentions ou encore à l’expertise des auteurs restent  incontournables.
Comme en dehors des médias en réseaux, plusieurs acteurs ont des intérêts à communiquer (politiques, artistiques, scientifiques, économiques / publicitaires / marketing, idéologiques, égocentriques, d’expression personnelle, de quête de socialisation, vandales…). Ces intérêts peuvent nuire à la qualité de l’information ou en influencer l’orientation. Aussi, un individu peut manquer d’expertise, de connaissances dans un domaine donné. A noter que cette première approche critique n’est pas une condition suffisante pour évaluer la fiabilité d’un document, et que celui-ci peut nuire à la diversité de l’information, dans la mesure où il peut mener à ériger des figures d’autorité (impliquer des arguments d’autorité), des leaders d’opinions peu remis en cause, et à diminuer par conséquent le recours à d’autres sources d’information.
Le questionnement s’impose donc, qu’il s’agisse d’une situation de recherche ou d’évaluation de la fiabilité d’une source.
D’une part, une tâche de recherche implique de formaliser avec le plus de clarté possible ce à quoi elle est supposée aboutir : Qui est susceptible d’apporter une réponse valable ? Quel est le contenu recherché ? De quel type de documents est-il question ? A quelles dates et à quels lieux de tels documents ont-ils pu être produits ? Dans quel cadre ?
D’autre part, une source peut être évaluée via des questions simples telles que « qui » (auteur, émetteur, diffuseur…), « quoi » (message, structure, clarté…), « pour quelle cible », « pour( )quoi » (intentions de l’auteur), « où », « quand », etc.
Parallèlement à ce type de questions typiques, il peut être intéressant de réfléchir aux attitudes et croyances à l’égard des médias en réseaux, tant d’un point de vue personnel qu’à une échelle plus groupale, « statistique ». Autrement dit, il s’agit d’analyser les sources et les médias numériques, mais aussi le rapport des usagers à ceux ci. Ce rapport peut s’exprimer à travers les tendances de confiance ou de méfiance à leur égard, par les comportements de consommation et de partage, etc. Des hypothèses peuvent être élaborées pour tâcher de comprendre ces opinions, représentations et pratiques : comment expliquer cet engouement ou ce rejet de tel ou tel type de ressource ? Quelles sont les raisons – logiques (basées sur des critères d’évaluation raisonnée) ou socio affectives (fondées sur des critères liés à des préférences, des valeurs, des appartenances et des relations sociales) – permettant d’expliquer le partage massif d’une vidéo donnée ?

B.Multimédia

Une autre tendance qui n’est pas propre aux documents publiés sur Internet concerne leur dimension multimédia (au moins potentielle) : ceux-ci prennent tantôt une forme textuelle, tantôt imagée ou sonore, ou encore un mélange de ces différentes formes. Autrement dit, les informations s’y retrouvent exprimées selon différents types de signes : textes, vidéos, photos, sons / podcasts, infographies, films…
Si des documents multimédia existaient avant Internet, cette dimension mérite malgré tout d’être soulignée dans le cadre des médias en réseaux. En effet, le passage par la numérisation favorise l’usage de différentes formes médiatiques par rapport à des médias plus « traditionnels » tels que la presse écrite ou la radio, et dans une moindre mesure la télévision. Ainsi, de nouveaux formats spécifiques aux médias en réseau voient le jour, tels que le webdocumentaire[1].
Ces différentes formes et leurs caractéristiques ont pour plusieurs d’entre elles déjà fait l’objet d’études spécifiques. Par exemple, il existe des outils pédagogiques permettant d’analyser un document textuel en français. Dans cette mesure, les connaissances logiques (raisonnements valides), rhétoriques (figures de style, argumentation), épistémologiques (critères de validité scientifique, méthodologie de la science) et sémiotiques (particularités des différents signes et langages) peuvent toujours être mobilisées et développées également.

C.Instantanéité et proximité

Au niveau des tendances qui gagnent en importance par rapport aux médias dits classiques, l’instantanéité et la proximité sont renforcées par les médias en réseaux (surtout lorsqu’il est question d’actualités), tant dans les logiques de productions et de partage de l’information que dans la consommation de celle-ci. Dans les médias d’information, par exemple, des outils comme Twitter permettent de (re)diffuser une nouvelle en une fraction de seconde, là où la presse papier devra attendre le lendemain pour la publier. La presse en ligne tend à toucher le lecteur dans son quotidien, via une approche participative et une dimension locale. Les émissions d’information à la télévision (notamment sur les chaines dites « d’information en continu » comme BFM TV ou iTele en France par exemple) fonctionnent également dans une certaine immédiateté. L’usager des médias lui-même semble développer un mode de consommation qui correspond à ces logiques, notamment de par son exposition à différents médias, par le partage social autour des différents contenus (que ce partage soit formel, via un réseau social, ou informel, par la parole ou entre amis), etc.
Toujours du point de vue de l’usager, on touche de surcroit ici à la notion d’espace / temps, avec la possibilité d’accéder et de consulter ces informations à peu près n’importe où et n’importe quand : l’internaute peut avoir l’impression que de fait, il dispose d’un accès direct et immédiat à toute l’information, d’où qu’elle vienne, jusqu’à négliger d’autres types de ressources (livres, télévision, musée, entretien en face à face, etc.). En somme, il y aurait un a priori d’exclusivité par rapport au web. Si de très nombreux documents pertinents peuvent effectivement être consultés sur la toile, il parait cependant important de prendre conscience de ce préjugé. En effet, celui-ci a des impacts en termes de diversification des sources ; il implique une sélection et une hiérarchisation particulières de l’information. L’enjeu est que l’usager puisse poser le choix de consulter ou non des ressources de différents types de manière autonome et raisonnée.
Ces tendances déjà amorcées par les médias de masse « traditionnels » trouvent de nouvelles répercussions avec les médias numériques.

D.Quantité de données et économie de l’attention

Parallèlement au phénomène d’instantanéité et de proximité, la masse de données est considérable[2] et cette quantité évolue de manière extrêmement rapide. Les médias numériques offrent en effet l’opportunité à chacun de produire des contenus, que ce soit via un blog, un wiki, un forum, un groupe d’échange sur un réseau social, des sites de veille ou ne serait-ce que par le biais des statuts ou du partage de photos sur les réseaux, etc. La multiplicité de producteurs de contenus (dont rédacteurs, photographes, qu’ils soient journalistes, experts ou encore internaute lambda) engendre d’énormes quantités de données[3].
A cela s’ajoute la présence d’hyperliens. Désormais, un texte n’est plus seulement limité à un document : il peut se prolonger de liens en liens[4], selon le parcours de lecture de l’utilisateur.
Cette abondance de liens hypertextes pose la question de l’économie de l’attention[5]. En effet, face à la quantité de données accessibles et au partage de celles-ci, certains auteurs parlent d’« infobésité », c’est-à-dire d’indigestion par rapport à tout ce flux rapide de contenus parfois de piètre qualité. Plutôt que de développer ce type de jugement absolu, nous préférons nous situer du point de vue de l’usager. Ses capacités d’attention sont limitées : son « temps de cerveau disponible »[6] est une ressource relativement rare dans la mesure où celui-ci est potentiellement sollicité non seulement par une grande quantité d’informations, mais aussi par de nombreux divertissements et loisirs via les médias en ligne.
C’est entre autres dans cette mesure que la combinaison de plusieurs méthodes de recherche d’information, et plus largement d’exposition à celle-ci (abonnements, agrégation de contenus, favoris, réseaux sociaux, etc.), est d’autant plus pertinente.

E.Uniformisation et propagation de l’information

L’uniformisation[7] de l’information fait aussi partie de ces tendances qui à la fois ne sont pas propres aux médias en réseaux, et à la fois se confortent avec eux, tant dans la production (formatages) que dans la consommation (préférences pour le « semblable » plutôt que le « différent ») :
« Ce phénomène, c’est celui que certains chercheurs appellent la « balkanisation ». En tant qu’internaute, nous allons avoir tendance à lire des articles ou consulter des sites Web qui renforcent nos propres convictions et confirment les idées que nous avons déjà. On ne parcourt donc pas la Toile de long en large mais on évolue tous les jours dans un même spectre de sources. Et cette balkanisation nous freine dans la mise en place de dialogues réellement riches avec d’autres personnes puisque pour y arriver, il faudrait se confronter à l’autre, à des personnes ayant des opinions différentes de la nôtre »[8].
Cette uniformisation est d’autant plus prégnante que l’information peut être reproduite, copiée, partagée, rediffusée (rediffusion et redondance des contenus sur Internet[9])… A ce sujet, Pierre Fastrez parle d’un contexte où tout ramène la personne à « ce qui est conçu pour elle », « ce qu’elle connait déjà » et à « ce que ses pairs aiment déjà »[10].
En effet, il n’est pas tant question de la variété des contenus mis en ligne que de la diversité à laquelle sont confrontés ou se confrontent les usagers, entre autres via leurs habitudes de consommation et les canaux par lesquels ils accèdent à l’information (ou par lesquels l’information leur arrive). L’usager peut désormais choisir de s’abonner à des sources spécifiques, des auteurs en particuliers, notamment sur les réseaux sociaux, et de ce fait de se limiter à ces sources. Cette tendance a pour corollaire de renforcer le questionnement relatif aux leaders d’opinions, que nous avons évoqué précédemment.
Certains types de documents connaissent une forte propagation (cet aspect viral est communément appelé le « buzz »), tandis que d’autres non. De ce fait, certains seront visionnés par une majorité d’internautes, alors que d’autres ne seront vus que par quelques personnes. En somme, il y a uniformisation (de l’information, mais aussi de la culture) dans la mesure où même si la diversité des sources est potentiellement grande, de nombreux usagers ne consomment globalement que ce que « tout le monde » partage, ou encore que les quelques ressources qui leur sont familières. On pourrait à ce sujet se poser la question de savoir ce qui fait qu’une information « fait le buzz » ou non.
Cette dimension de propagation des contenus par rediffusions et partages peut compliquer l’identification des sources primaires, lors de l’évaluation d’un document. En effet, si un extrait de document est relayé par un internaute, puis un second… et ainsi de suite, il y a des chances pour que ce soit une gageure de remonter à la source initiale de laquelle l’extrait est issue, à moins que chacun des intermédiaires ne prenne la peine de l’indiquer – ce qui n’est pas systématique. D’un autre coté, la propagation de l’information et sa mise en commun peuvent contribuer à des phénomènes de vérification collaborative de l’information, et plus largement à l’exercice collectif d’une démarche critique. Ainsi, plusieurs cas de figure ont pu être observés sur des réseaux sociaux comme Twitter ou encore sur des forums, où l’on a pu voir des utilisateurs s’interroger ensemble sur la crédibilité d’une photographie ou d’une rumeur, mener un processus de vérification par le dialogue, etc. La correction de la rumeur (ou sa confirmation) se répand alors aussi vite et bien que l’information problématique.

F.Aspect collaboratif, pseudonymat et anonymat

Les médias numériques impliquent une réflexion par rapport à des problématiques qui leur sont propres, du moins au regard de leur ampleur.
C’est le cas justement de la dimension collaborative, esquissée ci-dessus. De nombreuses productions collaboratives (fruit du travail de plusieurs auteurs distincts) et/ou réalisées éventuellement sous un pseudonyme ou encore de manière anonyme figurent sur le web. Dans ce cadre, il est parfois difficile de juger de l’expertise de l’auteur. Ce type de productions engendre un relatif flou derrière la question de l’auteur, c’est-à-dire une relative difficulté à identifier un et un seul auteur à chaque document. Si la réalisation collective d’un travail peut être un gage de qualité, elle peut également desservir la reconnaissance de cette qualité.
En lien avec cette question, et par rapport à la diffusion en ligne d’un contenu, la chaine d’intervenants s’allonge : il ne s’agit pas seulement des producteurs de contenus, mais aussi de ceux qui les diffusent, les hébergent, les partagent (par exemple, si un scientifique partage un contenu dont l’auteur est anonyme, cela rend-il ce contenu digne de confiance ?), etc.

Le cas Wikipédia

Un des cas emblématiques du questionnement relatif à l’auteur est Wikipédia[11]. Avec 1 400 000 articles dans la version francophone début 2013 (source Wikipédia), cette encyclopédie contributive est un acteur souvent incontournable lorsqu’il est question de se renseigner sur un sujet en ligne.
Wikipédia est une encyclopédie basée – comme son nom l’indique – sur le principe du wiki, ce qui signifie, de manière caricaturale, que chaque internaute peut y supprimer, modifier ou ajouter librement des contenus. Cette potentialité qui explique en grande partie la richesse quantitative du site implique la possibilité de fautes dues au manque d’expertise ou à l’ignorance du tout-venant qui souhaiterait contribuer à un article. Des éléments fallacieux peuvent être également introduits sciemment pour convaincre le lecteur : refaire l’histoire (propagande), orienter l’opinion publique, améliorer une image de marque... En 2009, par exemple, L’Expansion (magazine du groupe Express-Roularta) remarque que les Ministères de l’Intérieur et de la Culture français « ont tenté de réécrire plusieurs fiches pour faire passer leurs vues sur Hadopi ou effacer des éléments compromettants »[12]. Les politiciens ne sont pas les seuls à avoir des enjeux à communiquer : il peut s’agir d’organisations et entreprises ayant des intérêts économiques à défendre, par exemple. Pour illustrer ce cas de figure, notons qu’en 2012, le journaliste Jean-Pierre Pernaut a vu son article Wikipédia modifié de manière plutôt élogieuse par « une adresse IP provenant de TF1 »[13].
En réalité, tenter de supprimer un contenu sur le web aboutit souvent à l’effet inverse, à savoir placer ce contenu sous le feu des projecteurs[14]. Dans les deux cas évoqués, les modifications fallacieuses, tendancieuses ou à caractère promotionnel ont été presque instantanément corrigées, annulées. A ce sujet, il convient de souligner que certains articles sont naturellement plus surveillés que d’autres : nouveaux articles, pages politiques et polémiques, contenus publicitaires potentiels, etc. Le système de contrôle de Wikipédia semble donc fonctionner efficacement. Il reste que cette possibilité d’être induit en erreur invite l’utilisateur à une certaine vigilance. D’autres risques interviennent par ailleurs. Ainsi, Bruillard épingle six points d’attention majeurs liés à Wikipédia[15] :
 

  • Exactitude : des informations exactes sont mélangées avec des informations inexactes, dont la proportion est difficile à estimer. L’inexactitude, même très peu présente, est potentiellement partout.
  • Motifs : les buts des contributeurs sont méconnus. Ils peuvent être altruistes ou d’ordre scientifique autant que politiques ou commerciaux. Certains auteurs peuvent aussi être des blagueurs ou des vandales.
  • Expertise : des contributeurs outrepassent leur champ d’expertise, parlent de sujets qu’ils ne connaissent pas ou en parlent de manière inadéquate, sans que l’on puisse connaître leur expertise.
  • Volatilité : des corrections peuvent être supprimées, rendant les articles instables, sans que l’on sache bien quelle version citer.
  • Couverture : l’encyclopédie actuelle reflète les intérêts des contributeurs (notamment dans tout ce qui est lié à l’informatique, les jeux vidéos, les stars, les séries télévisées…) sans faire partie d’un plan concerté de couvrir le savoir humain. Quelles sont les informations choisies et traitées ? Quelles sont celles qui sont « oubliées » ?
  • Sources : beaucoup d’articles ne citent pas de source indépendante et la plupart des références citées proviennent d’Internet.

La version francophone de Wikipédia elle-même avertit qu’elle ne garantit pas le contenu mis en ligne[16].
Ces différents faits pourraient déboucher sur des affirmations selon lesquelles s’informer sur Wikipédia serait apparenté à un comportement peu critique.
D’un autre coté, des activités telles que créer ou modifier un article sur Wikipédia demandent de développer des compétences d’évaluation et de citation des sources, ainsi qu’une connaissance des conventions et normes encyclopédiques. En effet, écrire sur Wikipédia n’est pas un acte anodin et est régi par des règles[17]. Un système hiérarchique donne des rôles aux contributeurs, selon leur participation et la qualité reconnue de leurs articles. Certains sont ainsi habilités à rappeler ces règles aux profanes et à surveiller que les articles rédigés respectent le canevas adéquat. Des utilisateurs suffisamment impliqués ont la possibilité de publier des messages d’alertes utiles (sous forme de bandeaux) qui informent de l’état d’avancement d’un article (lorsque celui-ci n’est encore qu’une ébauche, par exemple), qu’il ne respecte pas la notion de neutralité (quand celui-ci apparait ouvertement orienté, subjectif), de copyright ou encore lorsqu’il ne cite pas assez de sources. Parallèlement, certains articles sont épinglés comme étant bons ou de qualité lorsqu’un certain nombre de contributeurs les désignent comme tels[18]. Enfin, les précieuses pages de « discussion » et d’« historique » apportent potentiellement un éclairage utile à l’usager par rapport à des cas de désaccords ou relatifs à des exactitudes ou imprécisions. Pour chaque article, l’internaute a la possibilité de consulter l’historique des modifications, ainsi que les éventuelles justifications et polémiques résolues ou en cours.
Si ce système n’est certainement pas infaillible, surtout concernant des sujets pointus ou polémiques, il utilise bel et bien plusieurs critères de la critique historique. Les nouveaux contributeurs sont relativement surveillés et peuvent être rapidement rappelés à l’ordre.
Pour l’usager, Wikipédia est similaire à une autre encyclopédie, c’est-à-dire qu’elle représente avant tout un outil qui permet de débroussailler et de se familiariser avec un sujet peu connu ou flou. D’ailleurs, selon J. Giles, Wikipédia (en anglais) a en réalité un taux d’exactitude comparable à celui des grandes encyclopédies comme Britannica, en ce qui concerne les articles scientifiques[19].

G.Hypertexte et navigation

Enfin, notons que Wikipédia reflète une des spécificités d’Internet : la navigation hypertextuelle. Concrètement, un article « de qualité » rédigé sur l’encyclopédie en ligne renseigne des sources primaires utilisées pour le rédiger (la présence d’hypertextes offrant la possibilité directe d’approfondir l’exploration du sujet consulté).
Ainsi, même si l’article encyclopédique lui-même est mal rédigé ou trompeur, il comporte en général d’autres liens ou indications qui, eux, renvoient peut-être vers des contenus plus rigoureux. Il n’est pas improbable qu’un ou plusieurs ouvrages (livre, page, article) auxquels l’encyclopédie renvoie soient fiables (ou qu’eux-mêmes mentionnent des liens fiables) et puissent être cités dans un cadre scientifique ou scolaire. Le cas échéant, des mots-clés peuvent être épinglés et utilisés lors d’une recherche ultérieure.
Dans un cadre d’apprentissage, il peut être intéressant d’examiner la structure d’un article Wikipédia afin de souligner la présence de liens et de sources primaires directement accessibles sur un thème donné.

Démarches pour s’informer en ligne
 

A.Recherche d’information et exploration

La recherche et l’exploration sont deux facettes de la navigation[20]. D’un côté, la recherche vise à répondre à un objectif préétabli. De l’autre coté, l’exploration se caractérise comme activité ouverte, sans but précis.

Rechercher : les moteurs de recherche

Lorsque l’utilisateur souhaite obtenir de l’information sur un thème précis (et donc qu’il sait exactement ce qu’il recherche), il passe généralement par un moteur de recherche[21]. Ces moteurs indexent les différentes pages des sites web via des « robots » qui parcourent les liens qu’ils rencontrent. Au vu de la masse de contenus en ligne, du fait que certains ne sont pas renseignés par des liens hypertextes (pages « orphelines ») ou encore du fait que certains contenus soient protégés par mots de passe, ces robots (appelés également « spiders ») ne peuvent indexer tout le contenu d’Internet. Lorsqu’une page est trop riche, il n’en indexe parfois qu’une partie (généralement le titre, la hiérarchie…). On parle de « web invisible » ou « web profond » pour faire référence à toutes les pages qui ne sont pas référencées par les moteurs de recherche.
Quand un utilisateur effectue une requête via un moteur de recherche, il obtient des propositions de liens relatifs aux mots qu’il a utilisés. Celles-ci sont hiérarchisées dans une certaine mesure, de sorte que les premiers liens proposés soient ceux qui sont supposés être une réponse pertinente à la requête. Pour ce faire, chaque moteur utilise un algorithme spécifique, basé à la fois sur la sémantique utilisée (les mots et où ceux-ci se trouvent dans un titre, dans l’article, etc.), sur les requêtes similaires effectuées par d’autres internautes (popularité, entre autres) ainsi que sur des éléments relatifs à celui qui fait la recherche (géolocalisation, par exemple). Ainsi, si un utilisateur situé à Bruxelles recherche « restaurant », le moteur lui indiquera probablement des liens présentant des restaurants bruxellois.
Les résultats fournis par un moteur de recherche sont orientés par deux autres facteurs, que nous appelons par convention la notoriété et la popularité. La notoriété d’une page ou d’un site dépend du nombre de liens qui pointent dessus : plus leur nombre est grand, plus ce document a de chances de figurer dans les premiers résultats de recherche. La popularité concerne quant à elle le nombre de clics obtenus par cette ressource : plus celle-ci est consultée, plus elle sera mise en avant par le moteur. Un parallèle peut être fait avec la question de l’uniformisation de l’information, d’autant plus lorsque l’on sait que les internautes ont majoritairement tendance à ne consulter que les quelques premiers liens mis en avant par le moteur lorsqu’ils effectuent une requête.
Aussi, pour comprendre le fonctionnement des moteurs de recherche, on peut intégrer l’approche du système économique. La plupart des moteurs de recherche participent en effet au marché en tant qu’entreprises commerciales.
Plusieurs moteurs mettent en avant des « liens sponsorisés », c’est-à-dire des pages qui ne répondent pas nécessairement à la recherche effectuée, mais pour lesquels des individus ou entreprises ont payé pour qu’ils soient mis en avant. Il s’agit du référencement payant (les liens référencés de la sorte sont souvent indiqués par un fond de couleur). Certains acteurs du web ont également bien compris l’importance d’un bon référencement : il existe des méthodes marketing afin d’augmenter son référencement naturel (c’est-à-dire non payant), notamment via des tags ou encore des titres accrocheurs, définis par le producteur de contenus.
Concernant Google, cas particulier des différents moteurs de recherche, on peut relever la fonction « Google suggest », autrement dit les suggestions de recherche. Toujours en fonction de son algorithme, Google suggère des termes ou parties de termes pour compléter ceux encodés par l’usager.
En somme, un moteur de recherche est désormais un intervenant de plus à analyser lorsque l’on se demande « qui » est à l’origine de l’information : celui-ci la présente et la hiérarchise d’une certaine manière, selon certaines orientations. Il existe différents moteurs et méta-moteurs, dont certains sont par ailleurs plus respectueux de la vie privée des internautes que d’autres.

Moteurs de recherche : recommandations techniques de base

S’il est aujourd’hui difficile de se passer des moteurs pour effectuer une recherche efficace sur Internet et ainsi faire le tri dans les milliards de pages que le web recèle, il reste important de noter que ces outils ne sont pas neutres et ne fournissent pas l’accès à l’ensemble du savoir. Quand bien même ce serait le cas, encore faut-il que les internautes en maîtrisent le fonctionnement.
Ainsi, d’un point de vue technique, il est intéressant de développer un usage raisonné des moteurs, notamment via leurs fonctionnalités (de recherche) avancées, soit la syntaxe propre de ces outils[22].
Par ailleurs, sachant que l’indexation se base sur le langage naturel (c’est-à-dire les mots de la langue, ceux qui sont utilisés dans le langage parlé) et sur les requêtes des utilisateurs (régulièrement posées sous forme de questions), il convient de faire usage de synonymes, de varier le vocabulaire, les mots clés et leur degré de spécificité, leur ordre et leur formulation, afin de maximiser les chances d’obtenir des résultats pertinents. Il s’agit ici de sémantique[23].
Notons enfin qu’il est possible de comparer les résultats de différents moteurs et métamoteurs (moteurs qui interrogent plusieurs moteurs à la fois. Malgré cela, ils n’engendrent pas nécessairement plus de résultats que les moteurs qu’ils prétendent interroger) afin de multiplier les angles d’approche d’une problématique. Une comparaison de ce type a pour avantage de souligner la hiérarchisation de l’information par les différents outils de recherche.

 Rechercher : les sites spécialisés

Une recherche ne passe pas nécessairement par un moteur. En effet, d’autres types de sites peuvent être consultés pour obtenir des renseignements sur un thème spécifique.
Nous avons évoqué les ressources encyclopédiques.
D’autres ressources existent : portails et sites scientifiques, les catalogues et bases de données, les sites institutionnels, les sites de presse, les répertoires de ressources, les annuaires… En général, ces sites possèdent un moteur de recherche interne qui permet de parcourir leurs contenus.

Les réseaux sociaux

A ces sites peuvent s’ajouter les réseaux sociaux, dans la mesure où ceux-ci peuvent être utilisés pour recherche des informations également. En suivant des personnes ou des organisations (abonnement, suivi, etc.), en posant des questions dans un espace d’échange (comme un forum ou une communauté donnée) ou encore en mobilisant ses semblables sur un sujet, l’internaute peut obtenir diverses informations. Il s’agit de recherche par la socialisation.

Explorer

L’exploration porte sur un thème non défini ou inconnu. Comme la recherche, elle se caractérise par la navigation. Une exploration peut servir à « débroussailler » une question, une thématique méconnue (cf. à ce sujet le rôle d’une encyclopédie, que nous avons évoqué supra en abordant la question de Wikipédia), de manière à affiner les termes d’une recherche, par exemple.
Cette exploration peut s’effectuer via les recommandations sociales des autres usagers. En effet, de nombreux contenus sont édités ou partagés via les wikis, blogs, forums, réseaux sociaux…
En réalité, cette activité se produit à chaque fois qu’une personne consulte une page concernant une thématique à propos de laquelle elle n’avait pas pour objectif de se renseigner avant d’y être confrontée. Il peut s’agir d’un tweet, d’un lien partagé en statut sur un réseau social, d’une source indiquée par un article, d’une publicité sur un forum, etc.
Dans la mesure où l’exploration permet de préparer le terrain d’une recherche postérieure, mais aussi de se tenir au courant d’un thème précis, il est possible de rationaliser en partie cette démarche, en présélectionnant les (types d’) informations auxquelles nous sommes exposés. Cette exposition raisonnée peut prendre la forme d’un agrégateur de flux RSS, d’abonnements à des personnes ou instances sur les réseaux sociaux (également des listes sur Twitter), de signets, de favoris et marques pages sur un navigateur…
En termes d’éducation aux médias, l’idée est de favoriser le choix conscient d’un équilibre entre ouverture (une navigation tout à fait libre, sans aucune balise) et fermeture (une navigation cadrée, orientée vers des objectifs spécifiques). L’une permet la découverte de nouveaux contenus tout en évitant une consommation uniformisée, tandis que l’autre permet de focaliser la navigation sans se disperser outre mesure.

B.Indicateurs de fiabilité en ligne

Ce n’est pas tout d’explorer le web et de savoir y trouver des documents : il s’avère important aussi de pouvoir en évaluer la fiabilité.
Pour ce faire, nous avons évoqué un panel de questions à se poser pour déterminer si un contenu est digne de confiance ou non. Cette logique, similaire entre autres à celle de la critique historique, fait partie des éléments qui sont toujours d’actualité par rapport aux médias en réseaux.
Cependant, il ne suffit pas de s’interroger : encore faut-il savoir où et comment trouver les réponses à ce type de questionnement.
Par conséquent, nous proposons ci-après une liste (non-exhaustive) d’indicateurs, c’est-à-dire d’éléments auxquels une personne peut être attentive pour recueillir des informations qui lui permettront d’identifier qui s’exprime, avec quelle expertise, en fonction de quels enjeux, envers quels publics, etc. Une fois ces indications obtenues, un jugement relatif au degré de confiance à accorder au contenu mis en ligne peut être élaboré.
Il est possible de distinguer deux types d’indicateurs qui permettent d’évaluer la fiabilité d’un document sur Internet : ceux qui sont présents sur le site et ceux que l’on peut trouver autour du site. Nous en fournissons ci-dessous une liste non-exhaustive. Plutôt que d’utiliser cette liste comme une ressource finie à transmettre aux apprenants, il peut être intéressant de faire émerger des indicateurs lors d’une activité pédagogique, en leur posant une question de type : « Quels sont les éléments sur lesquels nous pouvons porter notre attention pour dire si un document trouvé sur Internet est digne de confiance ? » ou encore « Que peut-on observer en ligne afin de répondre aux questions (qui, quoi, quand, comment, où, pourquoi, dans quel but…) permettant d’évaluer la fiabilité d’une page ou d’un site Internet ? ».
Aussi, si ces points d’attention peuvent donner des informations par rapport à la fiabilité d’un document sur le web, ils sont bien à considérer comme des indices de celles-ci, et non des preuves absolues.

Indicateurs présents sur le site (critique interne)
  • Catégorisation (hiérarchisation) du site / de la source (éventuel menu, plan du site…). Cet élément présente la construction du site. Un site fiable est généralement organisé et clair.
  • Adresse URL du site / de la source (barre d’adresse du navigateur). Cet indice donne des renseignements sur le nom de domaine du site ou de la page, sa construction, éventuellement son auteur, etc.
  • Suffixes et extensions (.univ, .ac / .be, .fr, .org…). Cet élément peut indiquer la spécificité du lieu ou de l'organisation, sa localisation (université, académique / Belgique, France…) ou encore la nature du contenu consulté (dans le cas d’une extension de fichier comme « .pdf » par exemple).
  • Code source de la page. Celui-ci permet de prendre connaissance d’informations invisibles sur la page consultée.
  • Clic droit sur les images. Ce procédé permet de repérer la présence de métadonnées (dates, logiciel de retouche utilisé, référence de l’appareil photo ou de la caméra, géo localisation). Exception sur Facebook et Youtube : ces réseaux sociaux écrasent les métadonnées pour ne laisser que la taille et le poids.
  • Pages « qui sommes-nous ? », « contact », « à propos », etc. Elles représentent des indices sur le ou les auteurs.
  • Présence d’hypertextes (sources consultables) et/ou d’autres sources bibliographiques dans le document consulté. Il s’agit aussi de transparence, permettant de vérifier et de comparer les informations analysées.
  • Présence ou non de liens publicitaires / popups / … Ceux-ci donnent renseignements sur les intentions de l’auteur, sur son désintérêt.
  • Présence ou non de mentions légales, obligatoires en Belgique pour les sociétés commerciales[24].
Indicateurs autour du site (critique externe)

Internet permet de ne pas se limiter à une lecture « verticale », c’est-à-dire de haut en bas d’une page donnée : il est toujours possible de rechercher des informations « extérieures » aux documents, par une simple recherche sur un moteur par exemple.
Si la page en question ne donne pas d’information sur l’auteur, il est possible de taper son nom dans Google, ou encore de chercher des données le concernant via divers réseaux sociaux.
Si une image est utilisée sans source ni légende, en plus de rechercher des indications la concernant sur le site, il est possible d’utiliser un outil de recherche permettant de savoir par exemple si elle n’existe pas ailleurs sur le web.

  • Navigation hypertextuelle. Le fait de pouvoir explorer le web à tout moment est une ressource en soi : pour chaque information trouvée, il est possible de procéder à une recherche ou d’ouvrir un lien hypertexte pour éventuellement la vérifier, la mettre en contexte ou encore l’approfondir.
  • Celui qui émet le contenu est-il déjà intervenu par ailleurs, ou est-ce sa seule contribution (critère qui a entre autres permis de démasquer le « fake » publié sur Youtube mettant en scène un aigle enlevant un enfant : il s’agissait de la seule vidéo postée par l’utilisateur, inscrit très peu de temps avant ce post. Cette logique s’applique à un pseudo qui modifierait un article Wikipédia, par exemple) ?
  • Se servir de logiciels ou des applications et outils du web : Google images, Tin eye, Shazam
    1. Par extension, il est possible d’utiliser des logiciels pour analyser les transformations subies par les images / reconnaitre une chanson / etc.
  • Utiliser les ressources humaines : réseaux sociaux, commentaires de blogs, forums…
  • ...

Objectifs et compétences

Les objectifs et enjeux de cette fiche renvoient directement à des compétences informationnelles de la littératie médiatique, dans leurs dimensions de lecture et de navigation. Il s’agit en effet, principalement, d’une part de recherche et de décodage des informations, et d’autre part de navigation hypertextuelle, d’exploration.
Ceux-ci peuvent se décliner en objectifs opérationnels tels que :

  • Connaître et distinguer différents indicateurs de fiabilité sur un site Internet ou une application connectée ; recueillir un ensemble d’informations relatives à un document donné (cet objectif est déclinable en nombreux sous-objectifs relatifs à chaque indicateur potentiel : identifier le ou les éventuel(s) auteurs d’un document, élaborer des hypothèses quant aux intentions de ceux-ci, remonter à la source d’une information, décrire et décoder une adresse URL, etc.)
  • Distinguer les dimensions sociales d’une recherche d’information et en faire usage
  • Maîtriser les caractéristiques techniques des outils de recherche sur Internet
  • Identifier les éléments significatifs d'une page de résultats de recherche

Fiches pédagogiques pour les professionnels de l’éducation

  Une première activité pédagogique s’intitule « Concevoir et appliquer une grille pour évaluer une ressource sur Internet ». Elle propose aux apprenants d’élaborer les critères (questions) et les indicateurs (éléments permettant d’y répondre) auxquels soumettre un document numérique afin d’en déterminer la fiabilité et la pertinence. Ensuite, ceux-ci sont amenés à appliquer cette grille à un document spécifique, puis à émettre un jugement global et argumenté sur celui-ci. Une mise en commun permet enfin de comparer les résultats et d’éventuellement enrichir ou nuancer la grille préalablement conçue.
Une deuxième fiche, « Interpréter une page de résultats d’un moteur de recherche », propose, comme son nom l’indique, d’évaluer un échantillon de résultats fournis par un moteur en réponse à une requête. L’usager y est invité à se poser la question de la fiabilité des ressources proposées, notamment via une analyse de leur adresse URL et de quelques-uns de leurs éléments les plus significatifs, permettant entre autres d’en identifier le ou les auteurs. Cette fiche est accompagnée d’une analyse appliquée d’une page de résultats provenant de Google à propos de l’éducation aux médias.
Deux autres fiches d’activité concernent les moteurs de recherche, afin de comprendre leur fonctionnement. La première, intitulée « Toi aussi, réalise ton moteur de recherche », consiste à imaginer et réaliser un moteur de recherche. En réfléchissant sur les principes de base d’un moteur, il s’agit de développer sa compréhension de ceux-ci tout en mettant en question ses pratiques de recherche. La seconde fiche est baptisée « Les moteurs de recherche, tous égaux ? ». Sa logique est similaire à celle de l’autre activité : en comparant différents moteurs (en fonction d’une copie des pages de résultats), il s’agit de mettre en évidence la sélection et la hiérarchisation que ceux-ci impliquent. Sur cette base, il s’agit de réfléchir à leur fonctionnement et à la question de la neutralité : comment expliquer que les résultats diffèrent, sur quels critères ?
Une fiche « Recherche sociale » approfondit quant à elle les méthodes de veille et de présélection de l’information en présentant les logiques d’abonnement / de suivi de personnes ou organisations sur différents réseaux sociaux (en l’occurrence, le choix s’est porté sur LinkedIn, Twitter et Scoop.it). Cette fiche d’une initiation à la logique globale de fonctionnement de ces outils. Libre aux apprenants d’en approfondir ou non l’usage technique (par exemple, le classement dans des listes thématiques sur Twitter, le fait de rejoindre des groupes d’échanges thématiques sur LinkedIn, l’agrégation de contenus sur Scoop.it, etc.).
Enfin, une fiche « Pour aller plus loin » est proposée. Celle-ci présente un ensemble de ressources permettant de découvrir différents outils du web (moteurs, annuaires…) ainsi que plusieurs exemples de méthodologie de recherche, évaluation, traitement ou encore citation de l’information et de critique des sources. Ce recensement non exhaustif a pour objectif de fournir des pistes pédagogiques, ainsi que de découvrir et d’approfondir diverses méthodes concrètes de recherche et d’évaluation informationnelles. Ces dernières étant parfois très spécifiques, elles peuvent être combinées et peuvent être enrichies par des éclairages théoriques ou la combinaison avec d’autres « bonnes pratiques ».

Synthèse des apports théoriques concernant la fiabilité numérique

Rechercher un document (pertinence) et l’évaluer (vraisemblance, fiabilité)
Usages et enjeux informationnels sur Internet

  • Intérêts en présence, figures d’autorité / leaders d’opinions et questionnement critique
    • Analyse des sources et des documents selon un questionnement critique
    • Analyse des attitudes et croyances individuelles et sociales à l’égard des médias en réseaux (opinions, pratiques, comportements, représentations, etc.)
  • Mise en forme multimédia
  • Instantanéité / immédiateté et proximité
    • A priori d’exclusivité sur le web
  • Quantité de données et économie de l’attention
  • Uniformisation et propagation de l’information, tant du point de vue de la production (formatage) que de la diffusion, de la consommation et du partage
    • Propagation des contenus par partage et rediffusions : viralité et « buzz »
  • Aspect collaboratif, pseudonymat et anonymat
    • La chaine d’intervenants s’allonge
      • Garant de qualité ou vecteur d’une difficulté plus grande à retrouver et distinguer les sources initiales
      • Question de l’auteur
      • Le cas de Wikipédia
  • Hypertexte et navigation : la navigation hypertextuelle

Démarches pour s’informer sur Internet

  • Rechercher et explorer
    • Les moteurs de recherche
      • Fonctionnement et web invisible
      • Algorithme : pertinence et orientation(s)
      • Approche économique et référencement (payant ou non)
      • Popularité et notoriété
      • Syntaxique et sémantique particulières
      • Suggestions de recherche
    • Les sites spécialisés
      • Portails et sites scientifiques, catalogues et bases de données, sites institutionnels, sites de presse, les répertoires de ressources, annuaires…
      • Réseaux sociaux : la recherche par la socialisation
    • Explorer : présélectionner les types de sources auxquelles s’exposer. Un équilibre entre ouverture et fermeture.
  • Evaluer la fiabilité via des indicateurs précis
    • Dans la ressource consultée (critique interne)
    • A l’extérieur, notamment via la navigation hypertextuelle (critique externe)

Bibliographie

Ressources par rapport à Wikipédia

 


[1] Cf. par exemple le webdocumentaire « Geek politics », réalisé par une petite équipe belge, financé par le fonds d'aide au journalisme et en partenariat avec plusieurs médias belges. Ce webdocumentaire propose du contenu vidéo accompagné d'un grand nombre de textes explicatifs et de références bibliographiques, permet différents niveaux d'accès (vidéos de 4 à 20 minutes). Chaque chapitre comporte en outre des rubriques « pour aller plus loin » : http://www.geekpolitics.be (consulté le 16/05/2013).
[2] Cette problématique n’est pas tout à fait neuve. Cf. Xavier de la Porte, « Trop de livres : quelles distinctions de valeurs faisons-nous entre les pratiques et les technologies ? », sur Internetactu.net, 2012 : http://www.internetactu.net/2012/06/18/trop-de-livres-quelles-distinctions-de-valeurs-faisons-nous-entre-les-pratiques-et-les-technologies/
[3] Les (nombreuses) sources divergent quelque peu, mais il est possible de citer quelques chiffres en guise de repères. En 2013, en une minute sur Internet, 30 heures de vidéos sont mises en ligne sur Youtube, 100 000 tweets sont émis sur Twitter, 6 articles sont publiés sur Wikipedia (en anglais), etc.
TEMPLE, K., « What Happens in an Internet Minute ? », Intel, le 13 mars 2013 : http://scoop.intel.com/what-happens-in-an-internet-minute/
[4] Cf. la notion de sérendipidité : « découverte de quelque chose par accident et sagacité alors que l'on est à la recherche de quelque chose d'autre » (déf. Wikipédia : http://fr.wikipedia.org/wiki/S%C3%A9rendipit%C3%A9)
[5] « Dans les années 1970, l’économiste et sociologue Herbert Simon a fait valoir que “dans un monde riche en informations, la richesse de l’information signifie un manque de quelque chose d’autre. Une pénurie de ce que l’information consomme. Ce que l’information consomme est assez évident : elle consomme l’attention de ses bénéficiaires” ».
GUILLAUD, H., « danah boyd : pourquoi avons-nous peur des médias sociaux ? », sur Internetactu.net, 2012 : http://www.internetactu.net/2012/03/29/pourquoi-avons-nous-peur-des-medias-sociaux/
[6] Pour reprendre la désormais culte expression de Patrick Le Lay, alors PDG de TF1, selon laquelle « ce que [TF1] vend à Coca-Cola, c’est du temps de cerveau humain disponible ».
[7] « Pourquoi les nouveaux médias n'ont pas diversifié l'info » sur le site du NouvelObs, 2012 : http://leplus.nouvelobs.com/contribution/593409-pourquoi-les-nouveaux-medias-n-ont-pas-diversifie-l-info.html
[8] « Internet comme nous l’utilisons » sur le site Apache.be, 2012 : http://www.apache.be/2012/08/17/linternet-comme-nous-lutilisons/
[9] Cf. notamment DEGAND, A. (dir), GREVISSE, B. (dir), Journalisme en ligne. Pratiques et recherches, Bruxelles : De Boeck (Collection INFO&COM), 2012, chapitre 4, « usage des outils en ligne » concernant les pratiques journalistiques de partage via les réseaux sociaux.
La propagation (« viralité ») due notamment aux recommandations sociales et aux rediffusions des contenus est par ailleurs abordée dans les fiches thématiques concernant l’identité numérique et la socialisation numérique.
[10] FASTREZ, P., « De la lecture à la navigation : quelles compétences médiatiques ? », Conférence invitée présentée au 2ème colloque Ecriture et Technologie : « Ecrans et lecture », à Polytech Sophia Antipolis, (France), le 06/04/2011 : http://www.slideshare.net/pfastrez/de-la-lecture-la-navigation-quelles-comptences-mdiatiques
L’importance des pairs dans les processus de sélection, de consommation et d’appropriation de l’information, d’autant plus sur le web, est soulignée par plusieurs études sur les usages (cf. notamment http://www.mediappro.org et http://digitalyouth.ischool.berkeley.edu).
[11] Cf. notamment LECOMTE, J., chapitre « Wikipédia », in Médias : influence, pouvoir et fiabilité. A quoi peut-on se fier ?, Paris : L’Harmattan, 2012, pp. 204-207.
[12] « Les ministères de l’intérieur et de la culture trafiquent Wikipédia », in L’Expansion, le 11/05/2009 : http://lexpansion.lexpress.fr/high-tech/les-ministeres-de-l-interieur-et-de-la-culture-trafiquent-wikipedia_180941.html
[13] MANACH, J.-M., « Jean-Pierre Pernaut, journaliste avant-gardiste », in Owni.fr, le 19/11/2012 : http://owni.fr/2012/11/19/jean-pierre-pernaut-tf1-wikipedia/
[14] A ce sujet, on parle d’« effet Streisand » : « phénomène Internet qui se manifeste par l'augmentation considérable de la diffusion d'informations ou de documents par le simple fait d'avoir été l'objet d'une tentative de retrait ou de censure » (définition Wikipédia, consulté le 24/05/2013).
Cf. notamment « La DCRI [Direction centrale des renseignements intérieurs, en France] s’attaque à Wikipédia et découvre ‘’l’effet Streisand’’ », in Slate.fr, le 06/04/2013 : http://www.slate.fr/france/70417/la-dcri-attaque-wikipedia-et-decouvre-effet-streisand
[15] BRUILLARD, E., « L’éducation face à Wikipédia : la rejeter ou la domestiquer ? », in Medialog n°61, mars 2007, pp. 39-45 : http://www.stef.ens-cachan.fr/annur/bruillard/eb_wikipedia_medialog.pdf
[16] WIKIPEDIA, page « Avertissements généraux » : http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Avertissements_g%C3%A9n%C3%A9raux
[17] WIKIPEDIA, page « Citez vos sources » : http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Citez_vos_sources
[18] DELSAUT, G., « WIKIPÉDIA : une source d’information extraordinaire ou une pseudo-encyclopédie peu fiable ? » in Cahiers de la documentation, 2005 : http://www.abd-bvd.be/cah/papers/2005-4_Delsaut.pdf
[19] GILES, J., « Internet encyclopaedias go head to head », in Nature n°438, 2005, pp. 900-901.
[20] FASTREZ, P., « Quelles compétences le concept de littératie médiatique englobe-t-il ? Une proposition de définition matricielle », in Recherches en communication 33 : les compétences médiatiques des gens ordinaires (I), Louvain-la-Neuve : Université catholique de Louvain, 2010.
[21] Nous pouvons ici relever la différence entre un moteur de recherche et un navigateur web.
Un navigateur est un programme informatique qui permet d’accéder au web (par exemple : Internet Explorer, Firefox, Chrome, Safari, Opera...) et d’en consulter différentes pages, en fonction de leurs adresses respectives. L’exploration sur le web n’est possible qu’à travers un navigateur.
Un moteur de recherche est quant à lui un logiciel qui fonctionne sur le web et possède généralement une adresse web spécifique (entre autres moteurs de recherche : Google, Yahoo, Baidu, Yandex, Bing, etc.).
A noter que désormais, plusieurs navigateurs fusionnent leur barre d’adresse avec une barre de recherche : il est possible de solliciter un moteur via la barre d’adresse du navigateur, mais ce n’est pas le navigateur en tant que tel qui effectue la recherche.
[22] Par exemple : l’usage de troncatures (le fait de ne pas écrire un mot ou une expression en entier tout en introduisant un signe qui le renseigne), de guillemets (pour rechercher une expression exacte ou non), d’opérateurs booléens (connecteurs logiques comme « and », « or », « - »), des formules spécifiques (comme « inurl: » pour rechercher dans une page en particulier)… Lorsque le moteur de recherche dispose de fonctionnalités avancées, celles-ci sont généralement détaillées dans la page qui y est afférente.
[23] Ainsi, il est parfois paradoxalement plus efficace de rechercher un contenu en posant littéralement une question au moteur, sans utiliser ses fonctionnalités avancées, tout simplement parce que les résultats que celui-ci fournit dépendent des précédentes requêtes qui lui ont été formulées. Autrement dit, lors de certaines recherches, il peut être intéressant d’imaginer les phrases, les termes et les mots-clés utilisés par d’autres personnes dans une même situation de recherche.
[24] Cf. « Emails et sites internet : mentions légales obligatoires » sur le blog Sedlex, le 10/11/2008 : http://blog.sedlex.be/?p=7