Le datajournalisme: vecteur de sens et de profits

Le 17 avril 2011

Face à l'avalanche d'informations, les techniques de datamining permettent d'extraire du sens de bases de données. La confiance devient la ressource rare, créatrice de valeur. Et les médias peuvent s'en emparer.

Ce post reprend les éléments d’une réflexion amorcée avec Mirko Lorenz et Geoff McGhee dans un article intitulé Media Companies Must Become Trusted Data Hubs [en] et présentée à la conférence re:publica XI.

Chaque jour, nous produisons deux ou trois exaoctets [en] de données, soit 1 million de téraoctets. Dans le même temps, Facebook et ses 600 millions d’utilisateurs produisent à eux seuls 70 téraoctets, soit à peine 0.007% du total. Pour comparer, un journal papier traditionnel pèse entre 1 et 50 mégaoctets.

Si l’on veut synthétiser toute l’information produite en quelque chose de digeste pour l’utilisateur final, il faut résumer par un facteur de 100 milliards. Pas facile pour un journaliste.

Pour faire sens de cette hyper-abondance de contenus, les professionnels de l’information doivent adopter de nouvelles techniques. Dans un monde analogique, l’enregistrement et la restitution permettent de rendre compte de manière optimale de la réalité. Dans un monde numérique et connecté, la difficulté ne vient plus de l’enregistrement mais de l’extraction de données pertinentes. Pour les exploiter, il devient indispensable de s’approprier des connaissances en analyse de données et en statistiques.

Une fois équipé des bons outils, faire parler des masses de données devient possible. La plupart des opérateurs téléphoniques, tels Vodafone [pdf/en], China Mobile [en] ou Verizon [en], utilisent les données produites par leurs utilisateurs pour prédire les embouteillages, par exemple. De telles techniques pourraient également être utilisées par les journalistes pour prévoir les manifestations.

Toute information est une donnée

L’aboutissement du datajournalisme reste de penser tout type d’information comme une donnée à mettre en lien et en contexte pour lui donner du sens. Si Vodafone est capable de transformer les informations de communication d’un simple GSM en service de prédiction des bouchons, les professionnels de l’information doivent être capables de réassembler et de manipuler les éléments pris dans l’actualité pour en extraire des tendances et du sens pour le citoyen.

L’information telle qu’on la consomme habituellement, sous forme de textes ou d’images, n’est que très partiellement compréhensible par l’ordinateur. Les masses d’information accumulées par les journalistes restent amorphes une fois publiées, alors qu’elles pourraient être valorisées en fournissant le contexte nécessaire à la compréhension des articles du jour.

Certaines initiatives vont dans ce sens. L’International Press Telecommunications Council (IPTC) vient de publier un format de description des données permettant d’identifier clairement les personnes, les lieux et les organisations impliquées dans un article. Ce standard, rNews, a été dévoilé le 5 avril. L’IPTC compte parmi ses membres l’AFP, la BBC et 27 autres acteurs majeurs des médias. Son pas en avant va peut-être accélérer le passage des médias au web sémantique et aux données liées.

Médias liquides

Pour diffuser sur l’ensemble des plateformes et des écrans, les contenus doivent être capables de prendre différentes formes. Du SMS à l’infographie dynamique, l’information doit pouvoir être consommée dans n’importe quelle situation, y compris celles que nous n’imaginons pas encore.

La plupart des rédactions peuvent certainement prendre à leur charge la distribution de leurs contenus sur le web, via leur site. Une petite partie d’entre elles est capable de faire de même sur l’iPhone, sur Android et sur l’iPad. Et malgré ça, aucun média français (à part 10 minutes à perdre) n’est capable de se positionner parmi les 100 app les plus vendues sur iTunes.

En donnant la possibilité à tout développeur d’accéder à leurs informations, les médias peuvent diffuser beaucoup plus largement leurs contenus, sans se poser la question du support. Tout comme la plupart des titres papier externalisent l’impression et la distribution, les sites web peuvent se débarrasser de la diffusion et laisser les spécialistes – les développeurs – s’en charger.

Les API (interfaces permettant aux ordinateurs d’accéder directement à l’information) du Guardian (Open Platform) et du New-York Times (Developer Network) donnent une idée de ce à quoi pourrait ressembler un média réellement liquide. C’est ainsi que les médias pourront cesser de devenir des répertoires de données pour devenir des points d’échange obligés dans le parcours de l’information.

L’actif des médias, en plus de leur marque, reste leur audience. Sa valeur ne provient plus de sa capacité à être vendue aux annonceurs, mais des possibilités de l’intégrer au processus de création de l’information. Le crowdsourcing permet d’augmenter, d’après l’expression d’Eric Scherer, l’information préexistante. Que ce soit pour compléter une base de données (comme nous le faisons avec prixdeleau.fr) ou pour valider des informations (comme sur InfluenceNetworks), l’apport de l’audience différencie profondément un média, enrichisseur de données, d’une base de données « froide ».

Le marché de la confiance

Les médias ont, jusqu’à présent, évolué sur un marché où ils offraient une information à leurs lecteurs ou spectateurs et une audience à leurs annonceurs. A une époque où l’information était une ressource rare et où les annonceurs ne pouvaient pas toucher directement leur public, les médias créaient de la valeur aux deux bouts de la chaîne.

Aujourd’hui, cette position n’est plus tenable. Les lecteurs peuvent contourner les médias et s’informer via de nouveaux canaux (Wikipédia, Facebook, les sites d’institutions ou d’ONG) et les annonceurs peuvent toucher leur audience sans passer par les médias.

Cette dynamique redessine complètement le marché des médias et de l’information. Pour obtenir l’attention de leurs prospects sur un marché hyper-compétitif, les annonceurs ont intérêt à investir massivement dans la qualité du contenu. Unilever, l’un des plus gros annonceurs traditionnels, pénètre ainsi le marché du divertissement en produisant un jeu vidéo en ligne pour ses glaces Magnum (Pleasure Hunt).

Des ONG, qui se seraient auparavant contenté d’envoyer des communiqués de presse aux médias de masse, publient directement les résultats de leurs études et de leurs actions sur leurs sites. Les ONG sont devenues des médias comme les autres [en]. De nouveaux acteurs de l’info, comme Wikileaks et OpenLeaks, l’ont d’ailleurs reconnu clairement. Le premier en offrant les télégrammes diplomatiques évoquant le traité ACTA à la Quadrature du Net [en], une association militant pour les libertés numériques, le second en faisant en sorte d’accueillir en son sein autant d’ONG que de médias.

Les institutions ne sont pas en reste, même en France. Le Quai d’Orsay prend particulièrement au sérieux son nouveau rôle de média. Sur Twitter, @francediplo compte sept fois plus de followers que @France_Info_Com, par exemple. Le ministère des affaires étrangères publie également sa propre série de web-documentaires, Destinations.

La rareté, aujourd’hui, ne réside plus dans l’accès à l’audience (ce pourquoi les annonceurs allaient vers les médias) ni dans l’accès à l’information (ce pourquoi les consommateurs se tournaient vers les médias). La rareté, aujourd’hui, réside dans la confiance à accorder à une information.

Dans un univers de contenus surabondants, produits par tous, la valeur vient de la relation de confiance que l’on arrive à tisser avec son audience. Un tel changement de paradigme met sur un pied d’égalité tous les producteurs de contenus, média y compris.

Laisser un commentaire

Derniers articles publiés