nov. 2013

Data et Littérature numérique

Le sujet est sans cesse rebattu : le web et les NTIC ont bouleversé les modes de fonctionnement des entreprises et des institutions, transformé la vie quotidienne des citoyens, jusqu’à créer de nouveaux modes de pensée, de nouvelles pratiques sociales et culturelles et de nouvelles représentations mentales. Difficile encore de prévoir les potentialités du web notamment, dont il apparaît aujourd’hui que la principale rupture est de tout numériser et de tout transformer en données : le savoir, la société, les institutions, mais aussi l’homme lui-même, son comportement, ses interactions, son propre corps, etc. Et la lecture aussi ? Et la lecture aussi. Tout devient progressivement toujours plus quantifié pour optimiser et rentabiliser, sans doute au détriment de la valeur que ne reflète pas toujours le prix. Mais « de nos jours, les gens connaissent le prix de tout, mais la valeur de rien », écrivait Oscar Wilde dans Le portrait de Dorian Gray. D’ailleurs cette citation est le 47ème passage le plus annotée sur le Kindle. On le sait parce que tout même la lecture désormais est transformée en donnée.

A posteriori, il est aisé de constater qu’avec l’émergence du web et de la société d’information, tout semblait déjà concorder et mener à cette “société de données”. Comme le rappellent Stéphane Grumbach (directeur de recherche à l’Institut national de recherche en informatique et automatique) et Stéphane Frénot (professeur des universités au laboratoire CITI de l’Institut national des sciences appliquées de Lyon) dans un récent plaidoyer pour un modèle européen de collecte et de gestion des données paru dans Le Monde, dès la création d’Internet et la multiplication des pages web, un nouveau modèle économique est apparu, impliqué par la nécessité de développer des outils (et donc une nouvelle industrie) de traitement des requêtes et des données accessibles : ce nouveau modèle est celui de l’échange entre un service de recherche gratuit d’une part, et le partage de données personnelles d’autre part.

L’émergence d’un nouveau « marché » des données personnelles et notamment des données d’usage révèlent peu à peu au grand jour les potentialités du web, auxquelles n’échappe pas le secteur due l’ebook et de l’édition numérique.

Analyse des comportements de lecture : ce livre qui vous lit

Car il ne faut pas se leurrer, c’est bien le livre numérique qui nous lit, et non pas l’inverse. Quel est le comportement du lecteur face à son livre ? Finit-il le livre d’une traite, ou est-il incapable d’enchaîner plus de 20 pages ? Lit-il seulement l’introduction et la conclusion d’un essai ? Avec quelle intensité lit-il ? A quelle heure ? C’est une autre histoire que racontent les données : la votre, la notre. La lecture était depuis le XIX siècle un acte solitaire et privé. Le XXI siècle sera le siècle de la lecture mesurable et quantifiable.

Bien sûr il ne s’agit pas vraiment des éditeurs eux-mêmes, les supports numériques sont encore l’apanage des grands groupes (Google, Amazon, Apple, Barnes & Noble, Kobo, …). Mais le fait est que ces grands groupes disposent de l’accès aux données que leurs machines produisent. Or, toujours plus de données sont générées, puisque le marché de la littérature numérique progresse. Selon le 3ème baromètre SOFIA/SNE/SGDL, les Français sont de plus en plus nombreux à se tourner vers la lecture numérique : 15% de la population française âgée de 15 ans et plus déclare avoir déjà lu un livre numérique, contre 5% il y a un an. Le taux d’équipement a également décollé : 42% des lecteurs de livres numériques possèdent aujourd’hui une tablette, soit près de deux fois plus qu’en mars 2012 (23%) et 18% envisagent d’en acquérir une dans les six prochains mois. Toujours plus de données donc, et ces données sont formidables de précision. Les nouveaux grands acteurs et diffuseurs de l’édition numérique peuvent à présent mesurer le temps de lecture des utilisateurs, les termes qu’ils emploient lors de leur recherche d’ouvrage ou encore jusque à quel point précis de l’ouvrage ils se rendent lors d’une lecture. Les applications de lecture pour tablettes comme l’iPad, le KindleFire ou le Nook enregistrent ainsi le nombre de fois où elles sont ouvertes par les lecteurs et combien de temps est consacré à la lecture. Les maisons d’édition et même les auteurs commencent ainsi à s’intéresser à ces données qui leur offrent un regard sur des comportements des utilisateurs jusque là méconnus.

Journaliste au Wall Street Journal, Alexandra Alter rapporte que Barnes & Noble, conscient de l’enjeu des Big Data et dont les ventes du Nook représentaient en 2011 un CA d’1,3 milliards de dollars, a pu amorcer des études sur les habitudes de lecture de ses utilisateurs, afin d’aider les éditeurs à créer des ouvrages qui soient plus proches des attentes des lecteurs précisent-ils. Ainsi, il apparaît que les romans sont généralement lus d’une traite, contrairement aux autres genres littéraires. Les amateurs de science-fiction, de roman policier ou encore de fantastique ont tendance à lire beaucoup plus rapidement et sans interruption que les lecteurs de fiction classique qui abandonnent souvent leur lecture pour y revenir plus tard et sautent par ailleurs certains passages. Alexandra Alter précise d’ailleurs que ces aperçus contribuent déjà à modifier la forme des livres vendus sur la plateforme Nook qui inclut maintenant de courts textes en lien avec des sujets d’actualités pour attirer et maintenir l’attention des lecteurs.

L’édition numérique vers les datas ?

L’analyse des données de lecture est cruciale pour les distributeurs et revendeurs qui cherchent toujours à cibler plus finement le client, d’autant plus qu’ils évoluent sur un marché littéraire dont le modèle principale reste encore la longue traîne. La compagnie Amazon s’intéresse par exemple de très près à ces données d’usage : les utilisateurs du Kindle doivent, pour pouvoir utiliser les fonctions proposées, signer un agrément qui spécifient qu’Amazon se réserve le droit d’enregistrer sur des serveurs de la compagnie les données qu’ils génèrent par le biais de l’appareil, dont notamment les livres achetés, la dernière page lue, les passages surlignés, les marques pages et annotations, etc. L’enquête d’Alexandra Aster est très instructif à ce sujet, et rappelle que l’utilisation de ces données pour définir le moment où les lecteurs commencent à s’ennuyer est essentielle pour les éditeurs qui réfléchissent aux moyens de renouveler cette attention en incluant par exemple une vidéo ou un lien externe pour raviver l’intérêt de la lecture.

Certains éditeurs s’impliquent déjà dans cette nouvelle société des données. L’éditeur Scholastic, qui édite notamment aux Etats-Unis les séries à succès Hunger Games de Suzannes Collins et Harry Potter de J.K. Rowling, a par exemple créé des espaces de commentaires et des mini-jeux associés à certains de ses romans. L’objectif est de définir statistiquement quels personnages et scénarios ont le plus de succès auprès des lecteurs pour ensuite adapter la forme des séries de romans qu’il publie.

L’éditeur Coliloquy va même plus loin en proposant de laisser des choix d’auteur directement aux lecteurs, de manière assez similaire à la série des livres “dont vous êtes le héros”. Ces derniers choisissent ainsi la destinée de leurs héros. Le concept ne serait cependant pas aussi original si l’éditeur n’avait pas eu l’idée de regrouper et de recouper ensuite ces données pour les transmettre aux auteurs qui adaptent alors leurs futures histoires pour qu’elles prennent en compte les choix les plus populaires des lecteurs. Certains auteurs orientent leur écriture après avoir consulté ces statistiques de l’éditeur, en choisissant par exemple de garder en vie un personnage pour ne pas choquer ou déplaire à une partie trop importante de leur lectorat. Et si l’on en croit Waynn Lue et Lisa Rutherford, les deux fondateurs de la maison, l’utilisation des données fonctionne puisque plus de 90% des livres numériques de l’éditeur entre 3$ et 8$ est entièrement lu, et même relu dans 67% des cas.

De nouvelles startups se lancent par ailleurs sur ce marché de la collecte et de l’analyse des données de lecture pour les revendre ensuite aux éditeurs. Les nouveaux et nombreux services de lecture numérique qui permettent aux utilisateurs d’acheter et de stocker leurs livres sur des plateformes en ligne afin de les lire sur différents appareils disposent des systèmes de suivi des lecteurs de plus en plus sophistiqués. La plateforme Copia par exemple, qui dispose de plus de cinquante mille abonnés, collecte des informations de lecture, de téléchargement, mais aussi des données personnelles (agrégées afin de les anonymiser), comme l’âge, le sexe ou encore l’école à laquelle les lecteurs qui achètent certains titres sont affiliés, et partage ensuite ces données avec les éditeurs qui en sont demandeurs, comme sa page de présentation l’indique.

Ces récoltes massives de données à l’insu des lecteurs inquiètent d’ailleurs certains organismes de protection de la vie privée qui mettent en avant qu’il est impossible pour un utilisateur du Kindle de refuser que ses données soient collectées et analysées. Cette inquiétude est renforcée par le fait qu’Amazon refuse d’indiquer comment ces données sont analysées et dans quel but. Mais ce refus montre surtout l’importance stratégique que la firme confère à ces données d’usage.

“Les annonceurs veulent accéder aux personnes, pas aux pages web” rappelle Jean-Michel Salaün, en citant le Wall Street Journal, dans un article sur l’“économie de la surveillance”. Et sommes-nous alors à l’aube de voir des publicités directement dans nos livres ?

Evolution de la chaîne du livre : ces datas qui attirent Google Books

En réalité, la question de la publicité dans la littérature numérique est plus épineuse que cela. Certes, la lecture sur application génère beaucoup de données, mais en retour les supports de lecture ne sont pas les plus attrayants pour proposer de la publicité. Une étude de Business Insider montre d’ailleurs que, malgré le fait que les usages mobiles soient en pleine croissance, le marché de la publicité ne semble pas s’y être encore installé. L’étude avance une raison essentielle : l’écran est trop petit, et donc la publicité y serait trop intrusive et contre-productive. Celle-ci montre par ailleurs un élément qui ne nous surprend plus : le marché de la publicité sur mobile est entièrement contrôlé par Google, qui est déjà “très bien” installé sur le marché mondial de la publicité numérique. Aussi n’est-il pas surprenant non plus de voir l’intérêt de Google pour les données de lecture. Celles-là même qui pouvaient potentiellement optimiser le marché de l’édition en offrant l’opportunité aux éditeurs d’être toujours plus proche des lecteurs, peut à l’inverse amener une éviction radicale de ces mêmes éditeurs de la chaîne du livre.

L’intérêt de Google pour le livre s’est concrétisé en 2004 avec le lancement du projet Google Books en partenariat avec 5 bibliothèques : le projet était alors de numériser des ouvrages choisis par les partenaires et libres de droit. Après plusieurs procès, Google a passé en 2008 un accord avec les éditeurs américains, et leurs représentants, notamment l’American Library Association, l’Association of Research Libraries et l’Association of College and Research Libraries. Ces derniers ont pu présenter un document à destination des bibliothèques expliquant la portée et la teneur de l’accord, qui en dit long sur l’intérêt que porte Google pour les données de lecture. La vision et l’anticipation de la firme sur les sujets numériques a encore fait merveille, à tel point qu’il a suffit qu’elle s’intéresse au livre pour quasiment enterrer la chaîne du livre traditionnelle et proposer désormais un nouveau marché dont elle est la seule à fixer les règles. Un nouveau marché du livre comme algorithme, basé, on l’aura deviné, sur le coeur de métier de Google, les données.

Le premier cas décrit dans l’accord sur la numérisation des ouvrages est simple : les ayants droits des livres numérisés sont identifiés, et ils fixent alors les prix. Le second cas est étonnant : « Google will set the price for all books not priced by the rightsholders based on a pricing algorithm designed to find the optimal price for each book to maximize the revenue for the rightsholder. […] The algorithm will place a book in a pricing bin based on aggregate data collected with respect to similar books. Google can change the price of a book in response to sales data. Google also can change the distribution of books in the pricing bins over time as the prices of individual books are adjusted based on the pricing algorithm. » Ainsi, si les ayants droits ne sont pas reconnus, les prix seront fixés par un algorithme de Google prenant en compte les données collectées sur des ouvrages similaires et sur les chiffres de ventes. Mieux, ou pire : Google offre l’“opportunité” aux auteurs de supprimer tout intermédiaire (toute la chaîne du livre donc) en discutant directement avec eux et en leur proposant une rémunération sur le même modèle qu’utilise déjà Google pour le web, Adwords. C’est-à-dire une rémunération fixée directement par les données de lecture.

Google présentait initialement sa démarche comme celle d’une bibliothèque. Puis est très vite apparu comme un éditeur, Google Edition, qui propose à chacun de publier facilement son propre livre, même si l’appellation initiale “Google Book Search” tendait à rassurer les éditeurs en présentant le projet avant tout comme un moteur de recherche appliqué aux livres. Google possède également sa propre boutique, Google Play, et, puisqu’il fixe les prix, indexe les ouvrages et les vend, il pourrait très bien être défini comme un libraire. Google, c’est déjà toute la chaîne de livre. C’est la chaîne du livre qui n’existe plus. Mais sa ténacité à conserver l’exclusivité d’indexation farouchement défendue face aux éditeurs montre surtout qu’il n’est ni éditeur, ni bibliothécaire, ni libraire. Google est collecteur, producteur et gestionnaire de données. C’est ce que précise Marin Dacos et Pierre Mounier dans leur ouvrage de référence L’édition électronique : “Google Books ne se comporte ni comme un éditeur, ni comme un libraire. Il utilise sa puissance de calcul et d’indexation pour réaliser un gigantesque système d’information sur le livre, menant le data mining (fouille de données) à son paroxysme pour construire des cartes et des itinéraires entre les objets numériques et les outils de son armada de services.” Un manipulateur de données donc qui, dans la littérature numérique et numérisée, valent chères.

D’autant plus que ces données permettent d’affiner les algorithmes de Google, et donc son modèle économique. Affiner ses algorithmes de recherches personnalisées, grâce aux données personnelles, nous l’avons suffisamment souligné je l’espère. Mais également ses algorithmes linguistiques. En numérisant des millions d’ouvrages, Google permet en effet une automatisation des recherches et des statistiques linguistiques qui rendent compte avec une rigueur jamais égalée jusqu’alors des évolutions du langage. Depuis 2004, une équipe de Harvard travaille d’ailleurs sur les masses de données générées par les numérisations de Google. Les premiers résultats sont présentés ici.

Noyée dans les enjeux des Big Data et de l’Open Data, l’influence des données dans la littérature numérique se fait plus discrète. L’enjeu de la lecture sur des supports numériques aujourd’hui est plutôt de comprendre pourquoi la lecture est différente et comment la stimuler sur le web, les nouvelles écritures transmedia ou peut-être encore le renouveau des écritures collaboratives. Pourtant l’impact de l’utilisation des données dans l’édition numérique est décisif.

L’allusion au pétrole de Stéphane Grumbach et Stéphane Frénot dans leur article sur lequel nous introduisions plus tôt n’est pas le fruit d’un quelconque hasard ou d’une quelconque rhétorique, mais est aujourd’hui une antienne scandée dans chaque discours abordant de près ou de loin l’économie numérique : les données personnelles sont le nouveau pétrole. A tel point que leur maîtrise devient le véritable enjeu de ce début de siècle pour les entreprises. Le risque est grand pour les éditeurs de passer à côté d’une formidable source de connaissance que les services de webmarketing transformeraient facilement en profits. D’autant plus que face à eux, Google n’attend pas, n’attend plus. A l’inverse, le risque est aussi grand pour les lecteurs d’abandonner leurs moindres faits et gestes aux Big Brother mystérieux vivant quelque part dans ce monde virtuel situé entre le moindre livre numérique et des serveurs web ultra-protégés.