Dominique Boullier : “On ne peut pas mettre tout et n’importe quoi dans la machine”

D

Spécialiste des enjeux socio-politiques du numérique et des sciences sociales de troisième génération, Dominique Boullier a accepté de livrer son éclairage sur le Big Data et le machine learning. Il a aussi livré son point de vue, critique, sur notre expérience. Une interview réalisée avant le premier tour des municipales en mars.

Dominique Boullier

En quelques mots, pouvez-vous nous dire sur quoi portent vos recherches ?

Je suis professeur d’université en sociologie à Sciences-Po, au Centre d’études européennes et de politique comparée. Mes recherches actuelles portent sur toutes les méthodes de suivi des propagations d’informations sur les réseaux sociaux, le Web et bien au-delà. Je viens d’une sociologie plutôt anthropologique, je suis passé au quantitatif au travers notamment de l’analyse des comportements humains, quand j’ai créé le Laboratoire des usages en France au début des années 2000. C’est vraiment dans le cadre des sciences cognitives que je me suis mis au quantitatif. Puis ensuite j’ai créé le Media Lab à Sciences Po avec Bruno Latour. Là aussi nous avons beaucoup travaillé sur toute la topologie du Web, à partir aussi du Big Data. Et puis j’ai intégré l’école polytechnique fédérale de Lausanne. C’est là où je me suis vraiment immergé avec des spécialistes de machine learning.

Pouvez-vous définir le Big Data, le data mining et l’opinion mining ?

Le big data, on le décrit comme un volume de production de données – qui peuvent être de très bas niveau quelques fois. Ces données sont gigantesques, elles recouvrent ce qui se manifeste notamment sur le Web. Nous avons dans ces données tout type de traces, y compris des comportements comme des clics, des parcours dans des sites… On a désormais des plateformes qui génèrent de très grands volumes de traces, qui rendent possibles des calculs qui n’auraient pas été possibles avant, notamment avec des méthodes qui mobilisent des probabilités.

Le big data a changé quelque chose dans la façon de calculer à notre époque : on a de la statistique classique, mais on peut passer à autre chose avec d’autres méthodes.

On a désormais des plateformes qui génèrent de très grands volumes de traces, qui rendent possibles des calculs qui n’auraient pas été possibles avant.

Dominique Boullier

Le big data est caractérisé par “les trois V” : le volume donc, mais aussi la variété et la vélocité, puisque l’on travaille avec des flux de données permanents qui permettent de mettre à jour des bases de données.

Le data mining ce sont précisément les méthodes qui nous permettent d’aller explorer toutes ces nouvelles “features”, ou propriétés. J’ai moi-même beaucoup travaillé sur des données textuelles ou de comportements sur les réseaux sociaux. Mais il y a plein d’autres données à analyser, si elles sont suffisamment volumineuses.

L’opinion mining est l’une de ces méthodes, limitée à des données textuelles. Ça nous permet d’exploiter plutôt des commentaires, des avis et des choses qui sont présentes sur les réseaux sociaux ou le Web. On peut aussi faire du “sentiment analysis”, méthodes qui nous permettent d’extraire “les tonalités” des expressions.

On entend bien plus généralement – et à toutes les sauces – parler d’ “intelligence artificielle”. De quoi on parle exactement ?

Personnellement, j’évite au maximum d’utiliser le terme d’”intelligence artificielle”. Depuis une petite dizaine d’années, on mobilise ce terme comme un argument de promotion d’un certain progrès technique, voire même d’une idéologie qui vise à développer des intelligences “conscientes”. On entre dans des débats philosophiques qui ne sont pas du tout en prise avec ce qui se fait réellement.

L’intelligence artificielle, en réalité, elle n’est ni intelligente ni artificielle.

Dominique Boullier

L’intelligence artificielle, en réalité, elle n’est ni intelligente ni artificielle. Ni intelligente parce que techniquement ce sont des tâches relativement limitées dans des domaines bien précis qu’on peut documenter largement. Au bout du compte, cela peut donner l’impression d’une activité intelligente.

Mais ça n’a pas grand chose à voir avec ce qu’est l’intelligence humaine.

Et puis elle n’est pas vraiment artificielle parce qu’on sait maintenant qu’il y a en réalité de l’humain partout, y compris dans les plus petites tâches. Les modèles de prédictions demandent des milliers de validations humaines.

Le plus pertinent, dans notre domaine, est de parler de “machine learning”.

Qu’est-ce que le machine learning peut nous apporter, à vous chercheurs et à la société en général ?

La promesse du “machine learning”, c’est qu’on va pouvoir faire des prédictions – à condition bien entendu d’avoir les bonnes données du passé – avec des probabilités. Le machine learning est désormais capable de réaliser ses propres algorithmes et de pondérer l’ensemble des variables, en permanence. Le processus d’apprentissage est réellement impressionnant.

L’émergence du machine learning est un tournant. Auparavant, on faisait seulement “des modèles du monde”, des ontologies, des descriptions sans fin de toutes les propriétés de nos sujets d’étude, tous les attributs des entités et de toutes les relations et sur tous les types de mutations qui se manifestaient.

Le machine learning est désormais capable de réaliser ses propres algorithmes et de pondérer l’ensemble des variables, en permanence.

Dominique Boullier

Le travail des machine learners est en réalité de savoir identifier, jongler entre toutes ces données, prendre celles qui marchent le mieux, en fonction des types et des volumes de données disponibles. Et vient cette capacité d’apprentissage, grâce notamment aux “réseaux de neurones”. On n’a plus à décrire le monde, on a à construire les modèles de l’apprentissage. Le système est en effet capable de se représenter les qualités de son modèle d’apprentissage et de les réviser en fonction des nouvelles données qui arrivent.

Dans les expériences prédictives, comme vous le proposez, on a donc un modèle, suffisamment entrainé, avec suffisamment de données, pour pouvoir être mis à l’épreuve sur des données qu’il ne connaît pas.

Il faut alors développer les bonnes techniques de machine learning pour réduire les variances, réduire les biais, et s’assurer d’avoir bien collecté les bonnes données. C’est ensuite très important de mettre ce modèle à l’épreuve pour le faire évoluer et le rendre performant.

Le big data et le machine learning ont-ils déjà été utilisés avec succès dans le passé pour prédire des résultats électoraux ?

On peut citer bien entendu Nate Silver, qui a conçu un modèle pour les élections américaines, qui s’est révélé pertinent pour l’élection de Barack Obama, puis pour des élections locales. Il travaillait auparavant sur les masses de données sur les paris sportifs, avant de s’intéresser à des assemblages de milliers de sondages électoraux. Mais il s’est lourdement trompé sur Trump, notamment parce que les sondages eux-mêmes se trompaient. Son modèle, en réalité, amplifiait les erreurs.

Ce qui est intéressant, c’est comment on parvient à ne pas se laisser leurrer, comment on corrige ou on complète ce type de modèle.

Dominique Boullier

Ce qui est intéressant, c’est comment on parvient à ne pas se laisser leurrer, comment on corrige ou on complète ce type de modèle. On peut par exemple le combiner avec l’analyse des tweets, pour identifier des tendances qui ne sont pas seulement issues des sondages ou des données passées.

Autres travaux très intéressants : ceux effectués par de jeunes chercheurs de l’Université de Compiègne, qui avaient anticipé la victoire du “non” au référendum sur la Constitution européenne en 2005, alors que l’ensemble des médias et des sondages donnaient le “oui” gagnant.

En étudiant les réseaux sociaux, le bruit général des conversations, ils sont parvenus à anticiper le vote effectif. Ce n’était pas de l’IA, mais on était déjà dans du big data et des calculs sur d’immenses bases de données.

En Argentine pour les élections de 2019, des chercheurs ont aussi développé des méthodes prédictives qui se sont révélées pertinentes.

Pensez-vous qu’un jour, nous pourrons prédire en s’appuyant sur une intelligence artificielle les résultats d’élections, avec assurance et précision ? Cela peut-il à terme concurrencer le travail des instituts de sondages ?

Oui. Je pense que les instituts de sondages sont très conscients de ça. Eux-mêmes commencent à s’y mettre. Pour le moment, leur approche est très différente. C’est un travail sur les “expressions individuelles”, sur les préférences individuelles. Il est très possible que ces méthodes-là soient renforcées à l’avenir par l’IA et le Big Data. Mais les sondages comportent en eux-mêmes des limites de pertinence, liées pour beaucoup à l’agenda médiatique : c’est à dire en fonction des problèmes qui sont posés, des candidats présents, etc., il y a des choses qui transforment les manières de s’exprimer.

Comment expliquer le Brexit ? L’élection de Trump ? La montée du mouvement 5 étoiles ?

Dominique Boullier

Personnellement, je pense que les sciences sociales peuvent évoluer, sans avoir recours à l’IA, pour expliquer les nouveaux modèles de propagation de l’information. Comment expliquer le Brexit ? L’élection de Trump ? La montée du mouvement 5 étoiles ? Les positionnements partisans ne fonctionnent plus. Il va falloir se pencher sur tout ce qui “peut mettre le feu à la prairie”. Le fait que tout d’un coup il y a des candidats qui émergent et accrochent l’opinion avec une attitude populiste, il faudra mieux l’expliquer. Nous sommes dans un monde où la propagation de fausses nouvelles, mais aussi de vraies, singulièrement exposées, devient une des propriétés du système politique.

Ce que vous vous avez fait, c’est encore tout autre chose. Ce ne relève ni ce que je viens d’évoquer, que j’appelle la 3e génération de sciences politiques, ni la 2e génération, fondée sur l’analyse de préférences individuelles.

Votre travail se base sur l’idée qu’il y a des lois structurelles, sur l’idée qu’on peut extraire des indicateurs qui décrivent l’état social d’un collectif, à différentes échelles, et qu’on peut faire des corrélations suffisamment fortes avec les résultats électoraux du passé pour prédire celles à venir. Ça pose beaucoup de difficultés, d’autant que vous êtes dans un niveau d’étude local avec des élections municipales.

Que pensez-vous de notre expérimentation et du modèle conçu ?

Je vois que vous avez procédé à des réductions de dimensions dans les caractéristiques données au machine learning. Oui, il faut l’assumer. Il y a un peu de bricolage, mais vous êtes obligés de passer par là, sinon vous auriez un modèle intransposable et inapplicable et vous ne pouvez pas comparer une ville à une autre. Ça ne pose pas de problème. En revanche, il y a un travail de labellisation et de validation à effectuer. Vous n’avez pas mis des personnes travaillant dans les sciences politiques dans cette expérience, et ce sont les mieux à même de qualifier vos données, les trier, savoir si vous pouvez les utiliser comme ceci ou comme cela dans votre modèle. Ça manque.

On ne peut pas mettre tout et n’importe quoi dans la machine sur des prétextes de calculabilité.

Dominique Boullier

C’est d’ailleurs l’un des problèmes que l’on a avec l’utilisation du machine learning et du big data : les data scientists prétendent qu’ils peuvent se passer des politistes, qui eux ont la culture de tous les enjeux qu’il y a dans les classifications. Instaurer un dialogue pour savoir ce qu’il est pertinent de conserver ou d’enlever, c’est important. On ne peut pas mettre tout et n’importe quoi dans la machine sur des prétextes de calculabilité.

Vous savez, on enseigne aussi le “human machine learning” à l’université. Il n’y a pas que les machines qui apprennent. Et pour que les data scientists apprennent, il faut mettre les experts dans la boucle.

Vous voulez avoir quelque chose qui soit non déclaratif, qui soit indépendant des déclarations des personnes. C’est un peu ce qu’on faisait en sciences politiques il y a déjà pas mal d’années mais qu’on a un peu abandonné et qu’on appelait des “modèles écologiques”. On identifiait des régularités détectées dans les votes, en fonction de propriétés spatiales des populations. On peut citer les travaux de Siegfried par exemple.

Mais si vous souhaitez faire des prédictions, c’est complexe : vous avez un impératif de mise à jour des ces données qui est vraiment très important, et qui n’est pas équivalent entre vos différents data sets (les revenus, les chiffres de population…). Sans chiffres mis à jour, vous pouvez être totalement en dehors des clous.

Votre approche est radicale, c’est risqué : vous mettez tout dans la machine et vous attendez de voir…

Dominique Boullier

Vous avez aussi cumulé 1300 variables (ou dimensions), c’est beaucoup. Et ça pose un problème. Vous n’avez pas de priorités là-dedans : tout se vaut. C’est de l’additif total. Il faudrait contrôler le type de données sélectionnées avec comme objectif de répondre à une problématique. Il n’y pas de question dans votre modèle. Votre approche est radicale, c’est risqué : vous mettez tout dans la machine et vous attendez de voir…

Vous pouvez aussi avoir un certain nombre de corrélations qui fonctionnent au niveau national, mais qui peuvent ne pas fonctionner au niveau local. Il faut que vos agrégats aient du sens par rapport aux variables que vous exploitez. Sur le plan des équipements immobiliers, par exemple, il y a des correspondances impossibles. Dans une petite ville, si vous n’avez pas d’opéra, c’est logique. Il faut donc établir des catégories de villes, établir quels sont les critères pertinents à certaine échelle, ceux qui ne le sont pas… Certains résultats ne sont évidemment pas transposables d’une ville à une autre. Il faut donc établir des catégories de villes en fonction des questions à se poser. Si vous traitez de manière équivalente, au hasard, vous aurez ce qu’on appelle des “clusterisations” qui seront influencées par d’autres variables qui ne sont pas celles qui sont pertinentes pour le problème que vous soulevez. Par exemple le “niveau de diplômes”, c’est une donnée qui a du sens dans les grandes villes, où il y a des universités, pas dans les petites villes. Il y a en plus des effets de voisinage, de proximité… Juste sur cet exemple, il faudrait redécouper les territoires en fonction du bassin d’attractivité de l’université, c’est très très compliqué.

Et puis quelles variables pour quelles corrélations ? Il peut y avoir des variables intermédiaires que vous ne connaissez pas, comme le fait qu’il y a des particularités locales explicatives (un type d’administration, une activité économique particulière…). Vous avez aussi des données, forcément, qui seront sans intérêt pour certaines communes, ça donne du bruit plus qu’autre chose. Le modèle peut s’en rendre compte, mais il peut aussi ne pas s’en rendre compte parce qu’un indicateur peut être influencé par une autre variable que vous n’avez pas dans vos données. Il faudrait aussi être le plus transparent possible sur votre algorithme, les méthodes de classements, les problèmes rencontrés dans les classifications. Moins il y a de boites noires et plus le modèle est fiable.

A lire :
BOULLIER Dominique, “Pour des sciences sociales de troisième génération (SS3G) : des traces numériques aux réplications” in MENGER Pierre-Michel et PAYE Simon (dir.) “Big data et traçabilité numérique. Les sciences sociales face à la quantification massive des individus” (Collège de France, Paris, 2017)
BOULLIER Dominique et Audrey Lohard, “Opinion Mining et Sentiment Analysis: méthodes et outils” (Paris: Open Editions Press, 2012)

Fabien Dabert
Fabien Dabert

Responsable Linternaute Actu