A l’occasion des municipales 2020, Linternaute.com et les équipes Data du groupe lancent une expérimentation géante de Big Data et d’intelligence artificielle appliquée aux élections…
Jean-Marie Le Pen qualifié au second tour de la présidentielle en 2002, la constitution européenne rejetée en 2005, le Brexit adopté par référendum au Royaume-Uni en juin 2016 et Donald Trump élu président des Etats-Unis quelques mois plus tard… Ces séismes politiques français, européens, mondiaux, ont surpris les sondeurs et les “experts” qui, pour la plupart, n’avaient rien vu venir. Avec d’autres imprévus du même genre, dont très récemment les résultats des européennes en mai dernier, ils ont installé l’idée selon laquelle il était finalement impossible de prédire avec certitude les résultats d’une élection, ni même ses grandes tendances.
La méthode la plus couramment utilisée encore aujourd’hui pour prévoir les résultats d’un scrutin quel qu’il soit reste la méthode des sondages d’opinion, voire des sondages d’intentions de vote qui poursuivent un objectif prédictif encore plus abouti. Mais depuis quelques années, les instituts de sondages ont trouvé de nouveaux concurrents chez les professionnels du Big Data et des algorithmes, avec des promesses parfois aussi vertigineuses qu’hasardeuses. Le débat entre ces deux écoles est en tout cas récurrent. Pour les premiers, le questionnaire et l’enquête de terrain demeurent les meilleurs outils pour prendre le pouls de l’opinion. Pour les seconds, les données sans limites produites sur Internet et l’intelligence artificielle sont déjà en mesure de faire aussi bien voire beaucoup mieux. Entre ces deux extrêmes, plusieurs chercheurs, dont certains que nous avons contactés, considèrent que l’exploitation des données par des algorithmes peut être combinée à des méthodes de recensement et de sondages plus anciens pour une meilleure analyse de l’opinion.
Une expérience de Big Data et d’intelligence artificielle à grande échelle
C’est dans cet état d’esprit, plus que par conversion absolue à l’intelligence artificielle, que nous avons voulu proposer une expérimentation à l’occasion des élections municipales 2020. Constatant que les datas ont encore été assez peu utilisées dans la prédiction de résultats électoraux en France et que la très grande majorité des tentatives s’est basée presque exclusivement sur une analyse d’opinion via les réseaux sociaux (des méthodes dites “d’Opinion mining”), nous avons cherché à explorer une nouvelle piste. Notre idée de départ : profiter d’un côté de l’important mouvement d’ouverture et de transparence effectué sur les données publiques (l’Open Data) ces dernières années et, de l’autre, du potentiel de traitement des algorithmes de machine learning pour se risquer au jeu des pronostics dans plusieurs milliers de villes. En injectant dans une machinerie ultra-moderne et sophistiquée des données décrivant les caractéristiques géographiques, démographiques, sociales et économiques de chaque commune française, peut-on prévoir le résultat d’une élection locale, au moins en termes de rapports de force ?
Les équipes de Linternaute.com, la cellule Open Data de CCMBenchmark Group et les équipes Data du groupe ont mis leurs compétences en commun pour répondre à cette question. Le résultat : un test grandeur nature visant à pronostiquer les grandes tendances des élections sur une échelle encore jamais atteinte, soit dans les 9000 villes de plus de 1000 habitants (voir notre méthodologie complète). Cette expérience de prédiction adopte un parti pris aussi radical que risqué : nous avons choisi de livrer, sans les trier ou les sélectionner, des dizaines de millions de données locales (structures de population, revenus, fiscalité, budget des communes, éducation, logement, transports, équipements, mais aussi résultats d’élections), à une intelligence artificielle. Une “boîte noire” dans laquelle un algorithme de machine learning décide des données pertinentes, sans droit de regard humain ou presque. Et comme notre démarche relève bel et bien du pari, les internautes sont invités à prendre part à ce jeu mathématique, informatique et statistique en essayant de battre le pronostic de la machine dans leur ville.
Découvrez le résultat de notre test dans la ville de votre choix et tentez de battre la machine :
Nos 9000 pronostics et ceux des internautes seront bien évidemment comparés aux résultats officiels des municipales. Ces derniers sont déjà disponibles depuis le 15 mars dans un peu plus de 7500 communes où une prédiction, le verdict global sera rendu le 28 juin. Mais avant cet angoissant couperet, reconnaissons-le dès à présent : notre démarche a ses limites, que nous assumons humblement. Notre objectif n’est pas ici d’afficher un taux de réussite de 100% de prédictions exactes. Notre expérimentation n’a évidemment pas la prétention d’atteindre la rigueur d’un sondage, d’une étude en sciences sociales ou politiques, aux méthodologies autrement plus académiques. Si elle s’inspire des études en sociologie électorale et emprunte à la data science, elle campe sur une approche simplissime, qui présuppose que les choix politiques d’une population sont directement reliés ou expliqués par la structure socio-démographique et économique de cette population, à son environnement et aux conditions dans lesquelles elle vit.
Dès 1913, André Siegfried(1), l’un des fondateurs de la sociologie électorale, estimait ainsi que les résultats des élections dans les départements de l’Ouest de la France au cours de la Troisième République étaient fortement impactés par… la nature géologique des sols. Plus récemment, l’informaticien Alex Pentland(2) a donné ses lettres de noblesse au concept de “physique sociale”, assurant que le Big Data permet aujourd’hui au scientifique de devenir “l’oeil de Dieu”. Une masse de données agrégées, sans aucune donnée privée, permettrait selon lui une compréhension réelle et complète du fonctionnement de la société.
Les limites de notre démarche
Au cours de l’élaboration du projet ElectionLab, nous avons dû faire face à de nombreux dilemmes que nous livrons ici dans une démarche de transparence. Tout d’abord, précisons que notre étude a été menée en amont de la campagne officielle et de la crise sanitaire qui a frappé le pays et qui a coupé le scrutin en deux tours éloignés de plus de trois mois. Nos prédictions ont aussi été établies avant la publication des listes officielles de candidats aux municipales par le ministère de l’Intérieur, et même avant la publication des fameuses “nuances politiques” qui ont tant fait polémique. Nous avons donc fait le choix d’afficher des résultats sur de grands agrégats, des regroupements de partis et de nuances en huit grandes familles politique (de l’ “extrême gauche” à l’ “extrême droite”). Le choix de ces regroupements n’a pas été une mince affaire et sera probablement contesté. Il devait cependant être fait et nous l’assumons.
Les autres limites ont trait à la nature des données que nous avons utilisées pour élaborer nos prédictions. Afin de “prédire l’avenir”, notre travail a consisté à faire ingérer à la machine des millions de données socio-démographiques, mais aussi l’historique de vote de chaque commune pour l’ensemble des élections françaises. Nous avons fait le choix de limiter ce corpus aux élections “récentes”, c’est-à-dire ayant eu lieu entre 2004 et 2019. Or aussi complètes-soient-elles, ces données ne reflètent qu’imparfaitement la recomposition profonde du paysage politique qui s’opère depuis quelques années en France. Comment par exemple modéliser l’essor de la République en marche, formation politique qui n’existait pas encore il y a quatre ans ? Comment tenir compte de l’effondrement du Parti socialiste, de l’affaiblissement des Républicains, de la montée des extrêmes, de l’émergence d’une mouvance politique liée aux gilets jaunes ?
L’utilisation de données publiques ouvertes (Open Data) dans notre projet relève par ailleurs au moins autant d’un choix que d’une contrainte. Ces données, disponibles pour la plupart via le portail Data.gouv.fr d’Etalab (le service du Premier ministre en charge de développer l’ouverture des données publiques), présentent l’avantage d’être autrement plus faciles à extraire que les données issues des réseaux sociaux. Des avis, réflexions et autres commentaires qu’il faut en outre analyser avec d’autant plus de précautions qu’ils sont la plupart du temps non chiffrés, volatiles et donc difficiles à traduire en opinions. L’autre intérêt des données publiques est qu’elles sont, comme leur nom l’indique, publiques. Aucune donnée personnelle n’a été exploitée dans le cadre de notre expérimentation. Enfin – et c’est sans doute l’argument le plus important -, les statistiques de l’Insee et de l’Etat sont les seules à fournir la granularité nécessaire pour chacune des quelques 35 000 communes de France. Ce qui les rend incontournables.
Une question de données d’entrée et d’expertise
Pour autant, si elle ne cesse de s’enrichir d’année en année, cette masse de données reste un “gruyère plein de trous”, de l’aveu même d’Emmanuel Raviart, ancien directeur technique d’Etalab. Ce dernier a récemment décrit une démarche de mise à disposition des données aussi longue que complexe(3). Un parcours du combattant, où les difficultés techniques cohabitent avec le principe de protection des données personnelles, les blocages politiques, voire administratifs. Les uns servant parfois de justification bien pratique aux autres… En conséquence, les chiffres exploitables sont souvent datés, incomplets, bref “peu profonds”. Ils manquent de ce que l’on appelle les “3V” : de volume, de vélocité et de variabilité, trois critères clés de l’analyse de données.
Le risque de donner de mauvaises données à la machine et donc, à l’arrivée, d’obtenir de mauvais résultats est bien connu en matière d’intelligence artificielle et même d’informatique en général (“garbage in, garbage out”). Les spécialistes que nous avons sollicités pour apporter un point de vue critique sur notre méthode ont plusieurs fois souligné que des données complémentaires, extraites de la presse ou de Twitter par exemple, auraient pu enrichir favorablement le modèle utilisé.
Le choix de laisser la machine trier les données, sans faire appel à un expert en sciences politiques pour les sélectionner au préalable, a lui aussi été discuté. Ce faisant, le danger est cette fois de renforcer le pouvoir de processus algorithmiques que les data-scientists eux-mêmes ne sont pas toujours en mesure d’expliquer, notamment à cause de la multiplication de couches propres aux réseaux de neurones (ou “hidden layers”). En clair, laisser la machine établir des corrélations et inférences est potentiellement porteur de biais.
Tous ces éléments sont évidemment à prendre en compte pour bien apprécier les résultats de cette première expérience de machine learning appliquée à grande échelle sur des élections. Ils sont aussi des pistes d’amélioration de nos algorithmes pour une prochaine expérience similaire. Et pourquoi pas – qui sait ? – en 2022.
Pour découvrir tous ces résultats et tenter de battre la machine au jeu des pronostics, utilisez le moteur de recherches ci-dessus.
(1) BUSSI Michel, LE DIGOL Christophe, VOILLOT Christophe (Dir.), “Le tableau politique de la France de l’Ouest d’André Siegfried : 100 ans après, héritages et postérités” (Presses universitaires de Rennes, 2016)
(2) PENTLAND Alex, “Social Physics : How Good Ideas Spread—The Lessons from a New Science” (Penguin Press, 2014)
(3) in LEJEUNE Yannick (dir.), “Big Fast Open Data” (FYP éditions 2014, Epita)