On a voulu prédire les résultats des municipales avec l’IA…
Au début de l’année, Linternaute.com se lançait dans un projet un peu fou : tenter de pronostiquer les résultats des élections municipales non pas dans une ville, mais dans quelque 9000 communes de plus de 1000 habitants. Un objectif qui ne pouvait être atteint selon nous qu’en faisant appel aux datas et à la puissance des algorithmes. Le pari que nous avons initié avec ElectionLab se voulait avant tout expérimental : peut-on, en faisant appel à la data et à l’intelligence artificielle, prédire les résultats des élections au plus petit échelon local possible et avec la même fiabilité que des sondages basés sur le questionnement d’un échantillon représentatif de la population ? En d’autres termes, en analysant le plus finement possible des données démographiques ou socio-économiques d’une population et les résultats des précédents scrutins, peut-on déterminer la ou le vainqueur, ou tout au plus la liste ou la couleur gagnante d’une élection municipale ? Les équipes de Linternaute.com, la cellule Open Data de CCMBenchmark Group et les équipes Data du groupe ont mis leurs compétences en commun pour répondre à cette question.
En résumé, nous avons mobilisé pour ce projet 178 millions de données non-électorales (chômage, emploi, CSP, niveau de revenus, fiscalité, diplômes, âge etc.) ainsi que 1 million de données issues des résultats des élections depuis 2004 (européennes, municipales, régionales, départementales, présidentielle, législatives). Nos data scientists ont ensuite entraîné plusieurs algorithmes, selon des méthodes supervisées, pour leur permettre d’apprendre comment le premier jeu de données pouvait influencer le second. A partir de ces millions de data, un modèle de prédiction a été élaboré qui a ensuite été utilisé pour livrer une probabilité de victoire, en pourcentage, pour 8 familles politiques dans chacune des villes analysées.
Pas de miracle de l’intelligence artificielle
Plus de six mois plus tard et après une élection totalement chamboulée par la crise sanitaire du coronavirus, l’heure est désormais au verdict. Et il faut bien le reconnaître : la puissance de l’intelligence artificielle n’aura en rien préfiguré les résultats de ces élections, il faut le dire, si particulières. Échec retentissant du parti de la majorité, percée écologiste, résistance des partis hérités de l’ancien clivage gauche-droite… Les principales tendances nationales, certes fortement dictées par une abstention historique au premier comme au second tour, n’ont été que très partiellement anticipées par la machine.
Au global sur 9389 villes avec scrutins de liste pour lesquelles nous avions un pronostic, l’IA est parvenue à identifier la famille politique gagnante dans 2414 villes seulement, soit un taux de réussite de moins de 26%.
Les internautes, qui étaient invités à donner leur avis sur l’expérience en faisant leur propre pronostic dans 5282 villes, ont pour leur part identifié la bonne famille dans 1851 d’entre elles, soit un taux de réussite de 35,04%.
Découvrez le résultat de notre test dans la ville de votre choix :
Les pronostics ont-ils été meilleurs dans les grandes villes, les petites communes ou dans les villes moyennes ? Était-il plus facile de prédire les résultats au premier ou au second tour ? L’IA a-t-elle mieux anticipé la victoire de la droite, de la gauche, du centre, des écolos ? Voici les taux de réussite que nous pouvons décliner à l’issue de cette expérience inédite :
Critère |
Taux de réussite de l’IA |
Taux de réussite des internautes |
Taux de réussite dans les villes de + de 100 000 hab. |
66,67% |
80,95% |
… dans les villes de 50 000 à 99 999 hab. |
61,11% |
68,89% |
… dans les villes de 10 000 à 49 000 hab. |
54,92% |
61,63% |
… dans les villes de 5 000 à 9 999 hab. |
57,15% |
54,02% |
… dans les villes de 1 000 à 4 999 hab. |
16,23% |
19,81% |
|
|
|
… dans les villes où l’élection s’est achevée au 1er tour |
24,03% |
32,60% |
… dans les villes où l’élection s’est achevée au 2e tour |
35,77% |
42,76% |
|
|
|
… dans les villes où la droite l’emporte |
82,75% |
71,64% |
… dans les villes où la gauche l’emporte |
64,13% |
67,49% |
… dans les villes où le centre l’emporte |
14,47% |
20,00% |
… dans les villes où les écologistes l’emportent |
0,00% |
59,26% |
… dans les villes où l’extrême droite l’emporte |
14,29% |
64,29% |
… dans les villes où l’extrême gauche l’emporte |
4,55% |
28,57% |
… dans les villes où les divers l’emportent |
10,89% |
12,93% |
|
|
|
… dans les villes où l’IA avait pronostiqué une victoire de la droite |
19,08% |
– |
… dans les villes où l’IA avait pronostiqué une victoire de la gauche |
22,78% |
– |
… dans les villes où l’IA avait pronostiqué une victoire du centre |
11,34% |
– |
… dans les villes où l’IA avait pronostiqué une victoire des écologistes |
0,00% |
– |
… dans les villes où l’IA avait pronostiqué une victoire de l’extrême droite |
33,33% |
– |
… dans les villes où l’IA avait pronostiqué une victoire de l’extrême gauche |
10,53% |
– |
… dans les villes où l’IA avait pronostiqué une victoire des divers |
89,42% |
– |
|
|
|
… dans les villes où les internautes avaient pronostiqué une victoire de la droite |
– |
33,77% |
… dans les villes où les internautes avaient pronostiqué une victoire de la gauche |
– |
38,93% |
… dans les villes où les internautes avaient pronostiqué une victoire du centre |
– |
23,55% |
… dans les villes où les internautes avaient pronostiqué une victoire des écologistes |
– |
8,38% |
… dans les villes où les internautes avaient pronostiqué une victoire de l’extrême droite |
– |
4,57% |
… dans les villes où les internautes avaient pronostiqué une victoire de l’extrême gauche |
– |
4,96% |
… dans les villes où les internautes avaient pronostiqué une victoire des divers |
– |
77,59% |
|
|
|
Taux de réussite total |
25,71% |
35,04% |
Quels enseignements peut-on globalement tirer de ces statistiques ?
- Les taux de réussite de l’IA baissent lourdement à mesure que la taille des villes baisse. Le meilleur taux de réussite est en effet enregistré dans les grandes villes de plus de 100 000 habitants, avec près de deux tiers de pronostics fiables (66,67%), même si cette proportion est très inférieure au score des internautes (80,95% de réussite). En bout de course, le taux de réussite de l’IA chute en revanche à 16,23% pour les communes de 1000 à 5000 habitants. Pour ces mêmes “petites” communes, 19,81% des pronostics des internautes se sont révélés justes.
Un effet de volume peut ici être souligné : les très grandes villes sont peu nombreuses en France tandis que les plus petites communes se comptent par milliers. L’IA avait établi au départ des pronostics dans 42 villes de plus de 100 000 habitants (de Paris à Nancy), dont 28 se sont avérés exacts alors que 7184 pronostics ont été établis par l’IA dans le plus petit échelon de communes (seuls 1166 sont exacts).
- Dans les plus grandes villes de France, le bilan est néanmoins mitigé. A Paris, où le suspense était certes très limité, l’IA comme les internautes avaient anticipé avec justesse la victoire de la gauche incarnée par Anne Hidalgo, mais à Marseille, c’est la droite qui était donnée gagnante dans tous les pronostics et la victoire de Michèle Rubirola, qui s’est probablement jouée dans les toutes dernières semaines, a mis l’homme et la machine dos à dos. A Lyon, les algorithmes étaient parvenus à identifier la victoire de l’Union de la gauche (certes fortement teintée de vert), alors que les internautes se sont majoritairement trompés en donnant le centre gagnant. A Strasbourg et à Bordeaux c’est l’inverse : les internautes étaient bien plus proches de la réalité en donnant les écologistes vainqueurs quand l’IA avait anticipé une victoire de la droite. Les pronostics de l’IA comme des internautes sont corrects à Toulouse, Nice, Nantes, Montpellier, Lille, Rennes…
- Prédire la victoire s’est avéré encore plus difficile au premier tour qu’au second. Sur les quelque 8000 communes où l’élection s’est terminée dès le premier tour et pour lesquelles nous avions établi un pronostic, l’IA avait vu juste dans moins d’un quart des cas. Les pronostics des internautes, qui concernaient certes deux fois moins de villes, se sont révélés un peu plus fiables avec 32,60% de réussite dès le premier tour. Le second tour est à peine plus réussi : sur les 1342 villes restantes, l’IA n’avait trouvé le bon résultat que dans 35,77% des cas contre 42,76% pour les internautes…
- Les algorithmes se sont révélés incapables de prédire la poussée des écologistes avec un zéro pointé dans les villes où la couleur verte s’est imposée. Les taux de réussite sont aussi très faibles dans les villes remportées par le centre (14,5%), l’extrême droite (14,29%), les listes “divers” (10,89%) ou l’extrême gauche (4,55%). Du côté des internautes, la percée écolo a été bien mieux anticipée, avec 59,26% de réussite dans les villes remportées par les verts. Les internautes sont en revanche moins perspicaces dans les villes remportées par le centre (20% de réussite) et l’extrême gauche (28,57%).
- Notre IA serait-elle de droite ? En tout cas, c’est dans les villes où la droite l’emporte qu’elle affiche le meilleur taux de réussite (82,75%). C’est d’ailleurs l’un des rares cas de figure où elle s’est avérée plus perspicace que les internautes, qui affichent 71,64% de réussite dans ces mêmes villes. Le taux de réussite de l’intelligence artificielle est au-dessus de la moyenne également dans les villes où la gauche l’a emporté (64,13%). Mais dans ces villes de gauche, la machine est déjà dépassée (de peu) par les internautes et pour toutes les autres sensibilités gagnantes, l’IA est sous les 15% de réussite…
- L’intelligence artificielle a justement été trop “généreuse” avec la droite, ce qui explique sans doute qu’elle parvienne à deviner la victoire de cette nuance dans près de 83% des villes où elle l’a emporté le 28 juin. Si on se base cette fois, non pas sur la liste arrivée gagnante à l’arrivée, mais sur la liste donnée gagnante au départ dans les pronostics, le constat est en effet cruel : dans les villes où l’IA avait pronostiqué une victoire de la droite, on s’aperçoit qu’en réalité, plus de 8 fois sur 10, c’est une autre couleur qui l’a emporté… Pour le centre et l’extrême gauche, c’est encore pire : près de 9 fois sur 10, ce n’est pas une nuance centriste qui l’emporte. Les pronostics en faveur de la gauche et la droite sont à peine meilleurs (19,08% et 22,78% de réussite). L’IA semble beaucoup plus fiable en revanche pour pronostiquer la victoire des listes… “divers”, avec un taux de réussite de 89,42%.
- Comme notre IA, les internautes ont globalement eu tendance à surestimer l’extrême gauche et l’extrême droite (respectivement 4,96% et 4,57% de pronostics de victoire exacts). Ils ont eu nettement plus de facilité à anticiper la victoire des listes divers eux aussi : 77,59% de pronostics donnant une liste “divers” vainqueure se sont révélés exacts à l’arrivée. Tous les autres taux de réussite sont sous les 50% (33,77% de réussite quand la droite était donnée gagnante, 38,93% pour la gauche, 23,55% pour le centre…).
Pourquoi les algorithmes se trompent
L’intelligence artificielle n’a ni ambition, ni ego. On peut donc prononcer le verdict sans risque de la froisser : ses pronostics ont été en décalage complet avec les résultats de ces élections municipales. Avec une connaissance un peu plus fine du paysage et du contexte électoral, l’homme a même battu la machine de peu.
On peut incriminer l’intelligence artificielle en elle-même, mais il est d’abord bon de rappeler que les données fournies et les algorithmes mis en place l’ont été avant tout selon une série de contraintes et de choix “humains” que nous assumons pleinement. Les pronostics ont, en premier lieu, été établis sur une base de nuances politiques (droite, gauche, centre etc.) établie avant même la publication des candidatures. Ces nuances, sans doute trop floues, y compris pour les internautes, ne reflétaient probablement pas avec suffisamment de finesse les listes candidates, comme ces nombreuses listes de droite soutenues par La République en Marche ou ces candidats écologistes soutenus par le Parti socialiste ou l’ « Union de la gauche ».
Notre analyse, qui portait sur des données structurelles, figées et parfois datées comme nous l’expliquions en amont du projet, écartait de fait la campagne menée dans chaque ville, avec ses actualités, ses débats et ses soubresauts (comme l’affaire Griveaux en a été une illustration à Paris par exemple). Nous avions ainsi fait sciemment l’économie d’une analyse de l’opinion et de son évolution, comme c’est souvent le cas dans ce genre d’expérience par le biais de data mining et d’analyse de sentiment dans les medias et sur les réseaux sociaux. Une prise de température qui a certainement manqué, reconnaissons-le, dans le verdict final. Et qui explique très probablement le meilleur résultat des internautes sur ce point précis.
Des données datées qui ne reflètent pas l’émergence des tendances politiques récentes ont donc pu entraîner un phénomène de sur-apprentissage (ou overfitting), en bon langage de spécialiste, empêchant l’algorithme d’identifier les corrélations pertinentes. Le choix de laisser la machine trier ces données, avec une supervision minimale, sans faire appel à un expert en sciences politiques par exemple pour les sélectionner au préalable, avait lui aussi été très discuté. Il était pourtant assumé, notre volonté étant de tester le réel potentiel d’apprentissage de l’IA sans introduire de biais ou orienter son pronostic.
Ces écueils, qui avaient été identifiés dès le début de ce projet, peuvent se résumer en une maxime bien connue dans le domaine de l’intelligence artificielle : donnez de mauvaises données à la machine et vous aurez de mauvais résultats (“garbage in, garbage out”). C’est sans doute ce qu’il faudra retenir de cette première expérience de machine learning appliquée à grande échelle sur des élections. Et c’est peut-être aussi ce qu’il faudra corriger si une expérience similaire était renouvelée dans un peu moins de deux ans.