Par (son site)
L’épidémie de Covid19 a donné lieu à des centaines d’articles, de présentations et de débats autour des chiffres de l’épidémie. Les chiffres en question étaient de toutes sortes : nombre de cas, nombre de morts, taux de létalité, taux de reproduction du virus, pourcentage de la population touchée, proportion de cas asymptomatiques,… Les données et leur utilisation ont été au cœur de la gestion de cette épidémie. Ainsi nous avons (re)découvert les fonctions exponentielles – pour caractériser la diffusion du virus -, les échelles logarithmiques ou semi-logarithmiques – pour représenter l’évolution du nombre de cas -, les moyennes mobiles ou les dérivées – pour mieux appréhender les dynamiques de l’épidémie et les phénomènes d’accélération ou de décélération. De même nous avons pris connaissance de séries de données sur la mortalité comme celles publiées par l’INSEE, lu les prémisses des modèles qui ont incité à mettre en œuvre des politiques pour « aplatir la courbe », et donc à instaurer le confinement, ou découvert les analyses rétrospectives de dossiers médicaux, comme la désormais fameuse étude du Lancet sur l’hydroxychloroquine.
Sur la base de ces (analyses de) données des décisions extrêmement importantes ont pu être prises, avec des impacts colossaux sur les populations, leur santé, et plus largement sur nos sociétés. On peut penser par exemple à l’étude – controversée – de l’Imperial College de Londres qui aurait été le déclencheur de la décision de Boris Johnson d’instaurer le confinement au UK, ou des décisions d’arrêt des études sur l’hydroxychloroquine après la publication de l’article, rétracté depuis !, de Mehra and al publié dans le Lancet.
Pour les décideurs s’appuyer sur les chiffres permet de construire un discours qui se veut rationnel, neutre, objectivé : « regardez je m’appuie sur les éléments les plus irréfutables d’une approche scientifique : les chiffres ». Cela permet de désamorcer les critiques d’une part et de reporter le poids de la prise de décision sur les experts. Mais cette neutralité des chiffres est une illusion, car les données dont on parle sont des constructions sociales, avec à chaque fois des hypothèses implicites ou explicites fortes, et des modes de présentation qui peuvent changer totalement la perception et l’interprétation, et donc la prise de décision. Les chiffres sont produits, analysés, traités et communiqués par des individus et/ou des organisations avec une intention : se valoriser, répondre à une demande, influencer la prise de décision… Dans le cas « extrême » de productions scientifiques qui n’auraient aucune application « concrète », le processus de publication lui-même obéit à des logiques sociales (interaction avec les pairs, visibilité, construction d’une réputation..) qui ne sont pas neutres. Il faut donc déconstruire les données et plus encore la façon dont elles sont présentées.
Je vais prendre ici quelques exemples concrets :
– Le comptage du nombre des morts du coronavirus varie d’un pays à l’autre. Certains pays ont une tradition d’Etat Civil bien établie – dès le XVIème siècle pour la France , avec une comptabilisation rapide et précise des décès, notamment quant à leurs causes. On peut donc penser que le nombre de morts comptabilisés est vraiment proche du nombre de morts réelles liées à la Covid, même si la détermination de la cause du décès repose sur des choix différents d’un pays à l’autre, ce qui évidemment a une incidence sur la possibilité de faire des comparaisons. Ainsi l’Allemagne ne comptabilise pas les décès Covid de la même façon que la France. Dans d’autres pays cette comptabilisation est par ailleurs beaucoup plus aléatoire, avec parfois une tentation de manipulation et de minimisation des chiffres comme au Brésil. Dès lors on compare des chiffres qui ont l’air de décrire la même réalité mais qui en fait ne le font pas.
J’évoquais plus haut le modèle de l’Imperial College de Londres (ICL), qui a été initialement rendu public le 16 mars. Comme tout modèle il repose sur des hypothèses, qui peuvent être discutées et contestées. Dans le cas de l’Imperial College, la qualité du code (logiciel) du modèle lui-même a été remise en cause. D’autre part pour des épidémies antérieures (vache folle, grippe aviaire), les prévisions de ICL se sont révélées singulièrement alarmistes avec des rapports de 1 à 1000 entre le nombre maximal de morts envisagé par leurs prévisions et le nombre réel constaté par la suite. Dans le cas précis de l’épidémie de coronavirus l’ICL indiquait dans son rapport du 16/03 « In total, in an unmitigated epidemic, we would predict approximately 510,000 deaths in GB and 2.2 million in the US » (“sans mesures d’atténuation de l’épidémie nous prédisons 510 000 morts en Grande Bretagne et 2,2 Millions aux USA »). On peut voir là un souci de dramatisation pour pousser les Pouvoirs Publics à l’action.
Par ailleurs l’utilisation de fourchettes extrêmement larges dans ces prévisions rend au final toute utilisation des données impossible sans biais d’interprétation, par exemple en faisant jouer un « principe de précaution » maximal (« Ainsi, pour la maladie de la vache folle, l’étude correspondante notait que « l’intervalle de confiance à 95% pour la mortalité future due à la variante de la maladie de Creutzfeldt-Jakob est de 50 à 50 000 décès humains si l’on considère l’exposition à la seule ESB bovine, la limite supérieure passant à 150 000 si l’on tient compte de l’exposition au pire scénario d’ESB ovine ». Les 177 décès constatés entrent bien dans la fourchette très large évoquée par le chercheur britannique. Source Libération). Dès lors on voit bien qu’il aurait été tout autant possible de ne pas tenir compte de cette étude en raison des résultats des précédentes prédictions de l’ICL, mais c’est le choix inverse qui a été fait.
On peut d’ailleurs noter que l’Imperial College va sans doute encore faire parler de lui avec une étude qui indique que 3 millions de morts auraient été évités en Europe avec le confinement !, étude dont on pourrait se demander si elle n’a pas pour objectif de constituer une justification ex-post de leur modèle (« voyez, vous avez bien fait de confiner sur la base de nos prédictions, car sinon cela aura été la catastrophe »), les chiffres de morts étant heureusement très très inférieurs à leurs prédictions initales. Evidemment nous ne saurons jamais si leur modèle était juste ou farfelu.
Dans l’exemple ci-dessus nous sommes aux prises avec des modèles mathématiques complexes, peu accessibles, et donc pour lesquels le citoyen lambda va avoir du mal à juger de leur pertinence. En revanche dans d’autres cas les données sont simples et c’est bien leur présentation qui change tout. On a lu par exemple de nombreux articles sur la « réussite » de la gestion allemande de l’épidémie, en contraste avec les problèmes rencontrés en France, et qui ont été réels. Souvent la comparaison se faisait sur la base du nombre de morts – nous ferons l’hypothèse que les méthodes de comptage sont fiables dans les deux pays pour ne pas compliquer notre propos, en l’occurrence autour de 8700 à ce jour en Allemagne (mortalité de 103 / 1 000 000 habitants) et 29 200 en France (mortalité de 447 pour 1 000 000 habitants). Mais cet indicateur recouvre des disparités régionales très fortes. Par exemple à Paris le taux de mortalité est de 735 pour 1 million d’habitants et ce seulement pour les morts dans les hôpitaux (avec les EPHAD il serait plus élevé, sans doute autour de 1000), et de 946 dans le HautRhin. A l’opposé la Loire Atlantique est à 94, la Charente Maritime à 68, et la Haute Garonne à 41. Devons-nous en conclure que l’ouest de la France a mieux géré l’épidémie que l’Allemagne ? Ou devons-nous nous demander ce qui se serait passé si la réunion de l’Eglise Evangélique qui a eu lieu à Mulhouse, qui a été un cluster massif, avait eu lieu à Mullheim, à moins de 30km, mais en Allemagne ? On voit bien que la présentation des chiffres (nationaux ou régionaux) change fondamentalement le message que l’on veut faire passer.
Autre exemple :
un de mes contacts avait partagé une animation, avec un titre percutant. « Global Deaths Due to Various Causes and COVID19”. L‘animation est bien faite, spectaculaire, et on se dit la Covid est la cause de mortalité principale en 2020.. sauf que les causes de mortalité représentées ne correspondent qu’à 7% du total des morts en 2020 (c’est indiqué en bas en petit à gauche, comme dans les contrats d’assurance), et que certains chiffres par ailleurs sont sans doute faux, comme ceux de la malnutrition.
En fait si on prend la période décembre 2019/Juin 2020, soit depuis le début de l’épidémie, la Covid a fait 380 000 morts dans le monde soit environ 1,4% du total des morts sur la période (environ 58 millions de morts dans le monde par an, donc 29 millions sur 6 mois), bien moins que certains cancers, la tuberculose ou le diabète. Entre l’animation qui fait peur et la phrase « en phase épidémique ce coronavirus représente moins de 1,4% des morts dans le monde », il y a pour le moins un écart.
On retrouve d’ailleurs ce même « angle » de présentation spectaculaire dans un article du Monde sur la surmortalité en France, liée à la Covid. Cet article utilise lui-même une visualisation de l’INSEE. Que voit-on : un pic très net de mortalité entre le 1 mars et le 20 avril, directement lié à l’épidémie. Mon point est qu’il s’agit justement d’un pic ; j’ai fait le calcul précis du 1 janvier jusqu’au 18 mai de la mortalité en France. Si on comptabilise la mortalité en France depuis le 1 janvier 2020, on arrive au 18 mai à 305 570 décès. En comparant avec les chiffres 2018 (forte grippe saisonnière cette année-là), à la même date on arrive à 297 909 décès. Si on prend la période 1 janvier/18 mai pour les deux années la surmortalité en 2020 n’est donc plus que de 2,57%, ce qui là encore raconte une toute autre histoire que celle du pic. Il y a évidemment eu une surmortalité Covid, mais le laps de temps dans lequel elle est intégrée change là encore le message. Ce choix de l’intervalle de temps est une technique bien connue pour modifier la présentation de données. Elle est très appréciée des vendeurs de produits financiers, car on vous présente systématiquement la période où le rendement du placement est le meilleur, et, bizarrement, si vous prenez des bornes différentes le rendement n’est pas du tout le même.
Ce que j’ai essayé de dire ici c’est que les chiffres, les données, racontent (parfois) l’histoire qu’on veut leur faire raconter. C’est encore plus vrai avec ce qu’on appelle la « visualisation de données », qui présente sous forme graphique, donc souvent plus directe, plus attirante, les informations (je ne résiste pas néanmoins au plaisir de partager cette vidéo du maître en la matière Hans Rosling, car bien évidemment les chiffres sont utiles). En tant que citoyens, sur des sujets aussi importants que notre santé et la vie de nos sociétés il nous appartient donc d’être extrêmement vigilants sur la façon dont ils sont construits, présentés et utilisés. En un mot il ne faut pas faire une confiance aveugle aux chiffres, bien au contraire.
Source: Lire l'article complet de Les 7 du Québec