Publicité
Sciences

Repérer les fraudes en épidémiologie grâce au chiffre 1

10-06-2020

Pixabay

Repérer de la fraude simplement grâce à la surreprésentation du chiffre 1? Dans certains cas, c’est possible, si on se fie à une étrangeté mathématique qu’on retrouve dans des données de tous horizons.

Qu’ont en commun les données épidémiologiques de la COVID-19, la suite de Fibonacci, la luminosité d’étoiles et des revenus d’entreprises? Il ne s’agit pas d’une théorie du complot, mais plutôt un phénomène statistique surprenant : la loi de Benford.

Lorsqu’on choisit aléatoirement un nombre dans un ensemble de données, on peut intuitivement croire que les chances qu’il débute par n’importe quel chiffre entre 1 et 9 sont égales (11,11% c’est-à-dire 1/9). Mais en réalité, vous risquez de croiser beaucoup plus de nombres commençant par 1, 2 ou 3 que par 7, 8, ou 9.

En fait, dans beaucoup de cas (mais pas tous) les probabilités qu’un nombre tiré d’un ensemble de données aléatoires commence par le chiffre 1 sont de 30,1%, puis tombent à 17,6% pour le 2, à 12,5% pour le 3, jusqu’à un infime 4,6% pour le 9.

La loi de Benford surprend les chercheurs depuis presque 150 ans. « Le phénomène a été découvert deux fois dans l’histoire », explique Jean-François Cœurjolly, professeur au département de mathématiques de l’Université du Québec à Montréal.

« En 1881, l’astronome canado-américain Simon Newcomb avait remarqué que, dans les cahiers de tables de logarithmes qu’on utilisait à l’époque pour faire ces calculs, les pages des nombres commençant par 1 étaient beaucoup plus usées que les autres. »

L’astronome observe le même phénomène dans de nombreux autres ensembles de données, et établit la formule P(d)= log10 (1+1/d) où P est la probabilité qu’un chiffre d soit le premier dans un nombre choisi aléatoirement.

Son observation passera toutefois inaperçue et c’est en 1938 qu’un physicien du nom de Frank Benford fera le même cheminement, donnant la loi qui porte aujourd’hui son nom.

Cette loi a été observée dans plusieurs ensembles de données, allant de modèles économiques jusqu’à des phénomènes issus du monde de la physique ou de la biologie.

En 2010, des chercheurs ont même suggéré que la loi de Benford était observable dans des données aussi variées que la luminosité d’étoiles, la profondeur de tremblements de terre, la vitesse de rotation de pulsars ou le nombre de cas de différentes maladies infectieuses rapportées par l’OMS en 2007. D’autres données, tels que la masse de nouvelles exoplanètes, ne respectaient toutefois pas la loi de Benford.

« Cette loi ne s’applique pas à tous les ensembles de données, explique Jean-François Cœurjolly. On ne peut pas savoir à l’avance lesquels vont la suivre.» Les ensembles qui la respectent ont tout de même certaines caractéristiques communes : ils sont larges, variés, ne sont pas formés de valeurs arbitraires, comme la superficie de circonscriptions électorales, et leurs données sont souvent réparties sur une échelle logarithmique, ou transformées par des multiplications et des divisions.

Un soupçon, mais pas une preuve

Cette loi ne sert pas qu’à amuser les statisticiens. Elle été utilisée dans des contextes très variables, et peut même éveiller les soupçons sur la validité de certaines données.

« Dans les années 1970-80, le phénomène a été utilisé pour détecter des fraudes dans des bilans comptables, explique Jean-François Cœurjolly. Les fraudeurs changeaient souvent leurs données avec des chiffres comme les 5 ou les 6. Mais un écart à la loi de Benford ne veut pas dire qu’il y a eu fraude. Il est tout à fait possible qu’un ensemble de données qui y est assujetti s’en écarte, mais statistiquement, c’est plus rare. »

Parmi les domaines pouvant bénéficier de cette loi, on retrouve l’épidémiologie, où les données augmentent rapidement de manière exponentielle. L’explosion des cas de COVID-19 est un bon exemple. « Il y a beaucoup de questionnement autour de la valeur des informations venant de pays comme la Chine, par exemple, explique M. Cœurjolly. Puisque la loi de Benford a déjà été utilisée pour localiser des fraudes, on a décidé de la mettre à l’épreuve en comparant les données de plusieurs pays».

Dans une étude, présentement disponible en prépublication, le chercheur a suivi le nombre quotidien de cas et de décès liés à la COVID-19 rapporté en Chine, mais aussi au Canada, aux États-Unis, et en France. Ces données semblaient non seulement respecter la loi de Benford (on y retrouvait une surreprésentation des nombres commençant par 1 et 2), mais en plus, il n’y a aucune différence significative entre les quatre pays.

« À première vue, ces données ne permettent pas de soupçonner qu’un pays ait commis une fraude», explique le chercheur. Ce dernier spécifie toutefois qu’absence de soupçons ne veut pas dire absence de fraude. « Tricher en respectant cette loi tout en publiant ses données quotidiennement est difficile mais possible. Par exemple en divisant systématiquement toutes les données par 10, on reste avec une distribution respectant la loi de Benford, tout en diminuant leur valeur ».

Malgré le côté surprenant de la loi de Benford, il faudra donc plus que cette intrigante propriété statistique pour avoir l’heure juste sur la fiabilité des données recueillies en ces temps chaotiques.

Notre couverture de la pandémie est réalisé grâce à une contribution du Facebook Journalism Project.

Publicité

À lire aussi

Sciences

Un fossile dénisovien de 160 000 ans trouvé à 3200 m d’altitude

L'analyse d'une mâchoire révèle que les Dénisoviens avaient colonisé les plateaux tibétains il y a...160 000 ans!
Marine Corniou 02-05-2019
Les 10 découvertes de 2017

[6] Un marteau-piqueur pour déboucher les artères

Génie mécanique | Martin Brouillette - Université de Sherbrooke
Les 10 découvertes de 2016

Les découvertes de l’année dans le rétroviseur

Une minisérie s'intéresse à l'évolution des découvertes qui ont figuré dans le palmarès annuel de Québec Science.