En matière de statistiques, je viens de prendre une grosse claque. J’ai lu il y a quelques semaines un article scientifique que je ne connaissais pas, et ce dernier est en train de modifier radicalement mon opinion sur pas mal d’études scientifiques basées sur des analyses statistiques.

Aujourd’hui on va parler de facteurs de confusion, et notez que même si vous êtes déjà versé en stats, lisez quand même : ça pourrait vous étonner.

En bref : je vais maintenant avoir beaucoup de mal à accorder du crédit à toute étude  observationnelle qui prétend « avoir contrôlé les facteurs de confusion ».

Voyons de quoi il retourne avec un petit exemple fictif.

Champagne et espérance de vie

Imaginons que vous souhaitiez étudier l’impact de la consommation de champagne sur l’espérance de vie. Vous prenez un registre de décès récents, et supposons que pour chaque personne vous ayez (1) l’âge de sa mort, et (2) une estimation de sa consommation moyenne de champagne (en nombre de verres par an). Disons que vous avez 300 personnes dans votre base de données, donc un échantillon qui commence à être pas mal.

Vous tracez sur un graphique l’âge du décès et la consommation de champagne, et voici ce que vous obtenez.

Manifestement il y a un lien ! Plus on boit de champagne, plus on vit vieux. Génial. Je peux même quantifier ça plus précisément en faisant la régression linéaire et en calculant la corrélation.

On a \(R^2= 0.22\), et en plus c’est super significatif puisqu’on a \(p=10^{-17}\). Je suis très largement au-delà des seuils nécessaires, je vais pouvoir publier ma formidable découverte : le champagne augmente l’espérance de vie !

Sauf qu’il y a une entourloupe. Si vous êtes habitué aux études statistiques — ou simplement que vous réfléchissez un peu à la question — vous verrez certainement le souci. Ca n’est pas parce qu’il y a une corrélation entre champagne et âge de décès qu’il y a un véritable lien de cause à effet. Et ici on peut légitimement supposer que ce qui brouille le raisonnement,  c’est le niveau de vie des personnes.

Comme le champagne c’est pas donné, on se doute bien que les plus riches vont pouvoir boire plus de champagne. D’un autre côté, on sait bien que le niveau de vie d’une personne va aussi avoir un impact sur son espérance de vie : les personnes les plus riches ont un meilleur accès aux soins, des métiers moins pénibles physiquement, etc.

Donc la corrélation que l’on observe entre champagne et espérance de vie est possiblement due à cela. Imaginons que dans nos données, on dispose justement d’une mesure du niveau de vie. On peut alors vérifier son impact à la fois sur la consommation de champagne et l’âge du décès. Voici les graphiques correspondants (je rappelle toujours que mon exemple est fictif)

C’est très clair. Les plus riches boivent plus de champagne et vivent plus longtemps. On peut donc avoir l’impression que le champagne prolonge la vie, mais ça n’est pas nécessairement le cas. Le niveau de vie agit comme un facteur de confusion. 

De façon générale, c’est ce qui se produit quand on observe une corrélation entre X et Y, mais que à la fois X et Y sont eux-même influencés par Z.  On ne peut donc pas conclure directement à un lien de cause à effet. Et pourtant il pourrait quand même y en avoir un ! Il se pourrait qu’au-delà de l’effet « niveau de vie », le champagne ait quand même un impact sur l’espérance de vie.

On pourrait résumer ça avec un diagramme de ce genre

Comment savoir si le champagne a un effet résiduel sur l’espérance de vie, une fois pris en compte l’impact du niveau de vie ? Il existe des moyens d’essayer de le déterminer avec nos données.

Une option serait par exemple d’étudier l’effet au sein d’une tranche de niveau de vie suffisamment restreinte. On peut se limiter par exemple aux personnes ayant un niveau de vie compris entre 1800 et 1900 euros par mois, et voir si pour elles le champagne à un impact. Le problème de faire cela, c’est qu’on se limite énormément dans les données disponibles. Sur nos 300 points, il n’en resterait probablement qu’une vingtaine.

Pour éviter cet écueil, il existe une technique statistique : contrôler le facteur de confusion. En gros cela consiste à conserver toutes les données, mais d’abord soustraire l’impact du niveau de vie sur la consommation de champagne et l’espérance de vie; puis à voir si il reste alors un lien résiduel entre les deux. Si c’est le cas, cela signifierait que le champagne a un impact sur l’espérance de vie, même à niveau de vie identique.

C’est une technique ultra-classique en statistiques, qui est employée dans une grande majorité des études statistiques en épidémiologie, économétrie, etc. Avec un logiciel ou un package de statistiques, ça se fait très facilement. Et avec les données que je vous ai présentées, on trouve qu’en contrôlant par le niveau de vie, le lien apparent entre champagne et espérance de vie disparait complètement. La valeur p est de 0.57 (au lieu de \(10^{-17}\) !), autant dire que statistiquement il n’y a rien de rien. Sur ces données, le champagne n’augmente pas l’espérance de vie. La flèche rouge sur mon diagramme ci-dessus n’existe pas.

Dans cet exemple, ça marche très bien car j’ai moi-même fabriqué les données pour que ce soit le cas. J’ai fait en sorte que le lien entre champagne et âge de décès ne soit qu’une illusion causée par le niveau de vie. Pour chaque personne de mon échantillon, j’ai d’abord tiré aléatoirement un niveau de vie (gaussienne de moyenne 2000, écart-type 500), et j’ai choisi un niveau de champagne et un âge de décès qui dépend uniquement du niveau de vie, en ajoutant un bruit gaussien. Mais tout ça sans que l’âge de décès n’ait de dépendance explicite dans la consommation de champagne.

Pour ceux qui parlent Python, voici les lignes de code utilisées pour créer les données

np.random.seed(42)
N = 300

# Niveau de vie
z = 2000 + 500 * randn(N)

# Champagne et espérance de vie
x = 0 + 0.01 * z + 5 * randn(N)
y = 75 + 0.005 * z + 2.5 * randn(N)

On voit dans les formules ci-dessus que le champagne X et l’âge de décès Y sont construites pour ne dépendre que du niveau de vie Z (avec un bruit gaussien ajouté). Mais il n’y a pas de dépendance directe entre les deux. Et c’est donc normal qu’en contrôlant par le niveau de vie, la corrélation disparaisse. Les données étaient faites pour, et la technique de contrôle du facteur de confusion Z fonctionne donc parfaitement.

Mais il y a un hic…

Le problème du bruit

Dans mon exemple précédent, j’ai utilisé le niveau de vie comme facteur de confusion, puis j’ai supposé qu’on disposait de sa valeur précise dans nos données, ce qui nous a permis de le « contrôler ». Mais ce qu’il se produit souvent, c’est qu’on ne dispose que d’une approximation du facteur de confusion. Dans notre cas, plutôt que le niveau de vie « exact », cela pourrait être simplement la catégorie socio-professionnelle. Ou bien un revenu déclaratif ou fiscal qui ne reflète pas complètement le véritable niveau de vie. Ou bien simplement une catégorisation en quelques tranches de revenus.

Dans les études statistiques observationnelles, même si on a bien identifié un facteur de confusion (comme le niveau de vie), on n’a rarement accès à sa « vraie » valeur, mais seulement à une sorte de proxy. Supposons qu’au lieu du « niveau de vie », on ait quelque chose qui soit un revenu mensuel déclaré, et que ce dernier soit une version bruitée du niveau de vie réel. Voici ce que j’ai pris.

# Revenus observés
z_obs = z + 500 * np.random.randn(N)

J’ai ajouté un bruit gaussien mais vous voyez que la corrélation entre les deux reste excellente. En d’autres termes, même si je n’ai pas accès au niveau de vie « réel », avec mon revenu déclaré, je dispose d’un très bon proxy pour celui-ci. Et quand on va faire l’analyse, même si on ne dispose pas du « vrai » niveau de vie, on va pouvoir faire le travail de contrôle avec ce proxy.

Et là…patatras ! Avant, le lien champagne/espérance de vie disparaissait en contrôlant par le facteur de confusion, mais maintenant, le lien subsiste ! Quand je contrôle avec ce proxy, je trouve qu’il reste une corrélation résiduelle entre la consommation de champagne et l’espérance de vie : \(R^2=0.31\)., et avec une valeur p qui reste excellente de surcroit, puisque \(p=10^{-7}\). Donc c’est largement publiable comme résultat ! « Le champagne augmente l’espérance de vie, même en ayant contrôlé par le niveau de vie »

Et pourtant souvenez vous que j’ai fabriqué moi-même les données, et qu’il n’existe en réalité aucun lien direct entre champagne et âge de décès. Cette corrélation résiduelle que j’observe est donc un artéfact statistique, lié au fait que j’ai contrôlé par un proxy plutôt que par le « vrai » facteur de confusion intrinsèque. D’une certaine façon, le facteur de confusion « déborde » et vient entâcher l’analyse, même si on a essayé de le contrôler.

Ici, malgré la valeur p très faible, on commet ce qu’on appelle en statistique une erreur de type I : on trouve un effet là où il n’y en a pas en réalité (c’est un « faux positif »).

L’ennui, c’est que ce qu’il vient de se passer ici n’est pas spécifique au jeu de données que j’ai créé. C’est un phénomène qui semble très général, et qui potentiellement se produit dès que l’on contrôle par un facteur de confusion bruité plutôt que par le « vrai » facteur de confusion.

Ce phénomène de faux positif additionnel est donc l’objet de cet article que j’ai lu récemment, qui m’a complètement chamboulé, et dont le titre est assez clair

Westfall, J., & Yarkoni, T. (2016). Statistically controlling for confounding constructs is harder than you think. PloS one, 11(3), e0152719. https://doi.org/10.1371/journal.pone.0152719

Un peu de simulation

Pour essayer de voir dans quelle mesure le problème soulevé ici est grave, et à quel point il risque de se produire fréquemment, on peut faire des simulations et voir l’impact des différents paramètres en jeu. Je vais montrer mes propres simulations qui s’inspirent de ce qu’il y a dans le papier, bien que ce dernier soit bien plus fourni.

Il y a essentiellement trois facteurs importants qui peuvent avoir un impact sur la probabilité de ces erreurs de type I :

  • L’importance du facteur de confusion;
  • La fiabilitié du proxy dont on dispose pour ce facteur de confusion;
  • Et bien sûr la taille de l’échantillon.

On va modéliser tout ça et faire des simulations. On va prendre un échantillon de taille \(N\), un facteur de confusion « vrai » \(Z\) qui est une distribution normale, et des variables \(X,Y\) qui sont égale à \(Z\) auquel on ajoute des bruits gaussiens d’écart-type \(\sigma_{XY}\). Et enfin on va considérer que l’on n’observe pas \(Z\) mais uniquement le proxy \(Z_{obs}\) qui est égal à \(Z\) auquel on ajoute un bruit gaussien d’écart-type \(\sigma_Z\).

z = randn(N)
x = z + sigma_xy * randn(N)
y = z + sigma_xy * randn(N)
z_obs = z + sigma_z * randn(N)
df = pd.DataFrame({'x':x, 'y':y, 'z':z, 'z_obs':z_obs})

L’importance du facteur de confusion est contrôlée par \(\sigma_{XY}\) : plus il est faible, plus le facteur de confusion est important. La fiabilité du proxy est contrôlée par \(\sigma_Z\) : plus il est faible, plus le proxy est une approximation fiable du vrai facteur de confusion Z. (Notez qu’on pourrait prendre des dépendances affines pour X, Y et Z_obs en fonction de Z, mais qu’on peut s’en passer sans perte de généralité)

Il suffit ensuite de calculer la valeur p obtenue en contrôlant par le facteur de confusion « observé »

smf.ols("y ~ z_obs + x",data=df).fit().pvalues['x']

En pratique, les données « champagne » que j’ai générées plus haut correspondent à un cas où \(\sigma_{XY} = 1\) (donc un facteur de confusion assez important comme on l’a vu sur les graphiques)  et \(\sigma_Z = 1\), un proxy assez fiable.

Mais on peut se demander ce qu’il se passe quand on fait varier ces paramètres. J’ai fait des simulations Monte-Carlo, et voici ce qu’on obtient comme risque de faux positif, en se fixant le classique seuil à \(p<0.05\).

Comme vous pouvez le voir, les conclusions sont terribles. Le risque de faux positif est énorme dans presque toutes les configurations. Et même dans les cas les plus favorable (\(\sigma_{XY}\) élevé — donc facteur de confusion faible — et \(\sigma_Z\) faible — donc proxy très fiable), le risque de faux positif  est important, et il grimpe très vite au-dessus des 5% auxquels ont s’attendrait normalement avec un seuil à \(p=0.05\).

Mon exemple « champagne » était pour \(\sigma_{XY}=1\) (donc la courbe verte) avec \(\sigma_z=1\). Vous voyez que ça correspond à un risque de faux positif de 100 % ! Je peux regénérer plein de fois des données sur le même schéma, ça va toujours marcher !

Intuitivement on pourrait penser que — comment souvent en statistiques — ce phénomène de faux positif sera éliminé en prenant des échantillons plus importants. Voici le même graphique pour \(N=3000\), donc avec 10 fois plus de données.

Vous n’avez pas la berlue : quand on augmente la taille de l’échantillon, la situation est encore pire ! Plus l’échantillon est grand, plus le risque est important qu’un facteur de confusion mal contrôlé « déborde ». Plus l’échantillon est petit, plus l’effet que vous recherchez sera difficile à mettre en évidence, mais plus faible sera le risque que le facteur de confusion vienne y mettre la pagaille.

Oui je sais, c’est extrêmement perturbant. Voici la version avec N=100 pour en avoir le coeur net, on voit que la situation est un chouilla meilleure qu’avec N=300.

Les résultats du papier

Ci-dessus, j’ai présenté mes simulations. Je ne vous cache pas qu’en lisant le papier, j’ai trouvé les résultats tellement incroyables que j’ai eu besoin de faire ma propre analyse pour me convaincre que le phénomène était réel.

En pratique le papier présente des simulations plus sophistiquées mais essentiellement analogues. Voici un tableau qui en est extrait.

ES(r) représente la corrélation entre X/Y et Z (donc la force du facteur de confusion), et reliability représente la fiabilité du proxy (c’est la variance de \(Z\) sur celle de \(Z_{obs}\), donc \(1/(1+\sigma_z^2)\) avec mes données). On voit que les ordres de grandeur sont analogues, et que le phénomène empire effectivement avec l’augmentation de la taille de l’échantillon. Pour des échantillons de 30000, même un facteur de confusion faible et un proxy très fiable conduisent à un risque de faux positif énorme.

Que conclure de tout celà ?

En soi l’idée que « contrôler les facteurs de confusion est difficile » n’est pas nouvelle. Plusieurs références citées dans le papier le mentionnent déjà (ici, , ). Mais c’est la première fois que je le vois démontré avec autant de simplicité sur un cas aussi « pur » (c’est littéralement quelques lignes de Python), et avec une quantification par simulation Monte Carlo du risque additionnel d’erreur de type I.

D’ailleurs il semblerait que le papier ait eu un certain echo : 357 citations en 5 ans d’après Google Scholar.

J’ai l’impression que le petit exercice de simulation que je viens de réaliser devrait faire partie d’un cours de statistiques élémentaire : dès que l’on étudie cette notion de « contrôler par un facteur de confusion », on devrait faire cette expérience numérique pour prendre la mesure de la situation.

Cela ne fait que quelques semaines que j’ai découvert ce résultat. Peut-être ai-je besoin de mieux le comprendre et le digérer, et si vous voyez des failles dans mon raisonnement, je suis preneur. Mais à ce stade je trouve les conclusions absolument catastrophiques. J’ai l’impression qu’une majorité des études observationnelles que j’ai pu lire sont probablement entachées par ce phénomène, et ce d’une façon bien plus importante que les biais de publication auxquels on pense usuellement.

Les auteurs de l’article semblent au moins aussi catégoriques

We do not think it is alarmist to suggest that many, and perhaps most, incremental validity claims put forward in the social sciences to date have not been adequately supported by empirical evidence, and run a high risk of spuriousness.

(incremental validity claim = affirmer que X joue sur Y, même après avoir contrôlé pour Z).

A noter que les auteurs mentionnent explicitement les sciences sociales (ils sont dans un département de psychologie), mais la conclusion est également valide pour les autres champs qui font un usage important des études observationnelles, notamment en épidémiologie, économétrie, etc.

Comme vous le savez peut-être, en principe l’arme absolue pour contrôler les facteurs de confusion, ce sont les études « randomisées ». Faut-il dès lors jeter toutes les études qui ne font pas du randomisé ? Il me semble qu’à partir du moment où (1) Il y a un facteur de confusion évident (du type « le niveau de vie »); et (2) La taille d’effet « après contrôle » est de toute façon modeste, alors oui on devrait prendre les résultats des études observationnelles avec encore plus de scepticisme.

D’un point de vue de la recherche scientifique, une façon de s’en prémunir en partie, ce serait d’exiger des valeurs p encore plus stringentes (disons p < 0.001 au minimum) associées à des tailles d’effet suffisantes. Mais je ne sais même pas si ça suffit. Sur mon exemple « champagne », j’avais quand même \(R^2=0.3\) et \(p=10^{-7}\) et pourtant c’était un faux positif !

Les auteurs du papier recommendent des méthodes d’analyse spécifiques (Structural Equation Modeling) et fournissent un exemple. Mais j’avoue que j’ai un peu du mal à juger de la portée du truc.

Dans tous les cas, à partir de ce jour, chaque fois que je lirai la moindre étude observationnelle mettant en évidence un effet « après avoir contrôlé les facteurs de confusion », je ne pourrai pas m’empêcher de la prendre avec des *énormes* pincettes.

Bonus

De mon côté, j’essayerai peut-être quelques variations sur les simulations : plusieurs facteurs de confusion, quelques effets légèrement non-linéaires, un peu d’hétéroscédatiscité, ou bien transformer un facteur de confusion « vrai » en un proxy catégorisé, pour voir l’impact que ça peut avoir.

Si vous voulez jouer avec mon code, je vous mets ça sur mon GitHub https://github.com/scienceetonnante

Petit complément biblio que je ne savais pas où caser : mon exemple champagne/espérance de vie était fictif à bien des égards, vous l’aurez compris. La consommation de champagne n’est certainement pas une gaussienne ! Vous aurez aussi peut-être noté que par souci de simplification je mélange allègrement « âge de décès » et « espérance de vie ».  Mais pour des vraies données sur l’espérance de vie et le niveau de vie, voir ici par exemple pour les USA, ou ici pour la France. On voit typiquement un écart d’environ 10 ans entre le décile le plus riche et le décile le plus pauvre. 

65 Comments

  1. Bonjour!
    Super post ! En effet, j’ai l’impression qu’il faut encore et toujours plus de prudence lors des conclusions.
    J’aurais une petite question : comment savez-vous que le niveau de vie n’est pas un « proxy » d’un autre facteur de confusion ? Comment sait-on qu’un facteur est un proxy ou le « vrai » facteur de confusion ?
    Encore merci pour votre billet de blog et bonne continuation !

    • Ici c’est un cas fabriqué pour qu’il y ait un « vrai » facteur de confusion, mais de façon générale cette notion n’a pas de sens mathématique précis je pense (sauf peut-être si on fait un modèle causal à la Judea Pearl ?)
      Ce que les auteurs distinguent, c’est d’un côté le « concept » (construct) par lequel on voudrait contrôler (« le niveau de vie »), et les données dont on dispose pour quantifier ce concept.

  2. Pour ajouter à la confusion, une autre cause potentielle : plus on est âgé, plus on est invité à de nombreuses fêtes familiales dépendants de la date de naissance des descendants (naissance, mariage, décès, cérémonie religieuse etc.)
    Finalement deux petits exemples de confusion que j’aime bien:
    – La corrélation entre les décès des personnes âgées et l’importance des particules fines dans l’air où la confusion résulte du fait que les personnes âgées décèdent plus en hiver (infections saisonnières) et que les systèmes de chauffage rejetant des particules fines sont également plus utilisés en hiver.
    – Le gène du chômage aux US : il y a une corrélation entre une poignée de gènes très spécifiques et le chômage. Ce sont bien sûr les gènes qui encode l’expression de la mélanine et qui reflète la précarité des populations black.

  3. abel aussant Reply

    Bonjour David,

    Merci pour cet article et pour la référence du papier. Je suis étudiant dans le master de statistique appliquées au SHS de l’ENS, nos enseignant n’ont de cesse de nous mettre en garde à propos de l’impossibilité de mettre en évidence des liens de causes à effet dans les études observationnelles. Je n’avais pas entendu parler du phénomène spécifique soulevé par le papier, mais au delà de ça : 1. il apparait souvent particulièrement malaisé d’isoler TOUS les facteurs de confusion 2. il existe la plupart du temps des effets d’interactions entre les facteurs de confusions qui complique l’analyse et vient parfois inverser des effets (par exemple : l’effet du niveau de vie peut être positif sur l’espérance de vie chez les femmes mais négatifs chez les hommes) 3. dans de nombreux cas, il est impossible de déterminer a priori le sens de la causalité (par exemple : est-ce que je bois du champagne parce que je suis riche ou est-ce que je suis riche parce que je bois du champagne).
    Toutes ces raisons, en plus de celles que vous nous avez exposé ici, amène le statisticien rigoureux à penser que les statistiques inférentielles (type régression) ne sont qu’une étape préliminaire du raisonnement. Elles ne peuvent se suffirent à elles même pour la mise en évidence de liens causaux. Certains sociologue quantitativistes (rigoureux) savent généralement faire preuve de cette parcimonie interprétative, c’est plus rare en économétrie, ce qui alimente la scission entre ces deux disciplines, pourtant si proche dans leurs objets.

    • Complètement d’accord ! Après ma crainte vient du fait que souvent les stats du type « régression avec contrôle simple des facteurs de confusion » semblent souvent à la base de pas mal de papiers.

  4. les études observationnelles ne valent rien pour évaluer l’efficacité d’un médicament; toute l’histoire de la médecine est remplie d’interventions extraordinaires sur études observationnelles qui se sont révélées catastrophiques en essai randomisé. même pour l’étude des effets indésirables c’est mauvais à moins que le risque soit très élevé et facile à coder.

  5. Maxime Perona Reply

    Bonjour,
    Super article ! Le phénomène m’était inconnu et la simulation que vous avez donné pour mettre cette étrangeté en lumière est très bien présentée.
    Je me suis tout de suite posé une question, comme le sujet relève de l’invraisemblance : que se passe-t’il lorsqu’on a plusieurs proxies, d’abord de qualité toujours équivalents, puis aussi lorsqu’un tous les proxies sont très fidèles sauf un seul (disons sigma z de 0.05 pour les fiables et 0.2 pour l’autre), est-ce que ça agit en mieux ou en pire, et si en pire, à quel point ?

  6. Hervé Le Bars Reply

    Intéressant article.
    Dans certains domaines, il y a une grande incertitude sur les données primaires elles-mêmes. Pour le cas du champagne et l’espérance de vie, ça pourrait être l’évaluation de la consommation de champagne qui pourrait être bruitée, par exemple.

    Du coup, je me demande quel effet présente davantage de risque d’erreur dans les études observationnelles : l’effet présenté dans cet intéressant article ou bien l’effet plus ordinaire lié à l’incertitude sur les données de base ?

  7. Merci pour ce post très intéressant !

    Je voudrais juste dire qu’ici le résultat du test statistique est trompeur parce que le modèle est faux (on fait comme si le facteur de confusion n’est pas bruité alors qu’il l’est). Il est possible d’avoir un modèle prenant en compte les incertitudes sur toutes les données. Dans un autre registre, c’est ce qui est fait dans l’analyse de données pour la détection d’exoplanète par vitesses radiales. Il est difficile de savoir si un signal statistiquement significatif est dû à une planète où à l’activité stellaire (des variations de spectres d’une région à l’autre de la surface de l’étoile). Pour atténuer ce problème, en plus des données de vitesses radiales, on calcule à partir des spectres de l’étoile des indicateurs d’activité, sensibles aux variations de l’étoile mais pas aux planètes. Ces indicateurs sont bruités, ce qui complique leur utilisation, mais grâce à, par exemple, des outils statistiques appelés processus gaussiens, on peut prendre en compte naturellement des incertitudes assez complexes sur l’ensemble des données (vitesses radiales + indicateurs d’activité). Bien sûr ces modèles sont aussi imparfaits, et on ne fait que repousser le problème un cran plus loin, mais il arrive que certains modèles soient suffisamment adéquats pour que les détections soient fiables (en tout cas les mesures suivantes les confirment). On peut toujours essayer plusieurs modèles de bruits pour voir si les résultats sont robustes.

    Le cas des exoplanètes est différent puisqu’on ne cherche pas à établir de lien entre l’activité de l’étoile et la vitesse radiale, mais simplement à corriger la nuisance. Cependant je pense qu’on peut utiliser des idées similaires pour le cas de mise en évidence de corrélations.

    Tout ça pour dire qu’il ne faut pas perdre espoir !

    • Merci pour les compléments (et l’espoir !). Mon désespoir viendrait plutôt du fait d’avoir l’impression d’avoir vu passer des tas de papiers qui traitent le truc en mode « on a contrôlé pour ça, ça et ça, ne vous inquiétez pas », alors que manifestement c’est insuffisant !

  8. Bonjour David,

    Merci pour ton article qui est très intéressant.
    Je suis biostatisticien venu de la biologie donc pas le meilleur pour les aspects théoriques. Cependant, j’ai déjà été exposé à ces problématiques, donc pour moi ça e semble pas tellement nouveau pour un stat.

    Petite aparté:
    Je pense que si ces thématiques t’ont intéressé, le travail de Judea Pearl t’intéressera forcément (je viens de voir dans un com par ailleurs que tu connais déjà, j’attend l’article de blog sur le sujet 🙂 ).

    Je me renseigne autour de moi pour voir s’il y a de la contre argumentation théorique.

    Mon contre argumentaire va plutôt se baser sur la « vie réelle ».
    C’est à dire poser la question :
    A quel point les études observationnelles que l’on réalise sont en accord avec les RCTs faites ensuite? Contrairement à ce que ton billet peut laisser penser, l’accord est globalement bon. Et ce n’est pas moi qui le dit, c’est des gens plutot crédible sur le coté RCT 🙂
    https://www.cochrane.org/MR000034/METHOD_comparing-effect-estimates-of-randomized-controlled-trials-and-observational-studies

    Ensuite il ne faut pas croire que l’on ne peut pas critiquer les RCTs elles mêmes. Je n’ai plus la source mais je peux retrouver: il y a des RCTs positives sur des médicaments. Et pourtant on abandonne ces médocs car on ne voit pas le bénéfice final à l’hopital. (je peux rechercher la source si besoin).
    Mon exemple caricatural pour les RCTs c’est les vaccins (je ne suis pas antivax… ça va de soi).
    Les RCT de vaccin (AZN je crois) avaient un critère d’exclusion: l’allergie. Pourtant quand ça a été autorisé on a vacciné des allergiques, même des allergiques sévères. Résultat (si je me souviens bien), on a eu 4 morts en UK.

    Autrement dit, les RCT peuvent créer des conditions qui sont tellement hors sol comparativement à l’utilisation finale réelle qu’une fois ramené dans le monde réelle (celui où les allergies existent) et bien les conclusions changent.

    Aparté:
    Dans le contexte actuel de shitstorm lié aux SHS, je tiens à faire remarqué une chose:
    On a pas mal d’articles de stats qui sont critiques envers les SHS, dans des papiers de SHS. Vous pourriez conclure que c’est parce que ça concerne plutôt les SHS. OU ALORS que eux, ils les laissent passer… C’est un peu comme le dopage, on en trouve là où on en cherche!!! (je ne suis pas dans les shs, et des trucs pété j’en vois… trop)

    En espérant que ça permette de tempérer un peu ton bouleversement 🙂

    Au plaisir.
    Alban

    • Merci de m’aider à tempérer mon bouleversement 🙂
      Oui je connais Judea Pearl, j’avais suivi certains de ses travaux quand je faisais des maths appliquées. Mais je n’ai jamais réussi à me convaincre que ce qu’il racontait ait un véritable écho dans la communauté, j’ai parfois cette impression qu’il prend des postures de génie incompris. Donc j’ai du mal à me rendre compte si les « pros » le prenne au sérieux ou pas.
      Intéressant le lien que tu donnes, peut-être que ça montre que les cas d’applications du papier (fort facteur de confusion, faible fiabilité du proxy) ne se produisent pas si souvent dans la vie réelle. J’imagine que les « vrais » facteurs de confusion ne sont peut-être pas si souvent aussi fort que ceux qui ont été testés ici ?
      Sur le fait que le papier émane justement d’une communauté SHS, en effet c’est plutôt bon signe quand à la « sanité » du domaine (peut-être lié aux crises de réplication ?)

  9. Bonjour,

    Un peu déprimant pour les personnes qui comme moi, cherchent à améliorer leurs compétences en lecture de publications, ainsi que la transmission de ces compétences à d’autres…

    Enfin bon, une relecture s’impose quand même pour bien assimiler tout ca, merci pour cet article!

  10. Bonjour,
    Merci pour cet article très intéressant. En dehors de ce qu’on peut en conclure sur la pertinence des études observationnelles, est-ce que votre exemple ne remet pas en cause l’utilisation de p comme validation de la corrélation ?

  11. Bonjour !

    Attention si le problème était aussi massif que vous semblez l’indiquer on aurait très souvent des résultats positifs dans les études. Par exemple si je prends cette méta-analyse qui étudie le lien entre exposition professionnelle à des pesticides et lymphomes non-hodgkiniens : https://academic.oup.com/ije/article/48/5/1519/5382278

    Prenons la table 2 qui effectue 232 tests, dans un modèle avec des ajustements, si je n’en ai pas raté seuls 3 tests sont positifs (pour le terbufos, la deltaméthrine et le glyphosate). Pourtant c’est une méta-analyse d’études observationnelles, et les pesticides sont une cause connue de lymphomes non-hodgkiniens et donc si les facteurs confondants ne sont pas bien pris en compte on devrait avoir plein de résultats positifs (car il y a des corrélations entre l’exposition à différents pesticides, pour autant si ces facteurs confondants sont mal pris en compte, ce sont tous ces pesticides corrélés qui devraient ressortir).

    Je pense qu’il faut être extrêmement prudent avec votre message de ne pas faire confiance aux études observationnelles. Il faut bien mesurer les conséquences d’un tel message. Cela voudrait dire passer sous silence le risque de la consommation de tel ou tel aliment, de l’exposition à telle ou telle substance ? Exit les risques de la viande rouge pour la santé ? Cela s’appuie sur des études observationnelles, avec des tailles d’effets relativement faibles. Résultat ? Près d’un million de morts dans le monde en 2017 (https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(20)32290-X/). D’ailleurs l’industrie du tabac avait un temps défendu l’idée qu’il ne fallait pas prendre en compte les résultats dont le risque relatif serait inférieur à 2. On voit bien l’intérêt que l’industrie a à défendre cela, mais cela ne va probablement pas dans le sens de l’intérêt collectif.

    Vous avez raison de pointer les limites dans la prise en compte des facteurs de confusion, mais il ne faut pas jeter le bébé avec l’eau du bain. Pour le dire autrement si tous les scientifiques qui utilisent ces corrections continuent à les utiliser c’est peut-être qu’elles ont malgré tout un intérêt, malgré leurs défauts, non ? Enfin il ne faut pas oublier que les études observationnelles ne sont pas prises seules pour conclure à une causalité mais d’autres éléments sont pris en compte. L’occasion de faire une vidéo sur les critères de Bradford Hill ?

    • Oui désolé si mon message paraissait un peu négatif. Disons que sur des études non-randomisées sans réplications, ça signifiera pour moi qu’il faudra des preuves encore plus convaincantes.
      (De mémoire le papier discute le cas de la viande rouge, d’ailleurs je n’ai pas trouvé où il en était question dans le lien que vous mentionnez).

  12. J’ai un peu joué avec la simulation et si je dois en déduire quelque chose au global c’est effectivement que contrôler les facteurs de confusion est difficile, mais surtout que c’est totalement insuffisant évidemment.

    Dans l’article tu dis bien
    « Le champagne augmente l’espérance de vie, même en ayant contrôlé par le niveau de vie »

    Evidemment c’est un abus de langage puisque ça sous-entend potentiellement une causalité alors que tout ce protocole ne cherche qu’à déterminer s’il y a une corrélation statistique. Et ce que ça nous dit c’est surtout qu’il faut contrôler les bons facteurs de confusion ce qui est infiniment difficile évidemment, surtout quand il y en a plusieurs et qu’il peut y avoir plein de corrélations linéaires ou non dans tous les sens.

    Si on prend sigma_z à 125, on a une erreur de 5% (100) sur l’observation de z, et on trouve que la corrélation contrôlée n’est pas significative. Si on prend sigma_z à 500, on a une erreur de 20% (400) et on trouve que la corrélation est significative, mais à ce niveau d’erreur la corrélation entre z_obs et x est moins importante qu’entre z et x, en gros notre z_obs n’est plus trop lié à x, mais l’est suffisamment pour qu’on pense que ça peut être un facteur de confusion (c’est pas pour autant que c’en est un). Si on doit aller au bout on pourrait prendre sigma_z à 4000, et on trouve toujours que la corrélation y / x est significative parce qu’évidemment notre facteur de confusion est mauvais.

    Mais du coup ça permet juste de se rappeler que pour contrôler les facteurs de confusion, il faut avoir de bons facteurs de confusion, sinon c’est aussi pertinent que de ne pas faire de contrôle.

    Corrélation =/= Causalité, mais du coup on a aussi:
    Corrélation significative avec mauvais facteurs de confusion contrôlés =/= causalité

    Et je rajouterai que même avec des bons facteurs de confusion il y a plein d’autres erreurs potentielles.

  13. Guillaume Bazot Reply

    Super ludique ! C’est vrai que le problème n’est pas nouveau, mais là c’est vraiment très parlant (en particulier l’effet de la taille de l’échantillon).

    En tout cas, ceci montre de manière exemplaire l’importance de la stratégie d’identification, qui certes n’élimine pas toujours le problème mais permet au moins d’ajouter un verrou supplémentaire. De fait, les études économétriques cherchent souvent à éviter cet écueil à partir de méthodes de moins en moins dépendantes des effets de contrôle (régressions en discontinuité, local average treatment effect, diff and diff, etc.). D’ailleurs, il est de plus en plus difficile de publier des articles empiriques dans des revues sérieuses d’économie sans une bonne stratégie d’identification. Les régressions simples ne servent donc plus que de point d’appui au raisonnement. (Cf. Angrist and Pischke, mostly harmless économetrics, ou G. Imbens : « better LATE than nothing »).

    Pour ce qui est des analyses ne pouvant se prémunir directement des effets de confusion (comme c’est souvent le cas en macroéconomie par exemple), il existe plusieurs méthodes. La plus simple regarde si le coefficient et sa p-value associée sont sensibles à l’ajout ou au retrait d’une ou plusieurs variables de contrôle (il serait d’ailleurs intéressant de faire ces mêmes simulations en prenant en compte cette contrainte). Pour les plus acharnés il y a aussi des méthodes bayésiennes de type Bayesian Model Averaging, qui aident à mesurer ce counfonding effect en calculant la probabilité qu’une variable soit inclus dans le modèle compte tenu de l’ensemble des variables potentielles retenues. Évidemment, ceci ne résout pas tout (d’autant plus que ces méthodes sont surtout utilisées dans les modèles de prévision) mais ça montre au moins une certaine volonté de prendre le problème au sérieux.

    • Merci pour ce complément ! C’est intéressant (et rassurant) de savoir que des méthodes plus robustes sont maintenant réclamées. Pour ma part j’avoue avoir l’impression d’avoir souvent lu des études où c’était « on a contrôlé pour tout le reste et voici ce qu’on trouve ».

      • Guillaume Bazot Reply

        Merci pour ce retour.

        Sincèrement, les travaux d’économie empirique publiés dans les revues scientifiques n’utilisant pas une des ces deux méthodes (stratégie d’identification et/ou sensibilité des coefs et de la p-value à l’ajout des contrôles) sont vraiment assez rares.

        J’ai oublié de mentionner l’excellent papier d’Emily Oster qui propose une méthode pour mesurer le problème encore plus délicat des variables omises non observables (« unobservable selection and coefficient stability: theory and validation »). Ça vaut vraiment le coup d’œil.

  14. Merci pour cet article éclairant!
    Faut-il en conclure selon vous qu’il faut abandonner l’outil statistique en sciences sociales, ou du moins le rétrograder sévèrement dans sa valeur de preuve?
    Car même avec un proxy suffisament fin pour éviter l’écueil, rien ne permet de dire d’un point de vue mathématique que l’on a identifié tous les facteurs de confusion. On pourrait imaginer, toujours dans l’exemple du champagne, qu’il existe 10 autres facteurs cachés de perturbation des données. Ou même que ce facteur de confusion du niveau de vie est lui-même fonction d’un autre facteur plus décisif, ou encore que la corrélation est fortuite.
    Ce qui nous laisse à l’arrivée avec une responsabilité entière du chercheur dans les liens de causalité qu’il établit, dans lesquelles ses propres conceptions (ici l’intuition simple qu’un produit luxueux est plus consommé par des gens avec un niveau de vie plus élevé) sont centrales, en présumant qu’il a bien identifié tous les perturbateurs importants.
    Je serais extrêmement curieux du résultat d’un travail de recherche consistant à proposer sciemment des rapports de cause à effet aléatoires, puis d’en chercher la « preuve » statistique à partir de données disponibles authentiques simplement en « réglant » au bon calibre la granularité des données, la considération des facteurs de confusion, le bruit, etc. Pourrait-on démontrer que tout est démontrable statistiquement?

  15. la conclusion est également valide pour les autres champs qui font un usage important des études observationnelles, notamment en épidémiologie, économétrie, etc.

    > Avec un peu de chance elle est aussi valide pour les sciences climatiques…

  16. Hubert Houdoy Reply

    Les études statistiques et les observations ne sont que le début de la démarche scientifique et non pas la fin (ni le fin du fin). Ces études suggèrent des pistes de recherche et donc des modèles théoriques ou des recherches de médicaments. C’est toujours la réalité qui est le juge de paix entre les sempiternels débats des humains, s’ils acceptent de soumettre leurs conjecture à la réfutation d’une expérience cruciale.
    C’est pourquoi un marseillais vantard qui se réclamait de son génie et de l’anarchisme méthodologique de Paul Feyerabend va se retrouver à la retraite sans avoir eu le Prix Nobel de Médecine qu’il espérait, car, à ce jour, il n’y a toujours pas de médicament miracle contre Covid19 et la vaccination est, statistiquement, la meilleure protection.

  17. Est-ce que ça ne vaudrait pas le coup de jeter un œil à la boîte noire qui dit « pas de souci je m’en vais vous corriger ce facteur de confusion de ce pas »? Parce qu’a priori la conclusion naturelle n’est pas forcément « il est impossible de compenser un facteur de confusion approximatif » mais plutôt « la fonction standard qu’on utilise pour corriger les facteurs de confusion est très inadaptée au cas d’un facteur approximatif », ce qui n’est pas tout à fait la même chose.

    • Oui c’est juste. Comme je l’ai mentionné et beaucoup l’ont pointé, il existe d’autres méthodes plus sophistiquées et potentiellement plus robustes. Mais en pratique je ne les ai pas souvent vues utilisées !

  18. Bravo et merci
    Blog et commentaires aussi instructifs les uns que les autres.
    Ne pourrait on plaider, dans les analyses de données, pour l’emploi croisé systématique de méthodes complémentaires sur certains critères ?.Je pense particulièrement à l’ANOVA.et aux réseaux bayésiens. Ce dernier apportant un éclairage probabiliste sur la causalité, là où l’Anova est (devrait !) rester muette ?
    Les lectures des longues soirées d’hiver sont assurées !

  19. La randomisation ne dispense pas de rechercher des facteurs de confusion. Par exemple on a un médicament qui guérit 80% des hommes et 40% des femmes. Une randomisation pourra donner le même nombre d’hommes que de femmes dans le groupe traité et le groupe placébo. Vous annoncerez alors que le médicament a 60% d’efficacité et vous passerez complètement à côté du problème. Pour le voir, il faudra observer sur les données collectées que les hommes et les femmes ne régissent pas de la même façon au médicament. Cela ne peut pas se voir en comparant globalement les traités avec les non traités.
    Par exemple si vous avez traité 100 hommes et 100 femmes, une simple comparaison banale entre ces 2 groupes de traités vous donnera l’information SANS placébo et SANS randomisation alors que la randomisation avec placébo pratiquée les yeux fermés vous fera passer à coté du problème.
    Et si ce n’est pas le sexe qui est facteur de confusion mais les groupes sanguins ou le système HLA ce sera encore plus difficile à voir. On voit clairement il me semble que ce qui est fondamental c’est la recherche active des facteurs de confusion et qu’on ne peut JAMAIS être certain de les avoir tous identifiés.

    • Hubert Houdoy Reply

      Les statistiques suggèrent où les chercheurs doivent chercher. Elles ne dispensent pas de faire des recherches selon la méthode hypothético-déductive et selon la méthode expérimentale.

  20. Dorian Bannier Reply

    Bonjour David,

    Il y a un truc qui a l’air de bien marcher, c’est de diviser les valeurs de x par z_obs. J’ai repris ton exemple, et dans ce cas, il n’y a plus de lien significatif entre y et x (divisé par z_obs). Par contre, on perd l’unité de x et l’interprétation est moins aisée. Après, je ne sais pas si on peut faire la même chose en enchaînant plusieurs facteurs confondants.

    • Attention à mon avis c’est très lié au fait que je n’ai pas pris de relation affine entre x (resp.y) et z. Si dans le cas général x = az + b + bruit avec a,b inconnus, je ne pense pas que ça marche

      • Dorian Bannier Reply

        Je me suis basé sur le script Python sur votre github. Le code est un peu légèrement différent. Ce ne sont pas des relations affines que vous avez définies à cet endroit?

        • Ce que je voulais dire, c’est que si dans mon code pour remplacez

          x = z + bruit
          y = z + bruit
          z_obs = z + bruit

          par un truc du genre
          x = a * z + b + bruit
          y = c * z + d + bruit
          z_obz = e * z + f + bruit

          quand on a que x,y,z_obs (et donc qu’on ne connait pas a priori a,b,c,d,e,f), alors j’ai le sentiment que diviser x par z_obs comme vous l’avez fait ne va pas marcher. Mais je peux me tromper !

  21. Les statistiques, c’est comme le bikini : ça donne des idées mais ça cache l’essentiel ! Coluche

    • J’adore. Pour aller à l’essentiel et ne plus être en permanence dans la recherche de facteurs de confusion ou d’autres, ne faut il pas favoriser les études mécanistiques avec modèles mathématiques non statistiques, simulations et expérimentations ciblées ?

    • Ah non, pas ça ! 🙂 J’ai hésité à mettre un paragraphe dessus et je me suis dit que le billet était assez long.
      Il ne faut pas confondre « Il y a une corrélation mais pas de lien de cause à effet », et « Il n’y a PAS de corrélation » et c’est juste un problème de comparaison multiple qui fait qu’on trouve toujours une variable quelconque qui semble coller, mais il n’y a pas de corrélation.

      • joel peglion Reply

        Mathématiquement, sait-on faire la différence ? Comment vérifier si ca colle par hasard, ou en raison de cause « profondes » (que l’un soit directement ou pas la cause de l’autre, ou que les deux soient directement ou pas la conséquence d’une caractéristique tierce commune)

        Juste changer la plage de temps pour vérifier si la « corrélation » est confirmée ?
        => Ca me parait un peu juste, méthodologiquement : si je commence par prendre la 1ere demi-période ou c’est corrélé, puis vérifier sur la deuxième, qui pourra dire que je suis malhonnete ou tout bêtement (mal)chanceux ?

        Essayer de construire un méga-réseau bayesien de toutes ces « corrélations » et trouver des incohérences ?
        => Ne risquerai-je pas alors d’avoir un système parfaitement cohérent auquel j’aurai juste ajouté d’autres corrélations absurdes ? Si de fait les courbes se recoupent, ca me semble mathématiquement « comme si » c’était corrélé. Non ?

  22. Cette simulation me semble un exemple de multi-colinéarité des variables explicatives (x et z_obs). Ces variables entrent en compétition, ce qui fausse les calculs. Je ne crois pas que l’on puisse interpréter les coefficients ni la p-value. Mais je ne suis pas un spécialiste.
    https://en.wikipedia.org/wiki/Multicollinearity

  23. EUGENE Michel Reply

    Bonjour, très intéresssant et très parlant ces exemples.
    J’en profite pour relativiser l’interprération de r2.
    Un r2 à 0.2 comme dans votre exemple, même s’il est très significatif, veut dire que la relation entre les paramètres n’explique que 20% de la variabilité…

    • Ca dépend de ce qu’on regarde ! J’ai l’impression que si on regarde la survenue (ou la gravité) d’une maladie Y en lien avec un facteur de risque X, expliquer 20% de la variabilité juste par X c’est déjà un truc énorme

  24. On m’a appris qu’un coefficient de régression linéaire R² inférieur à 0.9 voire 0.95 donnait une pauvre valeur de « réel ». Comment alors dès le début de ton exemple où tu obtiens un R² de seulement 0.22 peux-tu dire qu’il y a clairement corrélation?! Pour moi, c’était déjà clairement pas assez significatif pour conclure. Ce qui n’empêche pas de publier puisque tout se publie. D’ailleurs il devrait exciter plus de papier qui concluent à des non-résultats mais ça c’est un autre sujet (je me demande d’ailleurs si tu n’en as pas déjà fait un post ou vidéo…).
    Même si les données ont été choisies, on peut aboutir à une non corrélation si le bruit est trop grand et qu’il noie la corrélation.

    • Je ne sais pas dans quel contexte on vous a appris ça, mais ça dépend clairement de la discipline et des objectifs.
      En physique ou en ingénierie, si on cherche à fitter des données expérimentales avec une loi empirique dans une optique de « prédiction », alors oui on va demander des ajustement avec des erreurs faibles (et donc des R^2 élevés)
      Si on est sur une étude biomédicale, épidémio, socio, etc., on cherche à déterminer si un facteur X à un impact résiduel sur une conclusion Y (comme la survenue ou la gravité d’une maladie), on ne recherche pas à établir un modèle « fitté ». Dans le cas fictif que j’ai bricolé, ça correspond à un cas où (s’il n’y avait pas de facteur de confusion) le champagne aurait un impact qui serait considéré comme énorme sur l’espérance de vie (malgré un R^2 de seulement 0.2)

      • Est-ce la seule p-value qui permet de déclarer « impact qui serait considéré comme énorme » ?
        p-value vs taille d’effet et utilité de l’effet… tout un débat.

      • tu as vu juste, j’ai une formation en sciences dures. Merci pour ta réponse.
        En sciences sociales ou médicales, on comprend que c’est beaucoup plus ardu de tirer des conclusions claires (c’est déjà pas simple en physique expérimentale!) et ton article est génial pour rappeler un de ces biais dans l’analyse statistique.
        à se demander si ce n’est pas peine perdue et si ces études observationnelles ne devraient pas être mises au placard étant données les difficultés à maîtriser et appréhender l’ensemble des facteurs de confusion possibles… Je vais peut-être un peu loin mais vus les efforts faits et la conclusion tirée dans ce papier et ton article on peut effectivement se poser la question…
        au plaisir de te lire.

        • Dorian Bannier Reply

          Je ne pense pas qu’il faille jeter les études observationnelles. On a besoin d’observer pour en apprendre plus sur le monde. Il faut plutôt chercher des solutions, notamment en cherchant des alternatives, puis en réfléchissant à l’impact réel sur les données de la recherche.

          J’ai en mémoire l’expérience rapportée dans un poster sur la nécessité de corriger les p-value lors de comparaisons multiples avec l’IRMf (http://prefrontal.org/files/posters/Bennett-Salmon-2009.jpg). Les auteurs ont montré qu’en confrontant un poisson mort à une tâche de discrimination d’émotions, il y avait une activation significative dans des régions cérébrales, mais que celles-ci disparaissaient lorsqu’on corrigeait les p-value pour comparaison multiple. Grâce à cette démonstration (et à certains papiers), les chercheurs se sont emparés de cette problématique et se sont mis à corriger les p-value. Et il y a eu tout un courant dans la communauté scientifique appelant à ne pas se fier aux études d’imagerie cérébrale en neurosciences cognitives. Et finalement, l’imagerie est toujours dominante dans le champs de recherche, il y a régulièrement des articles qui réfléchissent à la manière de l’utiliser (ex: https://academic.oup.com/brain/article/140/8/e53/4032512) et on n’a pas non plus mis à la poubelle les papiers publiés aux débuts de l’imagerie.

          Pour le cas de la multicolinéarité exposé par David, on parviendra aussi à dépasser le problème. Et les les études observationnelles de notre époque ne seront pas non plus jetés aux oubliettes. Il y a cette phrase dans cet article – https://academic.oup.com/brain/article/140/8/e53/4032512:
          ‘They are accurate critiques of one particular misuse of the technology rather than the technology itself.’ Il suffit de remplacer technologie par statistique et ça s’applique à notre cas au final.

          • Je ne crois pas qu’il faille « jeter les études observationnelles », ça n’est pas ce que j’ai essayé de dire et je suis désolé si c’est l’impression que ça donne. J’avoue que je me suis peut-être laissé trop facilement alarmer par la conclusion des auteurs (et ma propre expérience numérique) Mais disons que mon niveau de prudence a augmenté (encore) d’un cran

  25. maurice charbit Reply

    J’ai lu qq commentaires et je suis d’accord pour dire j’ai toujours mis en garde mes élèves sur la fausse idée qu’une forte corrélation entre A et B implique une relation soit de A vers B soit de B vers A.
    En fait ce qui me gêne est de dire:
    « Plus on boit de champagne, plus on vit vieux ». D’ailleurs tu aurais pu dire « Plus on vit vieux plus on boit de champagne. Pourquoi avoir orienté le graphe.

    Les gens qui déduisent des orientations à partir d’une étude stat. n’ont pas compris. Par exemple la pluviosité agit sur la récolte de blé, et cela ne viendrait à l’idée de personnes de dire que la récolte de blé agit sur la pluviosité. Pourquoi cette certitude … par une connaissance (exogène) a priori de certaines lois de l’agriculture.

    NON les stats ne sont pas trompeuses. Elles trompent les mauvais utilisateurs de cet outil.

  26. Bonjour et merci pour cette vidéo, super passionnante comme d’habitude.

    En fait, ayant enseigné un peu les probas, et un tout petit peu les stats, j’ai l’impression qu’on passe notre temps dans ces disciplines à expliquer les risques de mauvaises conclusions que l’on peut tirer des stats.
    Un exemple, que j’avais trouvé seul est le suivant: il y a des périodes où les prix dans l’immobilier baissent
    http://www.cgedd.developpement-durable.gouv.fr/prix-immobilier-evolution-a-long-terme-a1048.html
    Souvent, cela suit une chute des ventes. Eh bien, alors que les prix baissent pour toutes les catégories de logements (du studio à la maison de luxe), il est classique que les statistiques continuent d’annoncer la hausse du prix du m^2, et parfois, cette hausse peut-être violente (alors que les prix baissent !)

    Comment cela est possible ? Eh bien justement, car la moyenne est faite sur toutes les surfaces, et les petites surfaces coûtent plus cher au m^2. Or, lorsque le marché immobilier s’effondre, souvent, le nombre de ventes de petites surfaces s’effondrent moins que les grandes, ce qui donne ce phénomène.
    Supposons que l’année x on ait juste 2 sortes d’apparts
    Petites surfaces (studios) prix au m^2 = 5000 nb de ventes 10^5 m^2 (en tout, mettons sur une région)
    Grandes surfaces (grand appart) prix au m^2 = 2500 nb de ventes 10^5 m^2
    Prix moyen : 3750 / m^2
    année suivante:
    Petites surfaces (20m^2) prix au m^2 = 4500 nb de ventes 5.10^4 m^2
    Grandes surfaces (100m^2) prix au m^2= 2250 nb de ventes 10^4 m^2
    Prix moyen : 4125 /m^2
    Donc, on a une hausse de 10% au m^2, alors que chaque classe (petit et grand) a baissé de 10%. C’est vraiment remarquable, car ce sont souvent ces chiffres qui sont utilisés par les particuliers pour déclencher leur achat: ça monte ! faut acheter vite avant que ça ne soit plus cher ! (alors que ça baisse, c’est ballot…)

    Ce paradoxe est appelé paradoxe de Simpson, et il est vraisemblable qu’il est lié au sujet de votre vidéo (mais c’est plus une intuition qu’une certitude):
    https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson

    Mais pour revenir au sujet, effectivement, les biais statistiques de toutes sortes sont à la source de nombreuses « fausses découvertes » : voici un article qui a fait le buzz en médecine…

    https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124

  27. Pingback: Études statistiques : les limites du contrôle | DBAO | Léo Varnet

  28. Article à imposer en boucle à tous les journalistes qui relaient dès qu’ils peuvent (chiffres à l’appuis) les nouvelles découvertes sortant de l’ordinaire….

    J’ai bien peur que la majorité des fils d’articles en ligne à buzz commençant par ‘une étude montre que’ …. et se terminant par ‘est bon pour la santé’ pourraient même en fait se passer de données, s’ils s’appuient sur des études statistiques aussi risquées…

    J’espère me tromper quand même !

  29. Le modèle est :
    C = 5 * e(C) + 0,01 * Y
    D = 75 + 2,5 * e(D) + 0,005 * Y
    Y = 2000 + 500 * e(Y) ↔ e(Y) = (Y – 2000) / 500

    C = 5 * e(C) + 5 * e(Y) + 20
    D = 75 + 2,5 * e(D) + 2,5 * e(Y) + 10

    C et D sont donc liés à la variable de confusion via le bruit de celle-ci → on calcule les valeurs corrigées Cc et Dc en faisant :
    Cc = C – 5 * e(Y) = C – 5 * (Y – 2000) / 500
    Dc = D – 2,5 * e(Y) = D – 2,5 (Y – 2000) / 500
    On constate alors que R²c est nettement plus proche de zéro.

    Cependant dans la réalité on ne connaît pas Y mais seulement un proxy Y’ :
    Y’ = Y + 500 * e(Y’)
    Y = Y’ – 500 * e(Y’)

    de sorte que :
    C = 5 * e(C) + 0,01 * Y
    C = 5 * e(C) + 0,01 * ( Y’ – 500 * e(Y’) )
    C = 5 * e(C) + 0,01 Y’ – 5 e(Y’)
    Et
    D = 75 + 2,5 * e(D) + 0,005 * Y
    D = 75 + 2,5 * e(D) + 0,005 * ( Y’ – 500 * e(Y’) )
    D = 75 + 2,5 * e(D) + 0,005 * Y’ – 2,5 * e(Y’)

    Cc = C + 5 * e(Y’)
    Dc = D + 2,5 * e(Y’)

    Cc = 5 * e(C) + 5 * e(Y) + 20 + 5 * e(Y’)
    Dc = 75 + 2,5 * e(D) + 2,5 * e(Y) + 10 + 2,5 * e(Y’)

    Cc = 5 * e(C) + 20 + 5 * ( e(Y) + e(Y’) )
    Dc = 75 + 2,5 * e(D) + 10 + 2,5 * ( e(Y) + e(Y’) )
    → Cc er Dc demeurent donc liées à la variable de confusion via la somme de son bruit et celui de son proxy.

  30. Ha bah ça je le savais ! J’avais vu une vidéo d’un vulgarisateur, franchement bien en plus, qui présentait les limites (pour ne pas dire « l’inutilité ») des études rétrospectives.
    Je vous mets en lien sa vidéo https://www.youtube.com/watch?v=vs_Zzf_vL2I 😉
    Depuis je n’en tient absolument plus compte… et ça va mieux ! 🙂
    J’en parlerai quand même à ma soeur qui en fait des statistiques justement, peut-être aura-t-elle un avis plus éclairé que le mien.

  31. Outre l’inconsistance énoncée de nombreuses études observationnelles, je rejoins le commentaire de Giles: comment procéder pour obtenir un référentiel d’études validées et non biaisées ? Ce référentiel pourrait alors servir de source à toutes les entités qui en ont besoin.
    Aujourd’hui, il manque quelque chose, le lien entre des données trop techniques et monsieur tout le monde.
    Un exemple : suite à une étude observationnelle xxx, un politicien annonce qu’il y a trop d’émigration en France et qu’elle a généré une hausse de la dette publique de 3 milliard en 2019…
    Comment faire pour réfuter ce genre d’affirmation?!
    Parce qu’on va y avoir droit à toutes les sauces avec les présidentielles…
    Merci! 😉

  32. Bonjour j’ai fait des études de biologie, avec également des TP de physique-chimie, sans perséverer dans cette voie donc mes souvenirs sont approximatifs. Il me semble que, dans ces disciplines, un R²>0.97 environ est exigé pour établir une corrélation linéaire, bien plus que les valeurs de cet article. Est-ce que des valeurs plus petites sont tolérées en sciences sociales?

    • Bonjour, j’ai répondu à un commentaire qui posait la même question. Je copie/colle ma réponse
      «  » »
      (…)ça dépend clairement de la discipline et des objectifs.
      En physique ou en ingénierie, si on cherche à fitter des données expérimentales avec une loi empirique dans une optique de « prédiction », alors oui on va demander des ajustement avec des erreurs faibles (et donc des R^2 élevés)
      Si on est sur une étude biomédicale, épidémio, socio, etc., on cherche à déterminer si un facteur X à un impact résiduel sur une conclusion Y (comme la survenue ou la gravité d’une maladie), on ne recherche pas à établir un modèle « fitté ». Dans le cas fictif que j’ai bricolé, ça correspond à un cas où (s’il n’y avait pas de facteur de confusion) le champagne aurait un impact qui serait considéré comme énorme sur l’espérance de vie (malgré un R^2 de seulement 0.2)
      «  » »

      • Hubert Houdoy Reply

        Salut David,
        Depuis ton message initial, je suis surpris par le fait que la discussion se focalise sur la cuisine statistique comme si les Statistiques étaient l’alpha et l’oméga de la science.
        L’introduction des statistiques dans le travail scientifique est une étape fondamentale dans l’évolution de la scientificité.
        Mais je pense qu’il faut voir cette transition comme un basculement vers une nouvelle forme de scientificité. Ce basculement n’a pas été identique dans les « sciences dures » et les « sciences molles ». Or, derrière l’emploi des statistiques, les sciences humaines n’ont probablement pas fait un saut épistémologique plus important que l’apprentissage des statistiques.
        Fondamentalement, il me paraît important de ne pas confondre :
        la signification linguistique, qui sert aussi à écrire des romans, des légendes, la Bible et la Mythologie Grecque ;
        la pertinence scientifique, qui est l’intuition fondamentale de Galilée quand il réussit à sortir d’un piège dans lequel Aristote s’était enfermé 2000 ans plus tôt, sur la chute des corps pesants.
        Signification et pertinence
        Signification.
        La signification est une relation, de type hallucinatoire et/ou du type d’un réflexe pavlovien, acquise entre un signifiant (flatus vocis) et un signifié.
        La signification de chaque mot permet de produire des phrases (en utilisant voire respectant une grammaire) qui ont, elles-mêmes, une signification linguistique du même type.
        L’ajout de nouvelles phrases à des phrases permet de construire des récits, des descriptions ou des discours, qui ont toujours le même type de signification linguistique.
        La signification linguistique fonctionne :
        que le signifiant ait un référent (nomination avec monstration) ;
        ou
        que le signifiant n’ait pas de référent (nomination sans monstration, hallucination collective, délire personnel).
        La signification est, au mieux, une relation précise de désignation entre un signe et un référent concret.
        La signification n’est pas une relation entre un signe et la réalité, car la réalité n’est pas un référent concret, visible, tangible, audible, pesant, fini.
        La signification n’est pas une relation entre une phrase et la réalité.
        La signification n’est pas une relation entre un discours, une description ou un récit et la réalité.
        La réalité est immense voire infinie.
        Aucun discours, jamais, ne décrira ou ne racontera la réalité, dans sa variété et dans son changement.
        Pertinence.
        La pertinence n’est pas un état, ni un résultat acquis, mais un souci, une tentative de relation entre une théorie (ou une conjecture scientifique) et la réalité.
        Une théorie n’est pas un discours, ni un récit, portant sur un événement.
        Une théorie est un ensemble d’hypothèses, dont la cohérence entre elles est d’abord approximée par la logique, puis établie par une mathématisation des énoncés hypothétiques (équations établissant des fonctions mathématiques définies entre des constantes, des paramètres, des variables, pouvant prendre un très grand nombre voire une infinité de valeurs numériques).
        La pertinence d’une théorie ne s’exprime pas en termes de signification (« attraction universelle » selon Isaac Newton ou « courbure de l’espace-temps » selon Albert Einstein).
        La pertinence d’une théorie s’exprime en termes de résolution numérique accrue (déviation du périhélie de Mercure) de la corroboration expérimentale (qui n’est pas une preuve de véracité).
        La pertinence d’une théorie scientifique est donc fondamentalement dépendante des Mathématiques.
        En effet, une théorie ne concerne pas l’histoire personnelle d’un individu (c’est le rôle des biographies et des romans), mais les régularités que l’on peut détecter dans une population comportant un très grand nombre d’individus.
        Une théorie qui a une très bonne corroboration expérimentale ne permet pas de connaître :
        ni le trajet d’une particule dans l’expérience des fentes de Young ;
        ni le symbole numérique qui va sortir au prochain lancer d’un dé à jouer, quel que soit le nombre de lancers antérieurs (la probabilité sera 1/6 tant que le dé aura six faces).
        Mais on pourra toujours écrire des livres d’Histoire et des romans passionnants sur un général romain (très particulier) qui aimait jouer aux dés avant de franchir une rivière, sans jamais rester au milieu du gué.
        La signification linguistique permet de raconter de belles ou de sordides histoires.
        La pertinence scientifique permet de repérer des régularités statistiques, qu’elle doit ensuite expliquer par de nouvelles hypothèses sur l’ontologie corpusculaire ou énergétique.
        Les statistiques sont à l’interface de la signification linguistique (méthode hypothético-déductive sans modélisation numérique) et de la pertinence scientifique (modélisation numérique).
        Une étude statistique n’est, au mieux, que le milieu du gué du Rubicon.
        Il reste à faire les hypothèses sur les « causes » et à les modéliser numériquement, pour pouvoir les tester expérimentalement.
        Merci pour ton blog et tes vidéos

  33. Est-ce qu’une partie du problème ne vient pas de l’interprétation faite de la p-value qui ne mesure justement pas la validité de l’hypothèse « X est corrélé à Y »:

    https://www.nature.com/articles/506150a

    Que se passerait-il si on tentait de calculer la probabilité de mourir à 80 ans sachant que l’on boit 2 vers de champagne par jour, et si on la comparait à la probabilité sachant qu’on ne boit pas de champagne. Autrement dit, que se passerait-il si on analysait les donnée sous un angle Bayésien?

  34. Bénédicte Colnet Reply

    Bonjour David,

    Nous avons lu avec attention et grand intérêt votre récent article “Les études statistiques sont-elles hors de contrôle ?”, et nous souhaitons vous remercier pour votre mise à disposition d’un contenu de grande qualité pour le grand public !

    Permettez nous de nous présenter, nous sommes des membres de l’équipe de recherche PreMeDICaL (Precision medicine by data integration and causal learning). Notre équipe de recherche travaille à la fois sur les valeurs manquantes et leur impact en statistique, ainsi que sur des thématiques d’inférence causale (estimation d’effet de traitements/d’intervention, effet homogène, i.e. en moyenne pour la population et hétérogène, i.e. l’effet du traitement dépend des caractéristiques du patient). En particulier, nous développons et appliquons ces méthodes au domaine médical. C’est un secteur qui voit l’usage des données observationnelles augmenter.

    Tout d’abord, merci pour l’idée de simulation que vous proposez. Nous en avons profité pour reproduire vos simulations en R. Pour les lecteurs et lectrices parlant préférentiellement R, vous pourrez les trouver ici: https://github.com/BenedicteColnet/Confusion

    Nous souhaitions apporter quelques possibles éléments de réflexion qui nous viennent de notre domaine de recherche.

    Il est vrai que les conséquences de ne pas avoir toutes les variables pour ajuster, ou des variables proxy à la place des vrais facteurs de confusion, est une grande crainte pour donner du crédit à une conclusion qui émane d’études observationnelles. De plus ces hypothèses sont invérifiables. Il est effectivement très important d’insister sur ces questions. Vous avez tout à fait raison de mentionner que “plus l’échantillon est grand, plus le risque est important qu’un facteur de confusion mal contrôlé « déborde »”. Il est vrai qu’en inférence causale, la question n’est pas tant celle du nombre d’observations – comme en machine learning – mais plutôt de la qualité et la richesse des données en termes de variables disponibles. Dit autrement, la taille de l’échantillon en termes de nombre d’observations ne permet pas de se passer des variables confondantes (ou paramètres de confusion). Une plus grande taille d’échantillon rend donc plus significatif le fait qu’une hypothèse de contrôle des facteurs de confusion est fausse. Cela se traduit par un faux positif dans votre simulation

    Cependant il existe aussi des méthodes pour pallier certains de ces problèmes, et nous souhaitions vous en communiquer quelques-unes que nous avons utilisées ou étudiées. Ces méthodes portent le nom d’analyses de sensibilité.
    La logique est la suivante: supposons que nous ayons de bonnes raisons de penser qu’il nous manque une variable importante ou que l’une de nos variables pour ajuster soit de mauvaise qualité. Dans ce cas, notre estimation de l’effet d’une variable (ex: le champagne) sur notre variable d’intérêt (ex: l’espérance de vie), est biaisée. Ces méthodes proposent d’estimer à quel point le biais est important selon l’ampleur de la variable manquante et de sa force. Tout l’enjeu est alors d’exprimer le biais en fonction de paramètres interprétables comme la force de la variable manquante, ou encore la force de l’effet confondant (dans votre cas cela correspond aux sigma z et xy). Le résultat de la méthode est une plage de valeurs du biais. Si jamais la plage est si grande que l’effet passe du positif au négatif, dans ce cas il faut sérieusement s’inquiéter de la situation avant d’avancer la moindre conclusion. Ceci dit, si la taille de l’effet – par exemple la valeur du coefficient – reste dans le même ordre de grandeur, alors dans ce cas l’analyse de sensibilité permet d’assurer la conclusion. Pour l’anecdote, de telles approches ont été utilisées dès les années 50, sur le débat de la cause du cancer du poumon. En effet les industriels du tabac disaient des études observationnelles associant le fait de fumer au fait de développer un cancer du poumon qu’il existait une autre variable – comme une mutation génétique – qui expliquait l’effet délétère trouvé [1]. C’est un monsieur nommé Cornfield qui a utilisé des méthodes d’analyse de sensibilité pour montrer qu’une telle variable manquante devrait être très importante pour que l’effet du tabac sur le développement du cancer change de signe. Depuis, ces méthodes se sont étendues, et vous pourrez entre autres trouver les études récentes de Carlos Cinelli [2] (un doctorant de Judea Pearl qui a été mentionné dans les commentaires, qui d’ailleurs explique dans son article que les analyses de sensibilité devraient être plus utilisées) ou encore une publication de Victor Veitch [3] qui propose des visualisations. Pour rebondir sur notre partie de réponse sur la signification statistique, dans les analyses de sensibilité ce qui compte notamment est le fait que le résultat soit pratiquement significatif, plutôt que statistiquement significatif. Autrement dit, le sens et la taille de l’effet champagne compte, et pas seulement son caractère statistiquement significatif.

    Pour revenir sur le cas très précis d’un proxy, plutôt que d’une variable manquante ou oubliée, cet article [4] propose d’utiliser plusieurs proxy pour pallier à ce problème. Toujours dans ces thématiques, il existe des travaux sur la régression linéaire en présence de proxy [5].

    Ces méthodes sont encore en développement, et très probablement sous-utilisées en pratique, mais constituent peut-être un espoir pour des études aux conclusions plus sûres.

    Dans nos applications, les médecins avec qui nous travaillons sont capables de dire quelles variables ont été utilisées pour traiter, et lesquelles sont liées à l’outcome. En particulier, nous utilisons avec eux des diagrammes causaux, tels que disponible en annexe de cet article [6]. Ce diagramme a été établi avec des médecins spécialistes en réanimation pour caractériser l’effet de l’acide tranexamique sur la survie lors d’un traumatisme crânien.

    Par ailleurs en médecine il existe beaucoup d’essais randomisés contrôlés du fait du système de régulation, et de nouvelles méthodes [7] se proposent de combiner ces deux types de données, notamment pour conforter que les facteurs de confusion sont bien tous pris en compte ou non.

    Comme vous pourrez le deviner, notre réponse est largement inspirée de nos travaux actuels, notamment sur la combinaison de données de différentes sources [8], et la prise en compte de variables totalement manquantes [9] ou partiellement manquantes [10].

    En vous remerciant à nouveau pour vos fantastiques articles de vulgarisation, et au plaisir de lire les différents commentaires !
    Matthieu Doutreligne, Judith Abécassis, Bénédicte Colnet, Imke Mayer, Dinh-Phong Nguyen, et Julie Josse du laboratoire PreMediCaL

    [1] Livre Merchants of Doubt
    [2] https://rss.onlinelibrary.wiley.com/doi/10.1111/rssb.12348
    [3] https://arxiv.org/abs/2003.01747
    [4] https://arxiv.org/abs/1806.00811
    [5] livre Introductory Econometrics: A Modern Approach de Jeffrey Wooldridge – section 9.2
    [6] Figure 7 de https://www.imkemayer.com/papers/2019-10-23_DR-TreatmentEffect-WithMissingAttributes.pdf
    [7] https://arxiv.org/abs/1810.11646
    [8] https://arxiv.org/abs/2011.08047
    [9] https://arxiv.org/abs/2105.06435
    [10] https://arxiv.org/abs/2104.12639

  35. Bonjour David,

    je voulais envoyer le lien vers votre vidéo sur le sujet, à un copain. Mais je ne trouve pas la vidéo. L’avez-vous supprimée ?

    j’en profite pour vous dire mes remerciements et admiration pour votre travail.

    Vincent MARTIN

  36. Julien Lefèvre Reply

    Bonjour et merci pour ce billet passionnant !

    Est ce que le caractère gaussien du bruit ajouté à Z à une importance ici ? Qu’est ce qu’il en serait si on avait une distribution non gaussienne, symétrique ou non etc ?

    • Bonne question, je n’ai pas essayé car je me suis dit que j’allais me mettre déjà dans le cas le plus favorable (« favorable » au sens où les outils statistiques y sont censés être valide). Si on prend des bruits différents et qu’on observe le phénomène, on pourra toujours dire qu’on n’était pas dans les conditions d’applications idéales des outils.
      Voir que le phénomène existe *même* quand par ailleurs on est dans les conditions d’applications,ça me semblait être un résultat plus fort.

Write A Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.