{"id":4615,"date":"2013-04-29T00:01:25","date_gmt":"2013-04-28T22:01:25","guid":{"rendered":"http:\/\/sciencetonnante.wordpress.com\/?p=4615"},"modified":"2013-04-29T00:01:25","modified_gmt":"2013-04-28T22:01:25","slug":"le-paradoxe-de-simpson","status":"publish","type":"post","link":"https:\/\/scienceetonnante.com\/blog\/2013\/04\/29\/le-paradoxe-de-simpson\/","title":{"rendered":"Le paradoxe de Simpson"},"content":{"rendered":"<p style=\"text-align:justify;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/homer-simpson.jpg\"><img decoding=\"async\" class=\"alignleft size-full wp-image-4621 lazyload\" alt=\"homer-simpson\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/homer-simpson.jpg\" width=\"300\" height=\"171\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 300px; --smush-placeholder-aspect-ratio: 300\/171;\" \/><\/a>Non, le paradoxe de Simpson ne tire pas son nom de Homer, mais de Edward Simpson, le statisticien qui l&rsquo;a d\u00e9crit pour la premi\u00e8re fois en 1951. Il s&rsquo;agit d&rsquo;un de ces paradoxes math\u00e9matiques qui peut nous faire des noeuds \u00e0 la t\u00eate, mais qui malheureusement est bien plus qu&rsquo;une simple curiosit\u00e9 : <strong>bien comprendre ce paradoxe peut s&rsquo;av\u00e9rer essentiel pour prendre les bonnes d\u00e9cisions<\/strong> !<\/p>\n<p style=\"text-align:justify;\">Alors si vous ne connaissez pas ce ph\u00e9nom\u00e8ne statistique tr\u00e8s contre-intuitif, lisez la suite, et les bras devraient vous en tomber !<!--more--><\/p>\n<h3 style=\"text-align:justify;\">Calculs r\u00e9naux : quel traitement choisir ?<\/h3>\n<p style=\"text-align:justify;\">Pas de chance, on vient de vous d\u00e9couvrir des calculs au rein. Heureusement des traitements existent, et \u00e0 l&rsquo;hopital le m\u00e9decin vous en pr\u00e9sente deux. Le premier (appelons le \u00ab\u00a0Traitement A\u00a0\u00bb) consiste en une chirurgie ouverte, alors que le second (\u00ab\u00a0Traitement B\u00a0\u00bb) est une chirurgie qui se fait par de petits trous perc\u00e9s \u00e0 travers la peau. Le m\u00e9decin vous demande quel traitement vous pr\u00e9f\u00e9rez. Comme vous souhaitez avant tout gu\u00e9rir, <strong>vous demandez au praticien les statistiques de succ\u00e8s de ces deux traitements<\/strong>.<\/p>\n<p style=\"text-align:justify;\">\u00ab\u00a0Oh c&rsquo;est tr\u00e8s simple, vous r\u00e9pond le m\u00e9decin, les deux traitements ont \u00e9t\u00e9 test\u00e9s chacun 350 patients, et voici les chiffres : le traitement A a fonctionn\u00e9 dans 273 cas et le traitement B dans 289\u00a0\u00bb.<\/p>\n<p style=\"text-align:justify;\">L&rsquo;affaire semble entendue,<strong> le traitement B a march\u00e9 avec 83% de r\u00e9ussite, contre 79% seulement pour le traitement A<\/strong>. Vous choisissez donc le traitement B.<\/p>\n<p style=\"text-align:justify;\">Mais en repartant de l&rsquo;h\u00f4pital, vous croisez un autre m\u00e9decin \u00e0 qui vous demandez son avis sur les traitements. \u00ab\u00a0Oh c&rsquo;est tr\u00e8s simple, vous r\u00e9pond-il : les deux traitements ont \u00e9t\u00e9 test\u00e9s 350 fois chacun sur des patients, ces derniers pouvant \u00eatre atteints soit de &lsquo;petits&rsquo; calculs, soit de &lsquo;gros&rsquo; calculs, et voici les chiffres\u00a0\u00bb :<\/p>\n<p style=\"text-align:center;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/kidney.png\"><img decoding=\"async\" class=\"size-full wp-image-4625 aligncenter lazyload\" alt=\"kidney\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/kidney.png\" width=\"450\" height=\"158\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/kidney.png 450w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/kidney-300x105.png 300w\" data-sizes=\"(max-width: 450px) 100vw, 450px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 450px; --smush-placeholder-aspect-ratio: 450\/158;\" \/><\/a><\/p>\n<p style=\"text-align:justify;\">Comme vous pouvez le constatez, <strong>si vous avez des gros calculs, le traitement A fonctionne mieux, et si vous avez des petits calculs, le traitement A est aussi le plus efficace<\/strong>. Voil\u00e0 qui est en totale contradiction avec ce que vous a dit le premier m\u00e9decin. Et pourtant, vous avez beau compter et recompter, sur la ligne \u00ab\u00a0Total\u00a0\u00bb, il s&rsquo;agit bien des m\u00eames chiffres que ceux pr\u00e9sent\u00e9s par le premier m\u00e9decin&#8230;<\/p>\n<p style=\"text-align:justify;\"><strong>Comment est-il possible que le traitement B soit meilleur au global, mais qu&rsquo;il soit inf\u00e9rieur au traitement A aussi bien sur les petits que sur les gros calculs ?<\/strong> Et \u00e7a n&rsquo;est pas une blague, ces chiffres sont issus d&rsquo;une vraie \u00e9tude [1] ! Il n&rsquo;y a aucune entourloupe statistique ou aucune manipulation, ce que vous lisez l\u00e0, c&rsquo;est bien la r\u00e9alit\u00e9 des chiffres. Vous avez l\u00e0 un bel exemple du paradoxe de Simpson.<\/p>\n<h3 style=\"text-align:justify;\">Fumer, c&rsquo;est bon pour la sant\u00e9<\/h3>\n<p style=\"text-align:justify;\">Pour vous aider \u00e0 appr\u00e9hender le paradoxe, je vais vous en pr\u00e9senter un autre exemple, lui aussi issu d&rsquo;une \u00e9tude r\u00e9elle [2], et qui devrait vous para\u00eetre un peu plus clair. Dans cette \u00e9tude, 1314 femmes ont \u00e9t\u00e9 suivies pendant 20 ans, et l&rsquo;objectif \u00e9tait de <strong>comparer le taux de mortalit\u00e9 des fumeuses et des non-fumeuses<\/strong>.<\/p>\n<p style=\"text-align:justify;\">Apr\u00e8s 20 ans, <strong>le taux de mortalit\u00e9 chez les fumeuses \u00e9tait de 24%, alors que celui des non-fumeuses \u00e9tait 31%. Alors, est-ce que non-fumer tue ?<\/strong><\/p>\n<p style=\"text-align:justify;\">Examinons les chiffres de plus pr\u00e8s. Dans l&rsquo;\u00e9tude, il y avait 582 fumeuses et 139 sont mortes (cela fait bien 24%), ainsi que 732 non-fumeuses dont 230 sont mortes (31%, pas de probl\u00e8me). L\u00e0 o\u00f9 le paysage change, c&rsquo;est quand on repr\u00e9sente ces chiffres en s\u00e9parant par classe d&rsquo;\u00e2ge. C&rsquo;est ce que montre le graphique ci-dessous (que j&rsquo;ai r\u00e9alis\u00e9 en R avec les donn\u00e9es <em>smoking<\/em> du package <em>SMPractical)<\/em><\/p>\n<p style=\"text-align:justify;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/smoke2.png\"><img decoding=\"async\" class=\"aligncenter size-full wp-image-4671 lazyload\" alt=\"Statistiques Mortalit\u00e9 fumeurs non-fumeurs\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/smoke2.png\" width=\"600\" height=\"300\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/smoke2.png 600w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/smoke2-300x150.png 300w\" data-sizes=\"(max-width: 600px) 100vw, 600px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 600px; --smush-placeholder-aspect-ratio: 600\/300;\" \/><\/a><\/p>\n<p style=\"text-align:justify;\">Comme vous le voyez, si on raisonne par classe d&rsquo;\u00e2ge, <strong>dans chaque tranche la mortalit\u00e9 chez les fumeuses a \u00e9t\u00e9 sup\u00e9rieure \u00e0 celle des non-fumeuses<\/strong>. On est rassur\u00e9s, mais comment les chiffres peuvent-ils s&rsquo;inverser quand on groupe tout le monde ?<\/p>\n<p style=\"text-align:justify;\">Peut-\u00eatre avez vous senti ce qui cloche : <strong>dans la population initiale, il y avait plus de femmes \u00e2g\u00e9es chez les non-fumeuses que chez les fumeuses<\/strong>. Et m\u00eame si dans chaque tranche d&rsquo;\u00e2ge les non-fumeuses meurent moins, cet effet est compens\u00e9 par le fait que la tranche d&rsquo;\u00e2ge \u00ab\u00a0\u00e9lev\u00e9e\u00a0\u00bb est sur-repr\u00e9sent\u00e9e chez les non-fumeuses&#8230;qui donc en moyenne meurent plus !<\/p>\n<h3 style=\"text-align:justify;\">Une analyse du paradoxe<\/h3>\n<p style=\"text-align:justify;\">Si vous avez bien suivi le cas des fumeuses, vous devriez maintenant \u00eatre pr\u00eats \u00e0 percer le myst\u00e8re du paradoxe de Simpson. Tout d&rsquo;abord comment s&rsquo;\u00e9nonce ce paradoxe : il s&rsquo;agit du fait qu&rsquo;une corr\u00e9lation peut dispara\u00eetre ou m\u00eame s&rsquo;inverser suivant que l&rsquo;on consid\u00e8re les donn\u00e9es dans leur ensemble, ou bien segment\u00e9es par groupes.<\/p>\n<p style=\"text-align:justify;\">Pour que le paradoxe se produise, il faut 2 ingr\u00e9dients :<\/p>\n<ul style=\"text-align:justify;\">\n<li>Premi\u00e8rement il faut une variable qui influe sur le r\u00e9sultat final (le \u00ab\u00a0groupe\u00a0\u00bb), et qui n&rsquo;est pas forc\u00e9ment explicit\u00e9e au d\u00e9part. On appelle cela un <strong>facteur de confusion<\/strong>. Il s&rsquo;agit de la taille des calculs dans le premier exemple, car celle-ci influe sur la probabilit\u00e9 de succ\u00e8s du traitement, et de l&rsquo;\u00e2ge des personnes dans le second exemple, lequel \u00e9videmment joue sur la mortalit\u00e9.<\/li>\n<li>Deuxi\u00e8mement, <strong>il faut que l&rsquo;\u00e9chantillon qu&rsquo;on \u00e9tudie ne soit pas distribu\u00e9 de mani\u00e8re homog\u00e8ne<\/strong> : dans le cas du tabac, il y a plus de vieilles femmes dans l&rsquo;\u00e9chantillon des non-fumeuses que chez les fumeuses; dans le cas des reins, le traitement \u00ab\u00a0A\u00a0\u00bb est plus souvent donn\u00e9 sur les gros calculs, et le \u00ab\u00a0B\u00a0\u00bb sur les petits (vous pouvez retourner voir les chiffres).<\/li>\n<\/ul>\n<p style=\"text-align:justify;\">Quand ces deux conditions sont r\u00e9unies, le paradoxe de Simpson peut se produire ! C&rsquo;est-\u00e0-dire qu&rsquo;\u00e0 cause de la distribution h\u00e9t\u00e9rog\u00e8ne de l&rsquo;\u00e9chantillon, regrouper les donn\u00e9es pointe une tendance qui peut \u00eatre fausse, et qui dispara\u00eet si on analyse les donn\u00e9es en s\u00e9parant selon le facteur de confusion.<\/p>\n<h3 style=\"text-align:justify;\">Des exemples \u00e0 la pelle<\/h3>\n<p style=\"text-align:justify;\">Il existe de nombreux exemples r\u00e9els du paradoxe de Simpson, en voici quelques uns parmi les plus connus.<\/p>\n<p style=\"text-align:justify;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/berkeley.jpg\"><img decoding=\"async\" class=\"alignright  wp-image-4636 lazyload\" alt=\"berkeley\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/berkeley.jpg?w=300\" width=\"300\" height=\"193\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/berkeley.jpg 512w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/berkeley-300x193.jpg 300w\" data-sizes=\"(max-width: 300px) 100vw, 300px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 300px; --smush-placeholder-aspect-ratio: 300\/193;\" \/><\/a>En 1973, une \u00e9tude statistique a mis en \u00e9vidence le fait que <strong>le taux d&rsquo;admission \u00e0 l&rsquo;Universit\u00e9 de Berkley \u00e9tait de 44% chez les gar\u00e7ons, contre 35% chez les filles<\/strong> [3]. Une discrimination inacceptable, dont on dit qu&rsquo;elle donna lieu \u00e0 un proc\u00e8s (mais je ne suis pas s\u00fbr que ce soit vrai).<\/p>\n<p style=\"text-align:justify;\">Toutefois, le tableau change compl\u00e8tement si on s&rsquo;amuse \u00e0 regarder ces donn\u00e9es en les distribuant par d\u00e9partement d&rsquo;enseignement : alors <strong>dans tous les d\u00e9partements, les filles ont un taux d&rsquo;admission l\u00e9g\u00e8rement sup\u00e9rieur<\/strong> \u00e0 celui des gar\u00e7ons ! L\u00e0 aussi le caract\u00e8re inhomog\u00e8ne de l&rsquo;\u00e9chantillon est en cause : les filles ont tendance \u00e0 postuler dans les d\u00e9partements les plus comp\u00e9titifs, et leur taux d&rsquo;admission moyen est donc plus faible.<\/p>\n<p style=\"text-align:justify;\">Un autre exemple c\u00e9l\u00e8bre est donn\u00e9 par les statistiques de r\u00e9ussite au baseball. En 1995, le taux de succ\u00e8s du batteur David Justice a \u00e9t\u00e9 meilleur que celui de son adversaire Derek Jeter (25.3% contre 25.0%). L&rsquo;ann\u00e9e suivante, en 1996, m\u00eame r\u00e9sultat : Justice surpasse Jeter par 32.1% contre 31.4%. Et pourtant, si on combine l&rsquo;ensemble des deux ann\u00e9es 1995 et 1996, Derek Jeter a \u00e9t\u00e9 le meilleur avec 31% contre 27% ! Troublant, non ?<\/p>\n<p style=\"text-align:justify;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/civil-right-act-martin-luther-king.jpg\"><img decoding=\"async\" class=\"alignright size-medium wp-image-4640 lazyload\" alt=\"civil right act martin luther king\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/civil-right-act-martin-luther-king.jpg?w=300\" width=\"300\" height=\"226\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/civil-right-act-martin-luther-king.jpg 410w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/civil-right-act-martin-luther-king-300x226.jpg 300w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/civil-right-act-martin-luther-king-87x67.jpg 87w\" data-sizes=\"(max-width: 300px) 100vw, 300px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 300px; --smush-placeholder-aspect-ratio: 300\/226;\" \/><\/a>Un dernier pour la route, histoire de vous montrer <strong>l&rsquo;importance de bien comprendre ce paradoxe pour \u00eatre un bon citoyen<\/strong> : en 1964 les \u00c9tats-Unis ont vot\u00e9 une loi historique, le <em>Civil Right Act<\/em>, qui fut un pas d\u00e9terminant vers l&rsquo;abolition de la s\u00e9gr\u00e9gation raciale.<\/p>\n<p style=\"text-align:justify;\">Sur l&rsquo;ensemble du pays, 80% des r\u00e9publicains ont vot\u00e9 en sa faveur, contre seulement 61% des d\u00e9mocrates. \u00c9tonnant, non, quand on connait les positions de ces deux partis ?<\/p>\n<p style=\"text-align:justify;\">Et pourtant si on distribue ces r\u00e9sultats entre les \u00e9tats du Nord et du Sud du pays, aussi bien au Nord qu&rsquo;au Sud les d\u00e9mocrates ont plus vot\u00e9 que les r\u00e9publicains en faveur de la loi !<\/p>\n<h3 style=\"text-align:justify;\">Comment se pr\u00e9munir du paradoxe de Simpson<\/h3>\n<p style=\"text-align:justify;\">J&rsquo;imagine que vous voyez ais\u00e9ment <strong>le potentiel de manipulation qui se cache derri\u00e8re ce paradoxe<\/strong> : on peut vous faire croire \u00e0 quelque chose (le ch\u00f4mage a baiss\u00e9, tel traitement marche mieux, tel individu est meilleur, etc.) alors qu&rsquo;en regardant les chiffres dans le d\u00e9tail, les effets peuvent dispara\u00eetre ou s&rsquo;inverser ! Alors que faire ?<\/p>\n<p style=\"text-align:justify;\">Tout d&rsquo;abord, il faut se rappeler : cet effet se produit quand il existe une variable cach\u00e9e influente, et que l&rsquo;\u00e9chantillon sur lequel on se base n&rsquo;est pas homog\u00e8ne.\u00a0En sciences, <strong>c&rsquo;est pour cela que l&rsquo;on pr\u00e9f\u00e8re en g\u00e9n\u00e9ral des exp\u00e9riences \u00ab\u00a0randomis\u00e9es\u00a0\u00bb<\/strong>, qui permettent d&rsquo;assurer une distribution homog\u00e8ne : par exemple si vous avez des calculs r\u00e9naux et que vous participez \u00e0 une exp\u00e9rience pour comparer les traitements, on vous assigne au hasard le traitement A ou B, sans que la taille des calculs influe sur la d\u00e9cision. On gomme ainsi l&rsquo;inhomog\u00e9n\u00e9it\u00e9 de distribution, et le paradoxe dispara\u00eet : le traitement A sera bien vu comme \u00e9tant le meilleur.<\/p>\n<p style=\"text-align:justify;\">Quand on vous pr\u00e9sente des chiffres, il faut donc avoir l&rsquo;oeil critique, et \u00eatre particuli\u00e8rement m\u00e9fiants quand ces chiffres sont issues de donn\u00e9es analys\u00e9es a posteriori, plut\u00f4t que sur un \u00e9chantillon exp\u00e9rimental qu&rsquo;on a soi-m\u00eame construit a priori (en randomisant). (R\u00e9fl\u00e9chissez au point suivant : conclure que \u00ab\u00a0<em>Le lit est l&rsquo;endroit le plus dangereux du monde, c&rsquo;est l\u00e0 que la plupart des gens meurent<\/em>\u00a0\u00bb c&rsquo;est se tromper car on utilise des donn\u00e9es non-randomis\u00e9es)<\/p>\n<p style=\"text-align:justify;\">Enfin rappelez-vous, ce paradoxe se produit quand il existe une variable cach\u00e9e fortement influente. Cela signifie que <strong>les chiffres bruts ont peu de sens, et doivent \u00eatre critiqu\u00e9s par un expert du domaine<\/strong>, susceptible de pointer l&rsquo;existence d&rsquo;un tel facteur. A l&rsquo;heure o\u00f9 fleurit la mode du \u00ab\u00a0<em>fact-checking\u00a0\u00bb<\/em>, on a un peu tendance \u00e0 nous faire croire que les chiffres seraient la v\u00e9rit\u00e9 \u00ab\u00a0nue\u00a0\u00bb. Non, la v\u00e9rit\u00e9 nue n&rsquo;existe pas, et on aura toujours besoin de gens au courant pour interpr\u00e9ter correctement des chiffres, qu&rsquo;ils soient scientifiques, \u00e9conomiques ou m\u00e9dicaux.<\/p>\n<hr \/>\n<h3 style=\"text-align:justify;\"><em>Pour aller plus loin : les facteurs de confusion dans la d\u00e9marche scientifique<\/em><\/h3>\n<p style=\"text-align:justify;\"><em> Je suis vraiment loin d&rsquo;\u00eatre un expert en stats, mais je voudrais vous pr\u00e9senter un petit exemple fabriqu\u00e9 pour montrer une autre version de ce paradoxe, et comment un traitement statistique ad\u00e9quat permet de le lever, m\u00eame quand on a pas travaill\u00e9 avec des donn\u00e9es randomis\u00e9es. Et puis je vais illustrer \u00e7a en R, histoire de ne pas perdre la main.<\/em><\/p>\n<p style=\"text-align:justify;\"><em>Imaginons que vous d\u00e9cidiez d&rsquo;oeuvrer pour le bien de l&rsquo;humanit\u00e9, et que vous vouliez \u00e9tudier <strong>l&rsquo;effet aphrodisiaque de la bi\u00e8re<\/strong>. Pour faire une bonne exp\u00e9rience randomis\u00e9e, il faudrait prendre des personnes, leur assigner au hasard un certain niveau de consommation de bi\u00e8re, et mesurer l&rsquo;impact sur leur libido. Malheureusement, c&rsquo;est \u00e9videmment difficile, alors on choisit de travailler sur des donn\u00e9es historiques collect\u00e9es. Vous r\u00e9unissez donc un \u00e9chantillon de personnes, et vous leur soumettez un questionnaire permettant d&rsquo;\u00e9valuer leur consommation mensuelle de bi\u00e8re, ainsi que leur libido (sur une \u00e9chelle de 1 \u00e0 10). Vous collectez les donn\u00e9es, tracez les r\u00e9sultats.<\/em><\/p>\n<pre>&gt; plot(Beer,Libido)\n&gt; fit &lt;- lm(Libido~Beer)\n&gt; abline(fit$coef)\n&gt; summary(fit)\nCall:\nlm(formula = Libido ~ Beer)\nResiduals:\n Min 1Q Median 3Q Max \n-2.820898 -1.043803 -0.007313 1.018204 4.314868\nCoefficients:\n Estimate Std. Error t value Pr(&gt;|t|) \n(Intercept) 2.5820 0.4479 5.764 9.53e-08 ***\nBeer 0.8879 0.1042 8.519 1.96e-13 ***\n---\nSignif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1\nResidual standard error: 1.549 on 98 degrees of freedom\nMultiple R-squared: 0.4255, Adjusted R-squared: 0.4196 \nF-statistic: 72.57 on 1 and 98 DF, p-value: 1.956e-13\n&gt; pval &lt;- summary(fit)$coefficients[2,4]\n&gt; title(main=paste(\"p-value =\",format(pval,dig=3)))<\/pre>\n<p style=\"text-align:justify;\"><em>Et l\u00e0 : bingo ! Vous obtenez la courbe ci-dessous, qui montre une belle corr\u00e9lation positive avec un \u00ab\u00a0petit p\u00a0\u00bb tout \u00e0 fait significatif pour le mod\u00e8le lin\u00e9aire. <\/em><\/p>\n<p style=\"text-align:center;\"><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere.png\"><img decoding=\"async\" class=\"aligncenter  wp-image-4651 lazyload\" alt=\"libido-biere\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere.png?w=600\" width=\"420\" height=\"420\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere.png 653w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-300x300.png 300w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-150x150.png 150w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-370x370.png 370w\" data-sizes=\"(max-width: 420px) 100vw, 420px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 420px; --smush-placeholder-aspect-ratio: 420\/420;\" \/><\/a><\/p>\n<p style=\"text-align:justify;\"><em>La bi\u00e8re influe fortement sur la libido, voici l&rsquo;aphrodisiaque du futur ! Vous vous pr\u00e9parez donc \u00e0 soumettre votre manuscrit avec la b\u00e9n\u00e9diction de Kronenbourg.<\/em><\/p>\n<p style=\"text-align:justify;\"><em>Et l\u00e0 un petit malin vous fait remarquer \u00ab\u00a0Et si tu s\u00e9pares les hommes et les femmes ?\u00a0\u00bb Vous refaites donc votre graphique en colorant diff\u00e9remment les deux sexes, et l\u00e0&#8230;consternation ! Au sein de chacun des groupes, plus du tout de corr\u00e9lation ! Et le fit lin\u00e9aire par groupe est insignifiant.<\/em><\/p>\n<p style=\"text-align:justify;\"><em>Un moyen de controler cela, c&rsquo;est de faire une analyse en controllant d&rsquo;abord par le sexe. Techniquement, on fait quelque chose comme une ANCOVA, et on prend bien soin de l&rsquo;ordre des facteurs. En R, tout se fait avec la commande \u00ab\u00a0lm\u00a0\u00bb, et on ordonne d&rsquo;abord le sexe, puis la consommation de bi\u00e8re.<\/em><\/p>\n<pre><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control.png\"><img decoding=\"async\" class=\"aligncenter  wp-image-4655 lazyload\" alt=\"libido-biere-control\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control.png?w=600\" width=\"420\" height=\"420\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control.png 653w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control-300x300.png 300w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control-150x150.png 150w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/libido-biere-control-370x370.png 370w\" data-sizes=\"(max-width: 420px) 100vw, 420px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 420px; --smush-placeholder-aspect-ratio: 420\/420;\" \/><\/a>\n&gt; plot(Beer,Libido,col=c(\"red\",\"blue\")[as.numeric(Group)])\n&gt; fit2 &lt;- lm(Libido~Group+Beer)\n&gt; summary(fit2)\nCall:\nlm(formula = Libido ~ Group + Beer)\nResiduals:\n Min 1Q Median 3Q Max \n-1.83333 -0.47439 0.03775 0.47490 2.91397\nCoefficients:\n Estimate Std. Error t value Pr(&gt;|t|) \n(Intercept) 4.27995 0.29119 14.698 &lt;2e-16 ***\nGroupM 3.57795 0.26193 13.660 &lt;2e-16 ***\nBeer 0.02321 0.08810 0.263 0.793 \n---\nSignif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1\nResidual standard error: 0.9108 on 97 degrees of freedom\nMultiple R-squared: 0.8035, Adjusted R-squared: 0.7994 \nF-statistic: 198.3 on 2 and 97 DF, p-value: &lt; 2.2e-16\n&gt; pval2 &lt;- summary(fit2)$coefficients[3,4]\n&gt; title(main=paste(\"p-value =\",format(pval2,dig=3)))\n&gt; fitF &lt;- lm(Libido~Beer,data=d[Group==\"F\",])\n&gt; fitM &lt;- lm(Libido~Beer,data=d[Group==\"M\",])\n&gt; abline(fitF$coef,col=\"red\")\n&gt; abline(fitM$coef,col=\"blue\")<\/pre>\n<p style=\"text-align:justify;\"><em>Et l\u00e0 on voit que le \u00ab\u00a0petit p\u00a0\u00bb pour l&rsquo;influence de la bi\u00e8re apr\u00e8s contr\u00f4le par le sexe n&rsquo;est pas du tout significatif !<\/em><\/p>\n<p style=\"text-align:justify;\">Le code qui a fabriqu\u00e9 les donn\u00e9es :<\/p>\n<pre>&gt; set.seed(42)\n&gt; d &lt;- data.frame(Group = c(rep(c(\"F\",\"M\"),each=50)),\n                Beer = c(rnorm(50,mean=3,sd=1),rnorm(50,mean=5,sd=1)), \n                Libido = rnorm(100,mean=4.5,sd=1) + rep(c(0,3.5),each=50))<\/pre>\n<p style=\"text-align:justify;\"><em>Dernier point pour les plus furieux, qui est en quelque sorte un paradoxe dans le paradoxe : on peut s&rsquo;imaginer que quand on voit des donn\u00e9es agr\u00e9g\u00e9es, on peut toujours trouver un facteur \u00e0 la con (genre signe du zodiaque, nombre de lettres du pr\u00e9nom, etc.) qui va nous donner les corr\u00e9lations dans le sens qu&rsquo;on veut une fois que c&rsquo;est segment\u00e9. Comment \u00eatre s\u00fbr qu&rsquo;un facteur de ce genre est vraiment \u00ab\u00a0influent\u00a0\u00bb ? Ces questions touchent le coeur du probl\u00e8me de \u00ab\u00a0corr\u00e9lation n&rsquo;est pas causation\u00a0\u00bb (dont d\u00e9coule le paradoxe de Simpson). Une solution possible est l&rsquo;utilisation du formalisme des r\u00e9seaux bay\u00e9siens causaux d\u00e9velopp\u00e9 par Judea Pearl. Je n&rsquo;ai pas eu le courage d&rsquo;attaquer son livre \u00ab\u00a0<a href=\"http:\/\/bayes.cs.ucla.edu\/BOOK-2K\/index.html\" target=\"_blank\" rel=\"noopener\">Causality<\/a>\u00ab\u00a0, mais un sympathique compte-rendu se trouve <a href=\"http:\/\/www.michaelnielsen.org\/ddi\/if-correlation-doesnt-imply-causation-then-what-does\/\" target=\"_blank\" rel=\"noopener\">ici<\/a>.<\/em><\/p>\n<p style=\"text-align:justify;\"><em>P<\/em><em><a href=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/mug-simpson1.jpg\"><img decoding=\"async\" class=\"alignright size-full wp-image-4633 lazyload\" alt=\"mug-simpson\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/mug-simpson1.jpg\" width=\"268\" height=\"490\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/mug-simpson1.jpg 268w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/04\/mug-simpson1-164x300.jpg 164w\" data-sizes=\"(max-width: 268px) 100vw, 268px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 268px; --smush-placeholder-aspect-ratio: 268\/490;\" \/><\/a><\/em><em>our finir, pour vous rappeler au quotidien de l&rsquo;existence du paradoxe, vous pouvez vous procurer la tasse \u00e0 caf\u00e9 ci-contre. Je la veux bien pour mon anniversaire &#8230;<\/em><\/p>\n<p style=\"text-align:justify;\"><span style=\"text-decoration:underline;\">Billets connexes :<\/span><\/p>\n<p style=\"text-align:justify;\"><a title=\"Les probabilit\u00e9s conditionnelles (Bayes level\u00a01)\" href=\"https:\/\/scienceetonnante.com\/blog\/2012\/10\/08\/les-probabilites-conditionnelles-bayes-level-1\/\">Les probabilit\u00e9s conditionnelles<\/a> : un autre exemple de statistiques m\u00e9dicales contre-intuitives<\/p>\n<p style=\"text-align:justify;\"><a title=\"Quand l\u2019\u00e9conomie rencontre la\u00a0g\u00e9n\u00e9tique\" href=\"https:\/\/scienceetonnante.com\/blog\/2013\/03\/18\/quand-l-economie-rencontre-la-genetique\/\">Quand l&rsquo;\u00e9conomie rencontre la g\u00e9n\u00e9tique<\/a> : une \u00e9tude o\u00f9 l&rsquo;influence d&rsquo;\u00e9ventuels facteurs de confusion a \u00e9t\u00e9 intens\u00e9ment d\u00e9battue<\/p>\n<p style=\"text-align:justify;\"><span style=\"text-decoration:underline;\">Chez mes coll\u00e8gues blogueurs :<\/span><\/p>\n<p style=\"text-align:justify;\"><a href=\"http:\/\/tomroud.cafe-sciences.org\/2009\/01\/11\/annee-darwin-paradoxe-de-simpson-et-evolution\/\" target=\"_blank\" rel=\"noopener\">Ce billet de Tom Roud<\/a> sur un paradoxe de Simpson \u00e9volutif<\/p>\n<p style=\"text-align:justify;\"><a href=\"http:\/\/www.drgoulu.com\/2007\/06\/26\/statistiques-et-esperance-de-vie\/\" target=\"_blank\" rel=\"noopener\">Ce billet de Dr. Goulu<\/a> sur l&rsquo;esp\u00e9rance de vie<\/p>\n<p style=\"text-align:justify;\"><a href=\"http:\/\/freakonometrics.hypotheses.org\/231\" target=\"_blank\" rel=\"noopener\">Ce billet de Freakonometrics <\/a>qui illustre le paradoxe avec de la g\u00e9om\u00e9trie \u00e9l\u00e9mentaire sur les parall\u00e8logrammes.<\/p>\n<p style=\"text-align:justify;\"><span style=\"text-decoration:underline;\">R\u00e9f\u00e9rences :<\/span><\/p>\n<p style=\"text-align:justify;\">[1] Charig, C. R., et al. \u00ab\u00a0<a href=\"http:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC1339981\/pdf\/bmjcred00227-0031.pdf\" target=\"_blank\" rel=\"noopener\">Comparison of treatment of renal calculi by open surgery&#8230;<\/a>\u00a0\u00bb <i>British medical journal (Clinical research ed.)<\/i> 292.6524 (1986): 879.<\/p>\n<p style=\"text-align:justify;\">[2] Appleton, David R., Joyce M. French, and Mark PJ Vanderpump. \u00ab\u00a0Ignoring a covariate: An example of Simpson&rsquo;s paradox.\u00a0\u00bb The American Statistician 50.4 (1996): 340-341.<\/p>\n<p style=\"text-align:justify;\">[3] Bickel, Peter J., Eugene A. Hammel, and J. William O\u2019Connell. \u00ab\u00a0<a href=\"http:\/\/www.unc.edu\/~nielsen\/soci708\/cdocs\/Berkeley_admissions_bias.pdf\" target=\"_blank\" rel=\"noopener\">Sex bias in graduate admissions: Data from Berkeley.<\/a>\u00a0\u00bb <i>Science<\/i> 187.4175 (1975): 398-404.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Non, le paradoxe de Simpson ne tire pas son nom de Homer, mais de Edward Simpson, le statisticien qui l&rsquo;a d\u00e9crit pour la premi\u00e8re fois en 1951. Il s&rsquo;agit d&rsquo;un de ces paradoxes math\u00e9matiques qui peut nous faire des noeuds \u00e0 la t\u00eate, mais qui malheureusement est bien plus qu&rsquo;une simple curiosit\u00e9 : bien comprendre<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[4,20],"tags":[70,36,33],"class_list":{"0":"post-4615","1":"post","2":"type-post","3":"status-publish","4":"format-standard","6":"category-mathematiques","7":"category-medecine","8":"tag-decision","9":"tag-paradoxe","10":"tag-statistiques"},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"post_mailing_queue_ids":[],"_links":{"self":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/4615","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/comments?post=4615"}],"version-history":[{"count":0,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/4615\/revisions"}],"wp:attachment":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/media?parent=4615"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/categories?post=4615"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/tags?post=4615"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}