[EDIT 06/2015: à la demande de Nicolas Gauvrit, je rajoute ici une version plus précise de sa pensée qu’il vient de diffuser sur son blog.] Aujourd’hui, j’ai le plaisir de vous proposer un post de mon ami Nicolas Gauvrit que j’ai rencontré en ouvrant ce blog et en m’investissant à l’AFIS. Nicolas est mathématicien et psychologue pour ceux qui ne le connaîtraient pas. Ayant délaissé quelque peu son blog, on a trouvé sympathique l’idée de collaborer ensemble. Aujourd’hui, Nicolas nous parle d’un sophisme récurrent chez les sceptiques (je n’y échappe pas!): asséner “l’échantillon est trop petit” n’est pas un argument rationnel!
Il arrive que des travaux scientifiques contredisent nos croyances, ou nos vœux les plus chers. En 2000 par exemple, on a découvert une différence psychologique entre garçons et filles qui, parce qu’elle est présente chez des nouveau-nés dès le premier jour, s’explique difficilement par une influence culturelle (Connellan et al., 2000). Disons tout de suite que cette expérience n’a pas été pour l’instant répliquée, et l’on peut donc rester prudent. Peut-être s’agit-il d’un faux positif. Autre exemple : dans l’imaginaire collectif, les enfants surdoués sont des être particulièrement sensibles et de ce fait plus susceptibles de développer des troubles anxieux, par exemple. Or, les publications disponibles suggèrent bien au contraire que l’anxiété est plus faible en moyenne chez les enfants précoces (Martin et al., 2010Lorsque que des travaux comme ceux-là (mais on pourrait bien sûr citer des centaines d’autres cas) sont diffusés sur les réseaux sociaux par exemple, la réaction des internautes est souvent de chercher à discréditer les résultats. Pour les cas que nous avons cités au-dessus, on pourra par exemple remarquer que la première étude n’a pas été répliquée — or, en sciences humaine, la réplication est capitale à cause du biais de publication qui entache possiblement la première communication sur un sujet nouveau). Quant à la seconde, elle souffre du même biais que la quasi totalité des travaux sur les enfants surdoués : elle est faite sur des échantillons d’enfants qui ont été repérés comme surdoués parce qu’ils ont des traits qui évoquent la douance. Les surdoués « discrets » sont donc exclus de ces études. Puisque le dépistage n’est pas systématique, l’échantillon est biaisé. Ces critiques sont raisonnables et recevables. Les auteurs en sont d’ailleurs parfaitement conscients et appellent explicitement à une réplication de leur expérience dans le premier cas, à de nouvelles études épidémiologiques mieux constituées dans le second.
Ce ne sont pourtant pas ces critiques fondées qu’on lit le plus souvent. Une des premières que l’on rencontre sur quasiment tous les sujets polémiques possibles et imaginables est « oui mais l’échantillon est trop petit » — indépendamment d’ailleurs de la taille de l’échantillon. Cet argument n’est pas recevable, et il faut préciser ici une ou deux choses sur la méthode statistique pour déboulonner ce sophisme du petit échantillon.
Prenons pour illustrer la suite l’étude de Gilles-Eric Séralini sur les rats nourris au maïs NK603 (rappel et critique fondée sur l’académie des sciences) et dans laquelle le chercheur a voulu montrer que le groupe de rats nourris avec l’OGM est en moins bonne santé que le groupe témoin, autrement dit que le NK603 a un effet négatif sur la santé des rats.
En statistique classique, on oppose une hypothèse par défaut appelée « hypothèse nulle », et qui correspond à l’absence d’effet, et une hypothèse dite alternative, qui dit le contraire. Le but du test statistique est de rejeter l’hypothèse nulle pour conclure que l’hypothèse alternative est vraie. Dans notre cas, l’hypothèse nulle est « Cet OGM n’a aucun effet sur la santé des rats » et l’hypothèse alternative « Cet OGM a un effet sur la santé des rats ».
A la fin de l’expérience qui oppose ici les rats nourris avec et sans OGM, on obtient des données, par exemple sur le taux de mortalité. Si le taux de mortalité dans le groupe nourris au NK603 est supérieur à celui du groupe témoin, cela n’est pas forcément la preuve d’un effet du maïs GM. En effet, il peut très bien y avoir par hasard un peu plus ou un peu moins de morts dans un des groupes. Un ou deux morts de plus dans un groupe de 100 ne veut peut-être rien dire. Mais peut-être que 20 morts de plus veulent dire quelque chose. Comment savoir à partir de quelle différence entre les groupes on pourra raisonnablement dire que le hasard n’est pas la bonne explication, et qu’il y a donc bien un effet du produit ? Voici comment on procède :
On commence par supposer l’hypothèse nulle (donc on « fait comme si » il n’y avait aucun effet). Cela permet de calculer la probabilité d’obtenir une différence aussi importante que celle qu’on a observée. Supposons qu’il y ait par exemple 20 morts dans le groupe témoin et 40 dans le groupe test. On peut calculer la probabilité d’obtenir une différence de cette taille (au moins 20 morts supplémentaires dans un groupe) par hasard. Si cette probabilité est élevée, par exemple 20 %, cela signifie que la différence observée n’a rien d’étonnant et ne prouve donc rien : tout s’explique bien par le hasard. Si au contraire la probabilité est faible (par convention, inférieure à 5 %), alors on considère que le hasard n’est plus une explication suffisante et qu’on a donc mis un effet du produit en évidence. On dit alors que la différence est significative.
Ce mot de « significatif » est souvent mal compris des journalistes et du grand public : il n’a pas le même sens que dans la langue ordinaire, et ne signifie pas « qui vaut la peine d’être mentionné ». Son sens est plus précis et peut se résumer en « suffisamment importante pour qu’on puisse en déduire un effet au-delà du seul hasard ».
Et la taille de l’échantillon dans tout ça ? Elle joue sur la significativité. Une augmentation de 10 % de la mortalité ne sera pas significative sur un échantillon de 30 individus, mais le sera vraisemblablement sur un échantillon de 10 000. La taille d’échantillon est donc intégrée dans le calcul de la significativité. Plus l’échantillon est petit, moins on a de chance de pouvoir conclure (autrement dit, d’avoir un résultat significatif).
Lorsque vous lisez un compte-rendu d’expérience et que le résultat est significatif, cela signifie qu’un tel résultat n’aurait pu apparaître par hasard que dans 5 % des cas, et on considère que cela permet de remettre en cause l’hypothèse du hasard. L’argument du petit échantillon n’est pas seulement faux, car si on trouve un résultat significatif avec un petit échantillon, cela signifie que l’effet est probablement très important — rappelez-vous que plus l’échantillon est petit, moins on a de chance de pouvoir conclure, et il faut donc un effet massif. Au contraire, un effet minime peut être démontré avec de gros échantillons. A tel point que des psychologues militent contre les gros échantillons pour éviter de multiplier les démonstrations d’effets significatifs mais tellement infimes qu’ils n’ont pas d’intérêt psychologique.
Si maintenant il n’y a pas d’effet significatif, alors on ne peut de toute manière rien conclure, indépendamment de la taille de l’échantillon. Mais il est bien évident qu’un résultat négatif (pas d’effet significatif) peu résulter soit d’une absence d’effet, soit du fait qu’un effet existe mais n’a pas été détecté. Cette détection est plus difficile si l’échantillon est petit. En conséquence, plus l’échantillon est petit, plus il est raisonnable de croire qu’il y a quand même un effet, mais que celui-ci n’a pas été détecté.
Autrement dit :
- Si le résultat d’une expérience est positif, plus l’échantillon est petit, plus le résultat est convaincant ;
- Si le résultat est négatif, plus l’échantillon est petit, plus il est crédible qu’il y ait quand même un effet, mais qu’on ne l’a pas détecté.
Un petit échantillon devrait donc renforcer, et non diminuer, la confiance qu’on accorde à l’hypothèse alternative.
Et pour Séralini ? L’argument que l’étude de Séralini serait trompeuse parce que l’échantillon de 200 rats serait trop petit est absurde, on vient de le voir. En réalité, si les résultats de Séralini avaient été significatifs, un petit échantillon aurait été un argument supplémentaire pour dire « si même avec un petit échantillon il a pu prouver un effet de l’OGM, c’est que cet effet est très important ». Mais ce qui compte n’est pas la taille de l’échantillon (d’ailleurs pas faible), mais la significativité. Ce qui fait que l’étude de Séralini ne prouve rien, c’est que ces résultats ne sont tout simplement pas significatifs.
Il faut donc comprendre que, quelle que soit la taille de l’échantillon, rien n’a été démontré… mais aussi que si l’échantillon avait été plus gros, cela aurait été encore plus convaincant. Car ne pas réussir à montrer un effet sur 200 rats est une chose, mais ne pas réussir à montrer un effet sur 10 000 rats, cela laisse vraiment penser que l’effet, s’il existe tout de même, est tellement minuscule que même une expérience de grande ampleur ne peut le mettre en évidence.
Nicolas Gauvrit
Il me semble avoir retrouver ce sophisme explicité dans le livre “la démocratie des crédules” de Gérald Bronner: les messages cachés de la Bible et Satan apparaissant dans les fumées d’une des tours jumelles =D
Ça ne peut pas être une coïncidence… il y a complot sceptique!
Tiens, je subodore Nicolas d’avoir traité ce sujet parce qu’on en a parlé hier, lors d’une petite discussion entre amis… ^^
Anty : en fait, le billet etait deja ecrit. La causalite est en sens inverse 😉
Ping : Le sophisme du petit échantillon | C@f&e...
Houla, je m’embrouille. Dans le livre de Gérald Bronner, c’est le sophisme de la négligence de la taille d’échantillon. Autrement dit, c’est l’inverse: avec un énorme échantillon, il devient possible de trouver toutes sortes de coïncidences “extraordinaires”.
Ici on parle (entre autres) des petits échantillons : http://cereales.lapin.org/index.php?number=2854#strips
Voila une explication trés clair d’un sujet qui n’est pas assez mis en avant , meme dans le monde des stats. Beau boulot.
Vous n’avez pas abordé le fait qu’avec des échantillons de petite taille, l’inconvénient c’est aussi bien le risque des faux positifs (détecter un effet quand il n’y en n’a pas).
Ainsi, il est vrai qu’un test sur un petit échantillon peut déceler des effets significatifs qui seraient réels s’il les valeurs mesurées étaient absolument exactes. Ce qui manque dans les petits échantillons, c’est une estimation correcte de la variance imputable à l’erreur (de mesure ou bruit environnemental, les deux sont confondus dans cette situation). On peut très bien faire cette erreur de deuxième type et déclarer significatifs des effets qui ne seraient liés qu’à l’incertitude sur la mesure.
C’est important à relever, car c’est bien ce qui conduit le “statistico-scepticisme” si j’ose dire. Parce que dans bien des cas, derrière les petits échantillons et le souci d’une estimation inappropriée de la variance sur la mesure, se cache un biais d’expérimentateur (conscient ou non, mais ne sous-estimons pas l’imperfection humaine).
L’exemple typique, c’est l’accumulation incroyable d’effets “significatifs” dans les études sur l’homéopathie qui ont des échantillons ridiculement insuffisants, effets qui ne se traduisent jamais dans les études plus sérieuses où les échantillons sont corrects et les protocoles moins sujets aux biais.
Normalement, si les effets sont assez forts pour être détectés comme significatifs avec de petits échantillons, alors on ne s’attend pas à ce qu’ils disparaissent en augmentant la taille de l’échantillon.
Si vous y réfléchissez par deux fois, il semblerait donc bien que votre argument selon lequel “significatif veut dire significatif indépendamment de la taille d’échantillon” ne tienne pas vraiment la route. Il faut bel et bien se méfier des échantillons de petite taille.
Ping : Le sophisme du petit échantillon | Sham ...
Ping : Epistémologie | Pearltrees
@Laurent, j’ai lu plusieurs fois votre commentaire pour essayer de bien comprendre la subtilité que vous présentez… mais non ca n’a pas fait tilt 🙂
A priori je ne suis pas d’accord avec vous (puisque la varianace est pris en compte dans le test stat), mais comme je ne suis pas certain d’avoir tout compris, pouvez vous essayer de reexpliquer?
Et en ce qui concerne l’eventuelle accumulation de tests significatifs sur de petits échantillons en homéopathie, pour moi c ‘est simplement lié au biais de publication…
Cdt,
il me semble peu discutable que le choix d’un échantillon “minimal” (au dessous duquel les résultats ne sont pas significatifs) en fonction des contraintes de la mesure a réaliser (ce pour quoi les sondages “politiques” réalisé sur quelques quidams n’ont aucune valeur “scientifique” (d’autant que ce sont les statistiques “politiques” (de type “indication de vote”) qui n’ont souvent aucune valeur scientifique de par leur utilisation par les médias…
Par ailleurs, je m’étonne que vous ne preniez comme exemple de statistiques, celles qui sont liées à “l’affaire séralini”, chose autrement complexe que la seule question de l’utilisation des statistiques, avec des aspects scientiques certes, mais aussi politiques, sociologiques méme (en terme d’utilisation de “collectifs de mobilisation par les pro et les anti séralini) Car que veut dire “ces résultats ne sont pas significatifs” alors que vous ne comprenez visiblement pas ou voulait en venir ce chercheur (qui ne cherchait surtout pas à “prouver” ce que vous avancez) Bref, cet exemple, au lieu de nous éclairer, obscurcis plutot la vision déja peu clair du quidam sans connaissance scientifique particuliére…
” dans l’imaginaire collectif, les enfants surdoués sont des être particulièrement sensibles et de ce fait plus susceptibles de développer des troubles anxieux, par exemple. Or, les publications disponibles suggèrent bien au contraire que l’anxiété est plus faible en moyenne chez les enfants précoces (Martin et al., 2010). Lorsque que des travaux comme ceux-là (mais on pourrait bien sûr citer des centaines d’autres cas) sont diffusés sur les réseaux sociaux par exemple, la réaction des internautes est souvent de chercher à discréditer les résultats. ”
Je suis sceptique sur “citer des centaines d’autres cas” (sauf si il s’agit d’autres sujets d’études que les HP 🙂 )
Mais en ce qui concerne les HP, effectivement .. les HP détectés sont souvent des HP qui ont eu des soucis à un moment ou un autre (ou dont un membre de la fratrie a eu des soucis, quand les parents ont pu faire tester toute la fratrie).Et l’anxiété n’est pas le moindre d’entre eux.
C’est le même mécanisme qui donne 4 fois plus de HP garçons que filles … dans les cabinets des psys.. (parce que les filles acceptent mieux de “rentrer dans le moule” et de se conformer aux attentes scolaires, elles présentent donc des problèmes.. quand elles en présentent, plus tard que les garçons).
Il faudrait faire cette étude en Israël par exemple où les tests sont systématiques pour détecter les EHP… Ainsi plus de biais dans l’échantillon.
Je pense comme Laurent, sans doute pour une raison simple : j’ai une maladie très rare du sommeil (Hypersomnie). D’après wikipedia, même si on ne peut pas s’y fier à 100%, ça touche 1 personne sur 10 000 mille à 500 000.
Si par exemple des statisticiens un jour venaient dans ma classe pour faire une étude là dessus, ils pourraient penser que cette maladie touche 1 personne sur 36. S’ils prenaient tous les élèves du lycée, ça fait 1 personne sur 2 000. S’ils prenaient ma ville, 1 personne sur 10 000 …
Un gros échantillon permet, à mon avis, d’avoir un résultat beaucoup plus fiable qu’un petit, c’est pour ça que si je trouve les échantillons trop petits, je ne m’intéresse pas à l’étude, ou alors j’y fais très attention.
@Laurent : non, vous faites justement une erreur du type “sophisme du petit échantillon”. Mes réponse dans votre message ci-dessous :
“Vous n’avez pas abordé le fait qu’avec des échantillons de petite taille, l’inconvénient c’est aussi bien le risque des faux positifs (détecter un effet quand il n’y en n’a pas).”
>> Non. Au risque de 5%, la probabilité de conclure à un effet alors qu’il n’existe pas est toujours de 5%.
Ainsi, il est vrai qu’un test sur un petit échantillon peut déceler des effets significatifs qui seraient réels s’il les valeurs mesurées étaient absolument exactes. Ce qui manque dans les petits échantillons, c’est une estimation correcte de la variance imputable à l’erreur (de mesure ou bruit environnemental, les deux sont confondus dans cette situation).
>> Non. Tout cela est pris en compte dans le test (à condition bien sûr d’utiliser avec un petit échantillon un test adapté aux petits échantillons, comme le test binomial, par exemple). Si votre échantillon est très petit, le résultat est simplement que vous ne pourrez pas conclure, mais la probabilité de conclure à un effet s’il n’existe pas est toujours de 5% exactement.
On peut très bien faire cette erreur de deuxième type et déclarer significatifs des effets qui ne seraient liés qu’à l’incertitude sur la mesure.
>> Il s’agit de l’erreur de première espèce, je pense. En encore une fois, les variations liées aux erreurs de mesures sont prises en compte dans les tests.
C’est important à relever, car c’est bien ce qui conduit le « statistico-scepticisme » si j’ose dire. Parce que dans bien des cas, derrière les petits échantillons et le souci d’une estimation inappropriée de la variance sur la mesure, se cache un biais d’expérimentateur (conscient ou non, mais ne sous-estimons pas l’imperfection humaine).
>> Je ne sais pas ce que vous appelez l’estimation inapproprié de la variance. Et les tests prennent aussi en compte l’imperfection humaine, et toutes les erreurs aléatoires possibles.
L’exemple typique, c’est l’accumulation incroyable d’effets « significatifs » dans les études sur l’homéopathie qui ont des échantillons ridiculement insuffisants, effets qui ne se traduisent jamais dans les études plus sérieuses où les échantillons sont corrects et les protocoles moins sujets aux biais.
>> Non, les petits échantillons ne peuvent expliquer que l’on trouve un effet qui n’existe pas. Mais le biais de publication ou la sélection des données, oui.
Normalement, si les effets sont assez forts pour être détectés comme significatifs avec de petits échantillons, alors on ne s’attend pas à ce qu’ils disparaissent en augmentant la taille de l’échantillon.
>> En effet, et c’est pourquoi je précise bien que plus l’échantillon est grand, plus on a de chance de mettre en évidence un effet (s’il existe).
Si vous y réfléchissez par deux fois, il semblerait donc bien que votre argument selon lequel « significatif veut dire significatif indépendamment de la taille d’échantillon » ne tienne pas vraiment la route. Il faut bel et bien se méfier des échantillons de petite taille
>> Je pense que vous avez mal lu, ou peut-être confondez-vous erreur de première et de seconde espèce? Ce qui est sûr, c’est que pour tout test et quelle que soit la taille de l’échantillon, s’il n’existe aucun effet, la probabilité d’erreur est de 5%. C’est la définition-même du risque associé à un test.
@Marcel Campagne : Des réponses dans votre commentaire ci-dessous :
“il me semble peu discutable que le choix d’un échantillon « minimal » (au dessous duquel les résultats ne sont pas significatifs) en fonction des contraintes de la mesure a réaliser (ce pour quoi les sondages « politiques » réalisé sur quelques quidams n’ont aucune valeur « scientifique » (d’autant que ce sont les statistiques « politiques » (de type « indication de vote ») qui n’ont souvent aucune valeur scientifique de par leur utilisation par les médias…
>> Vous mélangez plusieurs choses. Les sondages faits sur 2 personnes sont tout aussi scientifiques que ceux fait sur 1000. La différence, c’est qu’avec 2 personnes l’intervalle de confiance sera toujours 0%-100%. Autrement dit, le sondage ne nous apprend alors rien.
>> Je n’aborde en aucun cas les questions de politique et de médias.
>> Mais il est vrai qu’un sondage d’intention de vote mesure les intentions de vote énoncés par les personnes à moment donné, ce qui n’est pas la même chose que les intentions de vote réelle ou que le vote lui-même.
Par ailleurs, je m’étonne que vous ne preniez comme exemple de statistiques, celles qui sont liées à « l’affaire séralini », chose autrement complexe que la seule question de l’utilisation des statistiques, avec des aspects scientiques certes, mais aussi politiques, sociologiques méme (en terme d’utilisation de « collectifs de mobilisation par les pro et les anti séralini) Car que veut dire « ces résultats ne sont pas significatifs »
>> ce que veut dire précisément “ces résultats ne sont pas significatifs” est le sujet même de ce billet. Je pense que vous devriez le relire.
alors que vous ne comprenez visiblement pas ou voulait en venir ce chercheur (qui ne cherchait surtout pas à « prouver » ce que vous avancez)
>> Je pense que vous êtes à peu près seul à penser que Séralini ne voulait pas montrer un effet négatif de l’OGM. En tout état de cause, la presse écrite, la télévision, et Séralini lui-même dans les divers documentaires que j’ai pu voir, répètent à l’envi que c’est cela que montre son étude… Du coup je ne comprends pas bien votre argument.
>> Ceci étant, cela ne change rien au tests qui ont été fait et publiés dans l’article de Séralini, et dont aucun ne donne de résultat significatifs.
Bref, cet exemple, au lieu de nous éclairer, obscurcis plutot la vision déja peu clair du quidam sans connaissance scientifique particulière…
>> Vous m’en voyez désolé, parce que j’ai fait de mon mieux pour être clair. Nobody’s perfect.
@Le Cheval à Rayures : Des réponses à votre commentaire ci-dessous.
» dans l’imaginaire collectif, les enfants surdoués sont des être particulièrement sensibles et de ce fait plus susceptibles de développer des troubles anxieux, par exemple. Or, les publications disponibles suggèrent bien au contraire que l’anxiété est plus faible en moyenne chez les enfants précoces (Martin et al., 2010). Lorsque que des travaux comme ceux-là (mais on pourrait bien sûr citer des centaines d’autres cas) sont diffusés sur les réseaux sociaux par exemple, la réaction des internautes est souvent de chercher à discréditer les résultats. »
Je suis sceptique sur « citer des centaines d’autres cas » (sauf si il s’agit d’autres sujets d’études que les HP )
>> Je parle bien sûr en général, et non sur les HP.
Mais en ce qui concerne les HP, effectivement .. les HP détectés sont souvent des HP qui ont eu des soucis à un moment ou un autre (ou dont un membre de la fratrie a eu des soucis, quand les parents ont pu faire tester toute la fratrie).Et l’anxiété n’est pas le moindre d’entre eux.
>> Oui… ce qui fait qu’il devrait y avoir une sur-représentation des précoces anxieux, et c’est l’inverse qu’on observe. Mais peu importe, ce n’est pas le thème de ce billet (mais je reviendrai bientôt sur les enfants précoces).
C’est le même mécanisme qui donne 4 fois plus de HP garçons que filles …
>> Il se trouve que les scores de QI diffèrent entre filles et garçons. Pas en moyenne, mais en variance : les garçons ont des QI plus étalés que les filles, ce qui explique à la fois la sur-représentation des garçons chez les surdoués et chez les enfants avec retard mental. Votre hypothèse n’est donc pas la seule en lice 😉
dans les cabinets des psys.. (parce que les filles acceptent mieux de « rentrer dans le moule » et de se conformer aux attentes scolaires, elles présentent donc des problèmes.. quand elles en présentent, plus tard que les garçons).
Il faudrait faire cette étude en Israël par exemple où les tests sont systématiques pour détecter les EHP… Ainsi plus de biais dans l’échantillon.
>> On retrouve en Israël la sur-représentation masculine.
>> Je reviendrai sur la question des EIP dans un prochain billet.
@ Danie. Vous faites vous aussi précisément un sophisme du petit échantillon, ce qui me fait penser qu’il s’agit là d’un thème très intéressant et d’une intuition forte. Des réponses ci-dessous.
Je pense comme Laurent, sans doute pour une raison simple : j’ai une maladie très rare du sommeil (Hypersomnie). D’après wikipedia, même si on ne peut pas s’y fier à 100%, ça touche 1 personne sur 10 000 mille à 500 000.
Si par exemple des statisticiens un jour venaient dans ma classe pour faire une étude là dessus, ils pourraient penser que cette maladie touche 1 personne sur 36.
>> Si des scientifiques décident de choisir une classe, il est très improbable que cela tombe sur la vôtre. Du coup, le cas que vous présentez, de probabilité très faible, peut rentrer dans les 5% d’erreurs.
>> Mais si le cas se présentait, ils calculeraient l’intervalle de confiance pour estimer la prévalence de l’hypersomnie. Au risque de 5%, cet intervalle est 0,07 %- 15 % (il y aurait alors effectivement une erreur d’estimation, mais pas aussi grave que ce que vous pensez).
>> Dans un autre classe, ils trouveraient probablement une estimation correcte. Car avec 0 observation sur 36, l’intervalle de confiance devient 0% – 10%, ce qui est juste puisque le vrai pourcentage, 0,01%, est bien dans l’intervalle.
S’ils prenaient tous les élèves du lycée, ça fait 1 personne sur 2 000. S’ils prenaient ma ville, 1 personne sur 10 000 …
>> S’il prennent le lycée entier, l’intervalle de confiance devient “de 1 à 28 sur 10 000”, qui est juste.
Un gros échantillon permet, à mon avis, d’avoir un résultat beaucoup plus fiable qu’un petit, c’est pour ça que si je trouve les échantillons trop petits, je ne m’intéresse pas à l’étude, ou alors j’y fais très attention.
>> C’est parce que vous confondez deux choses:
>> Le résultat brut de l’étude (le pourcentage observé) est effectivement “moins fiable” avec un échantillon petit,
>> Mais l’intervalle de confiance, toujours indiqué dans les publications scientifiques, est toujours aussi fiable (risque d’erreur : 5%). La différence est qu’avec un petit échantillon, on aura un échantillon très large (du type 10%-80%) pas très informatif.
>> Pour les sondages, on dit qu’un résultat est fiable à 3% près environ sur un échantillon de 1000 personnes. Sur un échantillon de 10 personnes, il est fiables à… 30% près. Si vous faite un sondage et trouvez 50% d’intention de vote, par exemple, vous pourrez dire “le taux d’intention de vote est compris entre 20 et 80%”. Si vous trouvez 50% sur un échantillon de 1000, vous pourrez dire “le taux est compris entre 47 et 53%”. Les deux affirmations sont aussi fiables l’une que l’autre (risque d’erreur 5%), mais la première est évidemment peu informative !
>> Dans le billet, je parle de test, mais cela se transpose parfaitement aux intervalles de confiance. La conclusion est : les intervalles de confiances ont la même fiabilité quelle que soit la taille de l’échantillon… mais plus l’échantillon est petit, plus l’intervalle de confiance est grand… au point de ne plus avoir de sens parfois.
Hum … ok je vois. ^^ Mais la plupart du temps je tombe sur des articles où l’intervalle de confiance n’est pas indiqué (ou je ne fait pas assez attention …) peut-être parce que je ne lis pas ces résultats dans des publications scientifiques (souvent dans des journaux qui parlent de l’étude …) la majorité du temps.
Par contre, j’ai du mal à comprendre pourquoi vous concluez : -Si le résultat d’une expérience est positif, plus l’échantillon est petit, plus le résultat est convaincant.
ce que veut dire nicolas, je crois, c’est que plus l’effet est fort et plus avez de chance de le mettre en évidence par un petit échantillon. ou si vous préférez, si vous avez un résultat significatif avec un petit échantillon cela veut dire que l’effet est très fort.
@ Danie. Oui, ma phrase est en effet discutable car floue. Comme le dit Nima, ce que je voulais dire par là, c’est que trouver un effet avec un petit échantillon laisse supposer que cet effet est fort. Au contraire, avec un gros échantillon, on peut montrer des effets réels mais tellement faibles qu’ils n’ont pas d’intérêt (un exemple : on a montré un effet des gènes sur les difficultés en mathématiques sur un échantillon énorme… mais la génétique explique moins de 1% des variations de niveau mathématique… c’est donc certes un facteur, mais sans doute négligeable).
Vous avez raison de tiquer sur cette phrase, car on pourrait la comprendre comme “Si un résultat est significatif avec un petit échantillon, la probabilité que l’effet soit réel est supérieur”, qui est fausse.
Pourtant, c’est bien ce genre de conclusion que l’on aimerait avoir : quelque chose comme “la probabilité que l’effet existe est de XX %”. Avec la statistique classique, on n’a pas ce genre d’information. C’est pourquoi beaucoup de chercheurs préconisent de passer à la statistique bayésienne, qui fait justement cela… encore un vaste sujet.
Intéressant.
Un truc intéressant de la tragédie Séralini, que j’ai noté sur une news alarmist contre le nucléaire, est que si on a beaucoup de données et peu d’éthique, on peut selectionner dans le tas une anomalie bien grosse, bien significative à 95%, mais en oubliant de dire qu’on avait plus de 20 possibilités sous la main.
c’est comme ca qu’on a trouvé des anomalie de leucémie près des centrales, lmais uniquement de certaines, et sans relation dose effet…
une autre problème qu’on m’a explqué professionellement est celui de la sélectrion des variables signoficatives.
une image :
vous analisez les résulats du bac, entre les recalés/recus, l’age et la finale.
une analyse de donnés simple va vous donner une prédiction de rsussite qui mélange age et note.
pourtant seule la note compte…
on avait déposé un brevet de méthode pour détecter les quelques variables qui entrainent les autres et éviter ce drame statistique…
Bonjour a tous, deja desole pour les accents je ne suis pas chez moi et sur clavier qwerty.
Bon sinon c’est bien gentil toutes ces considerations sur les statistiques et les tailles d’echantillonnages, je suis parfaitement d’accord avec l’auteur de l’article.
Sauf sur ce que vous repondez a Laurent: “Et les tests prennent aussi en compte l’imperfection humaine, et toutes les erreurs aléatoires possibles”.
Pour faire court et peut-etre direct : ceci n’est pas vrai –> les tests statistiques utilisent les donnees qu’on leur donne, comment pourraient-ils inferer sur d’eventuels biais anterieurs a la prise de donnee? (biais d’experimentateur par exemple).
Sinon le probleme souleve par cet article est reel mais deja suremonte en Science. Voir les statistiques utilisant les tailles d’effet (d de cohen, coefficient de regression, odd ratio, Information Theory, etc.). Ces statistiques permettent de differencier effet signifivatif statistiquement et effet significatif biologiquement! Pour faire simple ce sont des methodes de re-echantillonnage aleatoire des donnees afin de generer de nouveaux echantillons et donc une distribution des potentielles valeur que peuvent prendre les valeurs des tests statistiques appliques. Les p-values sont depassees et ce a juste titre : elles ne sont pas informatives du tout!!
Malheureusement toutes ces statistiques sont peu utilisees encore (je parle pour mon champs de recherche qui est la biologie evolutive et comportementale).
“Sauf sur ce que vous repondez a Laurent: « Et les tests prennent aussi en compte l’imperfection humaine, et toutes les erreurs aléatoires possibles ».
Pour faire court et peut-etre direct : ceci n’est pas vrai ”
Un peu radical comme réponse, cela dépend du protocole, il ya TJRS des biais, et il et possible d’en lisser les effets si on les intégre dans le protocle. Cela a un cout, parfois il n’est pas possible de tout contrôler.
Les plans d’expérience permettent de prendre en compte tous les effets possibles, pour caricaturer on va eviter de demander au stagiaire de s’occuper des cas témoins pendant que l’on se charge de la nouvelle molécule. Et si un biais reste “non estimable”, du genre il rajoute +2 à toutes les mesure, le plan d’expérience permet d’en supprimer l’effet et de valider la comparaison avec le témoin.
Pour résumer un test stat prend sa valeur dans un cadre controle.
@ Luc Dunoyer. Des réponses ci-dessous dans votre commentaire.
Sauf sur ce que vous repondez a Laurent: « Et les tests prennent aussi en compte l’imperfection humaine, et toutes les erreurs aléatoires possibles ».
Pour faire court et peut-etre direct : ceci n’est pas vrai –> les tests statistiques utilisent les donnees qu’on leur donne, comment pourraient-ils inferer sur d’eventuels biais anterieurs a la prise de donnee? (biais d’experimentateur par exemple).
>> Les tests se fondent sur l’idée qu’il y a des variations “aléatoires” (c’est la variance “erreur dans l’annota”). Ces variations incluent aussi les erreurs de mesure. C’est dans ce sens qu’il faut comprendre ma phrase.
>> Si les erreurs de mesure sont importantes, elles augmentent la variation inexplicable (“erreur”), et le risque qu’on ne puisse rien conclure.
Sinon le probleme souleve par cet article est reel mais deja suremonte en Science. Voir les statistiques utilisant les tailles d’effet (d de cohen, coefficient de regression, odd ratio, Information Theory, etc.). Ces statistiques permettent de differencier effet signifivatif statistiquement et effet significatif biologiquement!
>> En effet ce n’est pas en science que se pose le problème, mais je parle ici d’un sophisme qu’on rencontre typiquement sur les forums rationalistes ou dans la presse grand public, pas dans les articles scientifiques.
Pour faire simple ce sont des methodes de re-echantillonnage aleatoire des donnees afin de generer de nouveaux echantillons et donc une distribution des potentielles valeur que peuvent prendre les valeurs des tests statistiques appliques. Les p-values sont depassees et ce a juste titre : elles ne sont pas informatives du tout!!
Malheureusement toutes ces statistiques sont peu utilisees encore (je parle pour mon champs de recherche qui est la biologie evolutive et comportementale).
>> Vous voulez parler du bootstrap ? Ou bien des analyses bayésiennes ?
>> En ce qui concernent les stats bayésiennes, elles ont le vent en poupe et je pense qu’elles seront amenées à se développées grandement. Et elle change en effet complètement la manière de penser.
Salut,
Je parle des bootstraps oui mais aussi de toutes les statistiques qui se basent sur la meme idee de base (j’en ai cite quelques unes plus haut).
Sinon la marge d’erreur dans la variance ne refletera les erreurs experimentales uniquement si les choix des statistiques et des hypotheses sont fait a priori de la prise de donnee, comme cela doit etre le cas, et non a posteriori, comme cela est malheureusement souvent le cas (j’appelle cela la chasse aux etoiles ou plus communement Mario World …).
Par contre concernant les stats bayesienne j’avoue etre un peu sceptique mais je sais que cela vient surement du fait que je n’y suis pas assez familier :-).
Désolé si je répète ce que d’autres ont dit, mais je n’ai pas le temps de lire tous les commentaires.
Il y a en fait des arguments contre le sophisme (pour la méfiance envers les petits échantillons), et toute une littérature là-dessus. John Ioannidis en a fait toute une carrière. Je vous renvoie à deux articles édifiants:
http://dcscience.net/ioannidis-associations-2008.pdf
http://www.gwern.net/docs/2013-button.pdf
En gros il y a deux problèmes. Je crois que le raisonnement de Nicolas présuppose que la taille d’effet observée est la taille d’effet réelle. Or les études à petits effectifs ont tendance à surestimer la taille des effets, pour tout un ensemble de raisons détaillées dans le 1er article. Du coup la plupart ne sont pas répliquées par la suite, ou ne sont répliquées que par d’autres études avec un effectif plus grand, qui trouvent une taille d’effet plus petite.
A cela s’ajoute le fait que tu te places dans la situation du chercheur qui observe ses stats, i.e. tous les résultats positifs et tous les négatifs. Mais la réalité c’est qu’on observe les stats des autres après publication, et qu’il y a un biais de publication massif en faveur des résultats positifs.
La conséquence de tout cela, c’est que plus une étude publiée rapportant un effet positif a un petit effectif, plus le risque que ce soit un faux positif est grand.
Et l’anecdote personnelle: ayant fait ma propre étude de neuroimagerie de la dyslexie avec un échantillon plus grand que toutes les études précédemment publiées, je constate que je ne réplique rien! (et vous pouvez compter sur le fait que je vais le publier!)
Merci Franck,
Je réponds ci-dessous dans ton message (après un paragraphe général).
Commençons par préciser qu’effectivement, les choses sont un peu plus complexes que ne le laisse voir mon billet. Pour le dire simplement : si on fait une expérience, la probabilité d’avoir un faux positif ne dépend pas de la taille de l’échantillon. Si donc vous annoncez à l’avance votre expe, que vous la réalisez, et qu’elle est positive, l’argument “oui mais c’est parce que l’échantillon est petit” ne tient pas. Mais en raisonnant “à rebours”, les choses sont différentes. Je pense revenir là-dessus dans un prochain billet.
Le commentaire de Franck est le suivant :
En gros il y a deux problèmes. Je crois que le raisonnement de Nicolas présuppose que la taille d’effet observée est la taille d’effet réelle.
>> Non, la taille d’effet n’intervient pas ici.
Or les études à petits effectifs ont tendance à surestimer la taille des effets, pour tout un ensemble de raisons détaillées dans le 1er article.
>> J’irai lire ça si j’ai le temps, mais je suppose que tu veux dire “parmi les résultats positifs”? Sinon, comme on utilise des estimateurs non biaisés, la taille d’effet observée est la bonne en moyenne (ce que ne veut pas dire en général)…
Du coup la plupart ne sont pas répliquées par la suite, ou ne sont répliquées que par d’autres études avec un effectif plus grand, qui trouvent une taille d’effet plus petite.
>> Je pense que c’est lié au biais de publication, pour le coup. Si on publiait tout, les tailles observées en moyennes seraient identiques.
A cela s’ajoute le fait que tu te places dans la situation du chercheur qui observe ses stats, i.e. tous les résultats positifs et tous les négatifs. Mais la réalité c’est qu’on observe les stats des autres après publication, et qu’il y a un biais de publication massif en faveur des résultats positifs.
>> Oui, tu as tout à fait raison (c’est signalé dans un post précédent)
La conséquence de tout cela, c’est que plus une étude publiée rapportant un effet positif a un petit effectif, plus le risque que ce soit un faux positif est grand.
>> Oui, et c’est là que j’ai simplifié les choses dans le billet. Le sophisme que je dénonce, c’est celui qui consiste à dire “si on fait une étude avec un petit échantillon, on a plus de chance de tomber sur un faux positif”, ce qui est une erreur. En revanche, “il y a plus de faux positifs parmi les études POSITIVES réalisées avec de petits échantillons est juste”. C’est comme souvent un problème d’inversion à la Bayes.
Et l’anecdote personnelle: ayant fait ma propre étude de neuroimagerie de la dyslexie avec un échantillon plus grand que toutes les études précédemment publiées, je constate que je ne réplique rien! (et vous pouvez compter sur le fait que je vais le publier!)
>> Je n’en doute pas !
Je crois qu’on est d’accord. Mais du coup, compte tenu de tous ces autres facteurs qui interviennent au-delà de la théorie statistique, on ne peut pas reprocher aux gens d’être méfiants vis-à-vis des études à petits effectifs. Ils ont raison! On peut reprocher à certains d’utiliser cet argument à tort et à travers, de manière indiscriminée, parfois sans vérifier les effectifs et sans prendre la peine de s’intéresser aux tailles d’effet, etc., mais globalement cette méfiance est légitime.
C’est ainsi que quand j’ai vu sortir l’essai clinique des jeux videos sur les enfants dyslexiques, avec 10 enfants dans chaque groupe, j’ai eu exactement la même réaction que Dorothy Bishop:
http://deevybee.blogspot.co.uk/2013/03/high-impact-journals-where.html
Merci pour ce billet et pour les commentaires et réponses très instructifs.
Ping : Le paradoxe du petit échantillon | Scilogs.fr :Raison et psychologie