Échantillonnage et intervalle de fluctuation asymptotique : version théorique
Soit Xn une variable aléatoire suivant la loi B(n;p), p connu. Soit Fn la fréquence associée à Xn : Fn=nXn. Soit α un réel de ]0;1[. Soit uα l’unique réel tel que P(−uα≤N≤uα)=1−α, N étant une variable aléatoire suivant la loi N(0;1).
limn→+∞P(Fn∈In)=1−α
avec In=[p−uαnp(1−p);p+uαnp(1−p]
In est appelé intervalle de fluctuation asymptotique de Fn au seuil 1−α. Il contient Fn avec un probabilité d’autant plus proche de 1−α que n est grand.
Théorème
Échantillonnage et intervalle de fluctuation : traduction pratique
Soit α un réel de ]0;1[. On connaît la probabilité p d’apparition d’un caractère particulier. On veut estimer la probable fréquence f d’apparition de ce caractère au sein d’un échantillon de taille n. Si on a simultanément :
n≥30
np≥5
n(1−p)≥5
Alors :
P(f∈In)≈1−α
Remarque
On notera bien qu’on est dans le cas d’une approximation : on peut seulement dire que Fn a environ (si n suffisamment grand) une probabilité de 1−α de se trouver dans In.
Propriété
Intervalle de fluctuation asymptotique au seuil 0,95
On se souviendra que u0,05≈1,96 (voir chapitre 11). Ainsi, l’intervalle de fluctuation asymptotique au seuil de 0,95 est :
In=[p−1,96np(1−p);p+1,96np(1−p)]
Exemple
Reprenons l’exemple de la cantine du collège.
Le collège compte 250 élèves mangeant à la cantine.
On a p=0,75.
Le responsable des achats privilégie le fait que tous les enfants qui souhaitent de la bûche puissent en avoir. Il ne veut pas prendre un risque plus élevé que 2,5 %.
n=250>30, 250×0,75=187,5>5, et 250×(1−0,75)=62,5>5 donc on est bien dans les conditions d’utilisation d’un intervalle de fluctuation asymptotique.
L’intervalle de fluctuation au seuil de 0,95 est I250=[0,75−1,962500,75(1−0,75);0,75+1,962500,75(1−0,75)]≈[0,70;0,80]
Il y a donc 5 % de chances que la proportion d’élèves ne voulant pas de bûche ne soit pas dans cet intervalle : 2,5 % de chances qu’il y en ait moins, 2,5 % qu’il y en ait plus.
Le responsable choisit donc d’acheter des bûches pour 80 % des élèves, soit 0,8×250=200 bûches. Il ne prend un risque que de 0,025 qu’il y ait plus de 200 élèves voulant de la bûche.
Cela a permis d’éviter l’achat de 50 bûches qui avaient 97,5 % de chances de finir à la poubelle.
Remarque
Comme il y a n au dénominateur, plus n est grand, plus l’intervalle est réduit autour de p : les résultats ont moins de risque de fluctuer si on prend un plus grand échantillon, ils seront donc plus fiables.
BEstimation et intervalle de confiance
Théorème
Estimation et intervalle de confiance
Dans le but d’estimer la probabilité p d’apparition d’un certain caractère, on le teste sur un échantillon de taille n. On note f la fréquence d’apparition du caractère dans l’échantillon étudié.
Si on a simultanément :
n≥30
nf≥5
n(1−f)≥5
Alors :
P(p∈[f−n1;f+n1])≥0,95
Cet intervalle est appelé intervalle de confiance de p au niveau de confiance 0,95.
Exemple
Reprenons l’exemple du sondage sur l’abstentionnisme. L’étude se fait sur un échantillon de n=1000 personnes. La fréquence observée sur l’échantillon est de 0,195. L’intervalle de confiance au niveau de confiance 0,95 de la proportion de français ayant l’intention de s’abstenir est donc :
[0,195−10001;0,195+10001]=[0,163;0,227]
On peut donc affirmer, avec un risque de se tromper inférieur à 0,05, qu’entre 16,3 % et 22,7 % des français ont l’intention de s’abstenir.
Remarque
On calcule facilement que l’amplitude d’un intervalle de confiance au niveau de confiance 0,95 vaut n2.
Plus l’échantillon étudié est grand, plus l’intervalle de confiance se rétrécit : on est plus précis.
Exemple
Si maintenant on voulait estimer le taux d’abstention par un intervalle de confiance au niveau de confiance 0,95 d’amplitude de 1 %, il faudrait étudier un échantillon de taille n telle que :
n2=0,01
donc n=(0,012)2=40000
Il faudrait donc interroger 40000 personnes pour obtenir une telle précision.