Soit p la proportion d'un caractère dans une population. On choisit un échantillon de taille n dans cette population :
on note Xn la variable aléatoire qui à cet échantillon associe le nombre d'individus possédant le caractère en question ;
on note Fn la variable aléatoire qui à cette échantillon associe la proportion d'individu possédant le caractère en question ;
soit k∈[0;n] :
P(Xn=k)=P(Fn=nk)
Définition
Intervalle de fluctuation asymptotique au seuil 0,95
Soit Fn une variable aléatoire « fréquence ». L’intervalle de fluctuation asymptotique au seuil de 0,95 de Fn est :
In=[p−1,96np(1−p);p+1,96np(1−p)]
P(Fn∈In)≥0,95
Théorème
Échantillonnage et intervalle de fluctuation au seuil 0,95 : traduction pratique
On connaît la probabilité p d’apparition d’un certain caractère. On veut estimer la probable fréquence Fn d’apparition de ce caractère au sein d’un échantillon de taille n. Si on a simultanément :
n≥30
np≥5
n(1−p)≥5
Alors :
P(Fn∈In)≈0,95
Exemple
Reprenons l’exemple de la cantine du collège.
Le collège compte 250 élèves mangeant à la cantine.
On a p=0,75.
Le responsable des achats privilégie le fait que tous les enfants qui veulent de la bûche puissent en avoir. Il ne veut pas prendre un risque plus élevé que 2,5 %.
n=250>30, 250×0,75=187,5>5, et 250×(1−0,75)=62,5>5 donc on est bien dans les conditions d’utilisation d’un intervalle de fluctuation asymptotique.
L’intervalle de fluctuation au seuil de 0,95 est I250=[0,75−1,962500,75(1−0,75);[0,75+1,962500,75(1−0,75)]≈[0,70;0,80].
Il y a donc 5 % de chances que la proportion d’élèves ne voulant pas de bûche ne soit pas dans cet intervalle : 2,5 % de chances qu’il y en ait moins, 2,5 % qu’il y en ait plus.
Le responsable choisit donc d’acheter des bûches pour 80 % des élèves, soit 0,8×250=200 bûches. Il ne prend un risque que de 0,025 qu’il y ait plus de 200 élèves voulant de la bûche.
Cela a permis d’éviter l’achat de 50 bûches qui avaient 97,5 % de chances de finir à la poubelle.
Remarque
Comme il y a n au dénominateur, plus n est grand, plus l’intervalle est réduit autour de p : les résultats ont moins de risque de fluctuer si on prend un plus grand échantillon, ils seront donc plus fiables.
BEstimation et intervalle de confiance
Théorème
Estimation et intervalle de confiance
Dans le but d’estimer la probabilité p d’apparition d’un certain caractère, on le teste sur un échantillon de taille n. On note f la fréquence d’apparition du caractère dans l’échantillon étudié. Alors :
P(p∈[f−n1;f+n1])≥0,95
Cet intervalle est appelé intervalle de confiance de p au niveau de confiance 0,95.
Exemple
Reprenons l’exemple du sondage sur l’abstentionnisme. L’étude se fait sur un échantillon de n=1000 personnes. La fréquence observée sur l’échantillon est de 0,195. L’intervalle de confiance au niveau de confiance 0,95 de la proportion de français ayant l’intention de s’abstenir est donc :
[0,195−10001;0,195+10001]=[0,163;0,227]
On peut donc affirmer, avec un risque de se tromper inférieur à 0,05, qu’entre 16,3 % et 22,7 % des français ont l’intention de s’abstenir.
Remarque
On calcule facilement que l’amplitude d’un intervalle de confiance au niveau de confiance 0,95 vaut n2.
Plus l’échantillon étudié est grand, plus l’intervalle de confiance se rétrécit : on est plus précis.
Propriété
Déterminer une taille d'échantillon suffisante
Soit p la proportion d'un caractère dans une population. Pour déterminer p avec une précision de t % dans cette population, la valeur minimale de la taille n de la population doit être solution de l'équation :
n2=100t
équivalent à n=(t200)2.
Exemple
Si maintenant on voulait estimer le taux d’abstention par un intervalle de confiance au niveau de confiance 0,95 d’amplitude de 1 %, il faudrait étudier un échantillon de taille n telle que :
n2=0,01
donc n=(0,012)2=40000.
Il faudrait donc interroger 40000 personnes pour obtenir une telle précision.