Exercice 1 : Un distributeur de café est censé remplir des gobelets de 20 cl, mais une étude sur 150 cafés a révélé que le volume réel versé varie d'un gobelet à l'autre, selon une distribution normale avec une espérance de 15 cl. Pour vérifier cette valeur avec un seuil de signification de 5 %, un échantillon de 23 cafés a été étudié. La moyenne de cet échantillon est de 14,2 cl, avec un écart-type de 1,3 cl. Il s’agit d’un test bilatéral de comparaison de la moyenne d’une population mu0 = 15 à celle d’un de ses échantillons de petite taille n = 23 < 30 où X suit une loi normale, et l’écart-type est inconnu : On corrige l’écart-type : Sc^2 = (n/(n-1)) S^2 donc Sc = sqrt(23/22) * 1,3 ~= 1,329 Formulation des hypothèses : H0 : mu = 15 H1 : mu != 15 20n = 460 > N = 150, donc la population est petite relativement à l’échantillon : N < 20n, et le tirage est sans remise (on ne peut pas remettre une expérience), donc on a : Correction hypergéométrique : sigmaX = (Sc / sqrt(n)) * sqrt((N - n) / (N - 1)) ~= (1,329 / sqrt(23)) * sqrt(127 / 149) ~= 0,256 La statistique : T = |14,2 - 15| / sigmaX ~= 0,8 / 0,256 ~= 3,125 Le test : L’écart-type est inconnu et l’échantillon est petit, donc on utilise la table de la loi de Student : t0,025;22 = 2,074 La table de Student ne répartissant pas l’erreur de façon bilatérale, on doit diviser l’erreur alpha = 5 % par deux. T = 3,125 > t0,025;22 = 2,074 donc H0 est rejetée. Conclusion : On peut supposer, au seuil de signification de 5 %, que la moyenne du contenu versé n’est pas de 15 cl. Exercice 2 : Un fabricant de rouleaux de tapisserie teste un additif pour déterminer s'il réduit le temps de séchage de la colle appliquée à l'endos de ses rouleaux prêts à poser. 1. La même semaine, dans des conditions semblables, on fait l’essai de 34 pièces de tapisserie de produit original et de 42 du produit modifié. Le temps de séchage de produit original a été de 143 minutes avec un écart type de 30 minutes. Le temps de séchage de produit modifié a été de 125 minutes avec un écart type de 8 minutes. Peut-on penser qu’au seuil de 5% d’erreur, le temps de séchage est réduit significativement par le produit modifié ? Il s’agit d’un test unilatéral de comparaison de moyennes observées sur deux grands échantillons. n1 = 34 >= 30 et n2 = 42 >= 30 On corrige les variances : S^2_1c = (n / (n - 1)) S^2_1 donc S^2_1c = 34 / 33 * 30^2 = 927,273 S^2_2c = 42 / 41 * 8^2 ~= 65,561 La statistique : T = |x1 - x2| / sqrt(S^2_1c / n1 + S^2_2c / n2) = |143 - 125| / sqrt(927,273 / 34 + 65,561 / 42) = 3,352 Les écarts-types étant inconnus, on devrait utiliser la table de la loi de Student, mais comme les échantillons sont grands, on utilise la table de l’écart réduit de la loi normale centrée réduite avec alpha = 10% (test unilatéral) : z_alpha/2 = 1,645 T ~= 3,352 > 1,645 donc on rejette H0. Conclusion : Au seuil de 5% d'erreur, le temps de séchage est réduit significativement par le produit modifié. Remarque : Il n’y a pas de correction hypergéométrique dans ce genre de test. La même semaine, dans des conditions semblables, on fait l’essai de 14 pièces de tapisserie de produit original et de 14 du produit modifié. Le temps de séchage de produit original a été de 143 minutes avec un écart type de 30 minutes. Le temps de séchage de produit modifié a été de 125 minutes avec un écart type de 36 minutes. On sait que le temps de séchage du produit original comme du produit modifié suivent des lois normales. Peut-on penser qu’au seuil de 5% d’erreur, le temps de séchage est réduit significativement par le produit modifié ? Il s’agit d’un test unilatéral de comparaison de moyennes observées sur deux échantillons de même petite taille n1 = n2 = 14 < 30 qui suivent des lois normales, et d’écart-types inconnus : On corrige les variances : S^2_1c = (n / (n - 1)) S^2_1 donc S^2_1c = 14 / 13 * 30^2 = 969,231 S^2_2c = 14 / 13 * 36^2 ~= 1395,692 Formulation des hypothèses : H0 : mu1 = mu2 (les temps de séchages sont les mêmes.) H1 : mu1 > mu2 Les écarts-types sont différents, mais S^2_1c / S^2_2c = 969,231 / 1395,692 ~= 0,69 soit 1/3 <= S^2_1c / S^2_2c <= 3 donc les variances estimées ne sont pas trop différentes. Sp = sqrt(((n1 - 1)S^2_1c + (n2 - 1)S^2_2c) / (n1 + n2 - 2)) = sqrt((13 * 969,231 + 13 * 1395,692) / 26) ~= 34,387 La statistique T : T = |x1 - x2| / Sp * sqrt(1/n1 + 1/n2) = |143 - 125| / 34,387 * sqrt(1/14 + 1/14) ~= 1,385 Les écarts-types étant inconnus et les échantillons étant petits, donc on utilise la table de la loi de Student : t0,05; (14 + 14 - 2) = t0,05; 26 = 1,706 La statistique T : T ~= 1,385 < t0,05; 26 = 1,706 donc on accepte H0. Exercice 3 : Deux fournisseurs vous proposent des pièces d’un même modèle. Pour contrôler la qualité, on prélève chez chacun d’eux un échantillon de 50 pièces. Fournisseur A : Masse des pièces | Nombre de pièces | centre des classes | effectifs partiels × centre | effectifs partiels × centre^2 [755; 765[ | 6 | 760 | 4560 | 3465600 [765; 775[ | 12 | 770 | 9240 | 7114800 [775; 785[ | 16 | 780 | 12480 | 9734400 [785; 795[ | 11 | 790 | 8690 | 6865100 [795; 805[ | 4 | 800 | 3200 | 2560000 [805; 815[ | 1 | 810 | 810 | 656100 Total | 50 | | 38980 | 30396000 x1 = 38980 / 50 = 779,6 S^2_1 = 30396000 / 50 - 779,6^2 = 143,84 S^2_1c = 50 / 49 * 143,84 ~= 146,776 On a corrigé la variance car elle est estimée sur l’échantillon. Pour le fournisseur B, on trouve : x2 = 38720 / 50 = 774,4 S^2_2 = 29992200 / 50 - 774,4^2 = 148,64 S^2_2c = 50 / 49 * 148,64 ~= 151,673 Fournisseur A : x1 = 779,6, S^2_1 = 143,84, S^2_1c ~= 146,776 Fournisseur B : x2 = 774,4, S^2_2 = 148,64, S^2_2c ~= 151,673 Formulation des hypothèses : H0 : mu1 = mu2 (les masses sont les mêmes) H1 : mu1 ≠ mu2 La statistique T : T = |x1 - x2| / sqrt(S^2_1c / n1 + S^2_2c / n2) = |779,6 - 774,4| / sqrt(146,776 / 50 + 151,673 / 50) = 2,128 Les écarts-types étant inconnus et les échantillons étant petits, on devrait utiliser la table de la loi de Student, mais comme les effectifs sont grands, on utilise la table de l’écart réduit de la loi normale centrée réduite avec alpha = 5% (test bilatéral) : z_alpha/2 = 1,960 T ~= 2,128 > 1,960 donc on rejette H0. Conclusion : Au seuil de 5% d'erreur, il y a une différence significative entre les moyennes des masses des pièces livrées par les deux fournisseurs. Exercice 4 : Le statisticien des ressources humaines étudie l’indicateur jours de maladies et accidents du travail du bilan social de deux filiales de sa société. Ce dernier s’analyse au regard d’un nombre de jours théoriquement travaillés : Filiale n°1 : 15176 jours de maladies et accidents du travail, 271000 jours travaillés. Filiale n°2 : 14884 jours de maladies et accidents du travail, 244000 jours travaillés. 1. Détermine pour chacune des filiales le pourcentage de jours maladies et accidents du travail par rapport au nombre de jours travaillés. Dans la filiale n°1 : p̂1 = 15176 / 271000 ~= 5,600% Dans la filiale n°2 : p̂2 = 14884 / 244000 ~= 6,100% 2. Cette différence de pourcentage peut-elle être considérée comme une simple fluctuation statistique avec un niveau de confiance de 0,95 ? Dans cet exemple, nous ne comparons pas deux échantillons mais deux sous-populations. Le nombre de jours de maladie est une variable aléatoire. Formulation des hypothèses : H0 : p1 = p2 (les proportions sont les mêmes sur les deux populations) H1 : p1 ≠ p2 n1p̂1 = 15176 >= 5, n2p̂2 = 14884 >= 5 et les effectifs sont grands : n1 >= 30 et n2 >= 30 p_c = (n1p̂1 + n2p̂2) / (n1 + n2) = (15176 + 14884) / 515000 ~= 0,058 et q_c = 1 - p_c ~= 0,942 La statistique T : T = |p̂1 - p̂2| / sqrt((p_cq_c / n1) + (p_cq_c / n2)) = |0,056 - 0,061| / sqrt((0,058 * 0,942 / 271000) + (0,058 * 0,942 / 244000)) ~= 7,665 Conclusion : T ~= 7,665 > 1,960 donc on rejette H0 : Il y a une différence sensible au niveau de confiance de 95% entre les deux filiales.