Aller au contenu

« Médiane (statistiques) » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Dfeldmann (discuter | contributions)
m Ce n’est pas ainsi que fonctionne Wikipédia, on vous l’a déjà dit. Utilisez des sources, laissez le RI intact, passez par la page de discussion, n’employez ni votre vocabulaire personnel, ni des explications tout aussi personnelles, même si elles vous semblent plus claires
Balise : Annulation
manque un renvoi sur mode...
 
(15 versions intermédiaires par 10 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
{{Voir homonymes|Médiane}}
{{Voir homonymes|Médiane}}
{{exemple encadré|contenu = (75, 57, 48, 64, 71, 62, 69, 52, 57, 39, 44)|légende=Série statistique de 11 termes représentant l’âge<br> à l’élection des [[élection présidentielle en France|présidents de la République française]]<br> élus au suffrage universel depuis 1965.<br>
En [[théorie des probabilités]] et en [[statistique]]s, la '''médiane''' est la valeur qui sépare la moitié inférieure de la moitié supérieure d'un ensemble ([[Échantillon (statistiques)|échantillon]], [[population]], [[distribution de probabilités]]). Intuitivement, la médiane est ainsi le point milieu de l'ensemble. C'est un [[indicateur de tendance centrale]] de la série. On peut déterminer une médiane pour un ensemble de valeurs non numériques<ref name=statcan/> pour autant qu'on puisse choisir un critère d'ordonnancement de ces valeurs.
En rangeant ces valeurs dans l’ordre croissant,<br> la médiane est la valeur du {{6e}} terme, c’est-à-dire 57.}}
En [[théorie des probabilités]] et en [[statistique]]s, la '''médiane''' est une valeur qui sépare la moitié inférieure et la moitié supérieure des termes d’une [[série statistique]] quantitative ordonnée ou d’une [[variable aléatoire]] réelle. On peut la définir aussi pour une [[variable ordinale]]<ref name=statcan/>.

La médiane est un [[indicateur de tendance centrale]]. Par comparaison avec la [[moyenne]], elle est insensible aux valeurs extrêmes mais son calcul est un petit peu plus [[théorie de la complexité (informatique théorique)|complexe]]. En particulier, elle ne peut s’obtenir à partir des médianes de sous-groupes.

La donnée de la médiane peut s’accompagner des [[quartile]]s ou d’autres [[quantile]]s, notamment pour visualiser la distribution des valeurs à l’aide d’un [[diagramme en boite]]. La notion peut aussi être utilisée pour construire des [[estimateur (statistique)|estimateurs]] ou pour définir l’algorithme de recherche par [[médiane des médianes]].


== Mode de calcul ==
== Mode de calcul ==


=== Démarche générale ===
=== Démarche générale ===
La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de n éléments, n étant impair, la valeur de l'élément à la position (n+1)/2 est la médiane. Si le nombre n d'éléments est pair, toute valeur comprise entre les éléments en positions n/2 et n/2+1 est une médiane<ref name=statcan>[http://www.statcan.gc.ca/edu/power-pouvoir/ch11/median-mediane/5214872-fra.htm « Calcul de la médiane »], [[Statistique Canada]].</ref> ; en pratique, dans le cas d'une liste de nombres, c'est la [[moyenne arithmétique]] de ces deux valeurs centrales qui est en général utilisée<ref name=FMaze2>{{Lien web|url=https://docs.google.com/document/d/16nazk_j36FDjgvDfrYK-1gSgdnJofY7OTAjo7s3DqSQ/edit?hl=fr | titre = Médiane| auteur = Fabrice Mazerolle |année= 2012 | consulté le = 13 février 2012}}.</ref>{{,}}<ref>Eduscol, Baccalauréats professionnels [https://cache.media.eduscol.education.fr/file/Programmes/65/3/Voie_prof_Ressources_maths_Commentaires_stat_proba_111653.pdf Ressources pour la classe - Statistique et probabilités], 2009, p.2 (3)</ref>.
La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de ''n'' éléments, ''n'' étant impair, la valeur de l'élément à la position {{nobr|(''n'' + 1)/2}} est la médiane. Si le nombre ''n'' d'éléments est pair, toute valeur comprise entre les éléments en positions ''n''/2 et {{nobr|''n''/2 + 1}} est une médiane<ref name=statcan>[http://www.statcan.gc.ca/edu/power-pouvoir/ch11/median-mediane/5214872-fra.htm « Calcul de la médiane »], [[Statistique Canada]].</ref> ; en pratique, dans le cas d'une liste de nombres, c'est la [[moyenne arithmétique]] de ces deux valeurs centrales qui est en général utilisée<ref name=FMaze2>{{Lien web|url=https://docs.google.com/document/d/16nazk_j36FDjgvDfrYK-1gSgdnJofY7OTAjo7s3DqSQ/edit?hl=fr | titre = Médiane| auteur = Fabrice Mazerolle |année= 2012 | consulté le = 13 février 2012}}.</ref>{{,}}<ref>Eduscol, Baccalauréats professionnels [https://cache.media.eduscol.education.fr/file/Programmes/65/3/Voie_prof_Ressources_maths_Commentaires_stat_proba_111653.pdf Ressources pour la classe - Statistique et probabilités], 2009, p.2 (3)</ref>.


La [[Complexité en temps|complexité]] de l'algorithme de calcul de la médiane est donc la complexité de l'[[algorithme de tri]] utilisé, soit au mieux O(''n'' log ''n'').
La [[Complexité en temps|complexité]] de l'algorithme de calcul de la médiane est donc la complexité de l'[[algorithme de tri]] utilisé, soit au mieux O(''n'' log ''n'').
Ligne 12 : Ligne 18 :
* Ensemble de 7 [[Entier naturel|entiers]] : {12; 5; 6; 89; 5; 2390; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le {{4e|élément}} de cette série, donc 6 : quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6.
* Ensemble de 7 [[Entier naturel|entiers]] : {12; 5; 6; 89; 5; 2390; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le {{4e|élément}} de cette série, donc 6 : quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6.
* Ensemble de 6 entiers : {12; 5; 6; 89; 5; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89. Toute valeur comprise entre le {{3e}} et le {{4e|éléments}} de cette série, donc entre 5 et 6, peut être choisie comme médiane. Si l'on choisit arbitrairement {{formatnum:5.7}} (qui est compris entre 5 et 6) trois éléments sont inférieurs ou égaux à {{formatnum:5.7}} et trois y sont supérieurs, donc 5,7 est une médiane, mais c'est aussi le cas de {{formatnum:5.141}}, de {{formatnum:5.9}} ou de {{formatnum:5.5}}. On prendra généralement cette dernière valeur comme médiane puisqu'elle est la moyenne arithmétique des deux éléments centraux 5 et 6.
* Ensemble de 6 entiers : {12; 5; 6; 89; 5; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89. Toute valeur comprise entre le {{3e}} et le {{4e|éléments}} de cette série, donc entre 5 et 6, peut être choisie comme médiane. Si l'on choisit arbitrairement {{formatnum:5.7}} (qui est compris entre 5 et 6) trois éléments sont inférieurs ou égaux à {{formatnum:5.7}} et trois y sont supérieurs, donc 5,7 est une médiane, mais c'est aussi le cas de {{formatnum:5.141}}, de {{formatnum:5.9}} ou de {{formatnum:5.5}}. On prendra généralement cette dernière valeur comme médiane puisqu'elle est la moyenne arithmétique des deux éléments centraux 5 et 6.
* Supposons 21 personnes dans une pièce. Chacune prend l'argent de sa poche et le pose sur une table : 20 personnes posent 5 euros, et la dernière pose {{nombre|10000}} euros. La médiane est l'élément central, le onzième, de la liste ordonnée 5, 5, 5, …, 5, {{nombre|10000}}. C'est donc 5 : onze personnes détenaient chacune au moins 5 euros, et onze détenaient au plus 5 euros. On remarque que si la personne la plus riche ne s'était pas présentée, la médiane aurait été la même (5€), mais la [[Moyenne mathématique|moyenne]] aurait radicalement changé ({{unité|5|€}} au lieu de {{unité|480.95|€}}).
* Supposons 21 personnes dans une pièce. Chacune prend l'argent de sa poche et le pose sur une table : 20 personnes posent {{unité|5|euros}}, et la dernière pose {{nombre|10000}} euros. La médiane est l'élément central, le onzième, de la liste ordonnée 5, 5, 5, …, 5, {{nombre|10000}}. C'est donc 5 : onze personnes détenaient chacune au moins {{unité|5|euros}}, et onze détenaient au plus {{unité|5|euros}}. On remarque que si la personne la plus riche ne s'était pas présentée, la médiane aurait été la même ({{unité|5|€}}), mais la [[Moyenne mathématique|moyenne]] aurait radicalement changé ({{unité|5|€}} au lieu de {{unité|480.95|€}}).
* Un sondage express réalisé auprès de 50 utilisateurs de Wikipédia révèle que 12 des sondés se disent très satisfaits, 7 très insatisfaits, 20 plutôt satisfaits et les autres se disent plutôt insatisfaits. Cet ensemble de réponses peut être rangé par satisfaction croissante, et on obtient une liste de cinquante éléments dans cet ordre : 7 très insatisfaits, 11 plutôt insatisfaits, 20 plutôt satisfaits, 12 très satisfaits. Les deux éléments centraux, le {{25e}} et le {{26e}}, ont la même valeur : « plutôt satisfait ». Cette valeur est donc la valeur médiane de l'ensemble des réponses.
* Un sondage express réalisé auprès de 50 utilisateurs de Wikipédia révèle que 12 des sondés se disent très satisfaits, 7 très insatisfaits, 20 plutôt satisfaits et les autres se disent plutôt insatisfaits. Cet ensemble de réponses peut être rangé par satisfaction croissante, et on obtient une liste de cinquante éléments dans cet ordre : 7 très insatisfaits, 11 plutôt insatisfaits, 20 plutôt satisfaits, 12 très satisfaits. Les deux éléments centraux, le {{25e}} et le {{26e}}, ont la même valeur : « plutôt satisfait ». Cette valeur est donc la valeur médiane de l'ensemble des réponses.


Ligne 35 : Ligne 41 :
== Médianes dans les distributions de probabilités ==
== Médianes dans les distributions de probabilités ==


Pour toutes [[Loi de probabilité|distributions de probabilités]] réelles, la médiane ''m'' satisfait l'égalité :
Pour toutes [[Loi de probabilité|distributions de probabilités]] réelles, la médiane ''m'' satisfait l'égalité :


:<math>\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ et }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!</math>
:<math>\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ et }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!</math>
Ligne 60 : Ligne 66 :
[[File:Comparison_mean_median_mode.svg|vignette|lang=fr|Mode, médiane et moyenne de deux distributions différentes suivant la [[loi log-normale]].]]
[[File:Comparison_mean_median_mode.svg|vignette|lang=fr|Mode, médiane et moyenne de deux distributions différentes suivant la [[loi log-normale]].]]


La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble { 1, 2, 2, 2, 3, 9 }. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de [[tendance centrale]] que la [[moyenne arithmétique]] égale à 3,166….
La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble {{nobr|{1, 2, 2, 2, 3, 9}<nowiki/>}}. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de [[tendance centrale]] que la [[moyenne arithmétique]] égale à 3,166….


Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes.
Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes.
Ligne 68 : Ligne 74 :
=== Propriété optimale ===
=== Propriété optimale ===


La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, plutôt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur ''c'' qui minimise
La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait {{nobr|(1 + 0 + 0 + 0 + 1 + 7) / 6 {{=}} 1,5}}, plutôt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur ''c'' qui minimise


:<math>E(\left|X-c\right|)\,</math>
:<math>E(\left|X-c\right|)\,</math>
Ligne 86 : Ligne 92 :
* [[Médiane (mathématiques élémentaires)]]
* [[Médiane (mathématiques élémentaires)]]
* [[Quantile]]
* [[Quantile]]
* [[Mode (statistiques)]]


=== Liens externes ===
=== Liens externes ===

Dernière version du 17 mai 2024 à 10:49

(75, 57, 48, 64, 71, 62, 69, 52, 57, 39, 44)
Série statistique de 11 termes représentant l’âge
à l’élection des présidents de la République française
élus au suffrage universel depuis 1965.
En rangeant ces valeurs dans l’ordre croissant,
la médiane est la valeur du 6e terme, c’est-à-dire 57.

En théorie des probabilités et en statistiques, la médiane est une valeur qui sépare la moitié inférieure et la moitié supérieure des termes d’une série statistique quantitative ordonnée ou d’une variable aléatoire réelle. On peut la définir aussi pour une variable ordinale[1].

La médiane est un indicateur de tendance centrale. Par comparaison avec la moyenne, elle est insensible aux valeurs extrêmes mais son calcul est un petit peu plus complexe. En particulier, elle ne peut s’obtenir à partir des médianes de sous-groupes.

La donnée de la médiane peut s’accompagner des quartiles ou d’autres quantiles, notamment pour visualiser la distribution des valeurs à l’aide d’un diagramme en boite. La notion peut aussi être utilisée pour construire des estimateurs ou pour définir l’algorithme de recherche par médiane des médianes.

Mode de calcul[modifier | modifier le code]

Démarche générale[modifier | modifier le code]

La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de n éléments, n étant impair, la valeur de l'élément à la position (n + 1)/2 est la médiane. Si le nombre n d'éléments est pair, toute valeur comprise entre les éléments en positions n/2 et n/2 + 1 est une médiane[1] ; en pratique, dans le cas d'une liste de nombres, c'est la moyenne arithmétique de ces deux valeurs centrales qui est en général utilisée[2],[3].

La complexité de l'algorithme de calcul de la médiane est donc la complexité de l'algorithme de tri utilisé, soit au mieux O(n log n).

Exemples

  • Ensemble de 7 entiers : {12; 5; 6; 89; 5; 2390; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le 4e élément de cette série, donc 6 : quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6.
  • Ensemble de 6 entiers : {12; 5; 6; 89; 5; 1}. Après tri, la série est 1, 5, 5, 6, 12, 89. Toute valeur comprise entre le 3e et le 4e éléments de cette série, donc entre 5 et 6, peut être choisie comme médiane. Si l'on choisit arbitrairement 5,7 (qui est compris entre 5 et 6) trois éléments sont inférieurs ou égaux à 5,7 et trois y sont supérieurs, donc 5,7 est une médiane, mais c'est aussi le cas de 5,141, de 5,9 ou de 5,5. On prendra généralement cette dernière valeur comme médiane puisqu'elle est la moyenne arithmétique des deux éléments centraux 5 et 6.
  • Supposons 21 personnes dans une pièce. Chacune prend l'argent de sa poche et le pose sur une table : 20 personnes posent 5 euros, et la dernière pose 10 000 euros. La médiane est l'élément central, le onzième, de la liste ordonnée 5, 5, 5, …, 5, 10 000. C'est donc 5 : onze personnes détenaient chacune au moins 5 euros, et onze détenaient au plus 5 euros. On remarque que si la personne la plus riche ne s'était pas présentée, la médiane aurait été la même (5 ), mais la moyenne aurait radicalement changé (5  au lieu de 480,95 ).
  • Un sondage express réalisé auprès de 50 utilisateurs de Wikipédia révèle que 12 des sondés se disent très satisfaits, 7 très insatisfaits, 20 plutôt satisfaits et les autres se disent plutôt insatisfaits. Cet ensemble de réponses peut être rangé par satisfaction croissante, et on obtient une liste de cinquante éléments dans cet ordre : 7 très insatisfaits, 11 plutôt insatisfaits, 20 plutôt satisfaits, 12 très satisfaits. Les deux éléments centraux, le 25e et le 26e, ont la même valeur : « plutôt satisfait ». Cette valeur est donc la valeur médiane de l'ensemble des réponses.

Autre démarche[modifier | modifier le code]

Pour déterminer une médiane d'un ensemble de valeurs, il suffit de calculer les pourcentages cumulés croissants et on prend la première valeur de la série dont le pourcentage cumulé atteint ou dépasse 50 %.

Cette méthode est plus pratique lorsque l'on a un grand nombre de valeurs[Information douteuse].

Efficacité des algorithmes[modifier | modifier le code]

Il existe des algorithmes de complexité linéaire (en O(n)), donc plus performants[4]. Il s'agit d'algorithmes qui permettent de manière générale de déterminer le k-ième élément d'une liste de n éléments (voir Algorithme de sélection) ; k = n/2 pour la médiane. Ce sont des adaptations des algorithmes de tri, mais qui sont plus performants du fait que l'on ne s'intéresse pas à toutes les valeurs. On peut par exemple utiliser l'algorithme diviser pour régner en seulement O(n) opérations ; c'est le cas de l'algorithme quickselect, variation du Tri rapide (quicksort), qui est en général en O(n) mais peut être en O(n2) dans le pire des cas.

Dans la pratique, si l'on cherche la médiane d'une liste de n entiers, et si l'on a la chance de constater que la valeur maximale m est inférieure à n2 (cette constatation coûte O(n)), alors le tri par comptage, de mise en œuvre très facile et dont le coût est, en l'espèce, de O(m) opérations, permet d'obtenir la médiane en moins de O(n2) opérations. Ce cas s'applique en particulier au cas des notes sur 20 (sans décimales) d'une classe de plus de 5 élèves (5 au carré est supérieur à 20).

Mesure de la dispersion statistique[modifier | modifier le code]

Lorsque la médiane est utilisée pour situer des valeurs en statistiques descriptives, il existe différentes possibilités pour exprimer la variabilité : l'étendue, l'écart interquartile et l'écart absolu.

Médianes dans les distributions de probabilités[modifier | modifier le code]

Pour toutes distributions de probabilités réelles, la médiane m satisfait l'égalité :

c'est-à-dire en termes de fonction de répartition :

Ainsi pour une distribution de probabilités diffuse (fonction de répartition continue) :

Médianes de certaines distributions[modifier | modifier le code]

Pour toutes les distributions symétriques, la médiane est égale à l'espérance.

Médianes en statistiques descriptives[modifier | modifier le code]

Mode, médiane et moyenne de deux distributions différentes suivant la loi log-normale.

La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble {1, 2, 2, 2, 3, 9}. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de tendance centrale que la moyenne arithmétique égale à 3,166….

Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes.

Propriétés théoriques[modifier | modifier le code]

Propriété optimale[modifier | modifier le code]

La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, plutôt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur c qui minimise

est la médiane de la distribution de probabilités de la variable aléatoire X.

Inégalité impliquant les moyennes et les médianes[modifier | modifier le code]

Pour les distributions continues de probabilités, la différence entre la médiane et l'espérance est au plus d'un écart type.

Notes et références[modifier | modifier le code]

  1. a et b « Calcul de la médiane », Statistique Canada.
  2. Fabrice Mazerolle, « Médiane », (consulté le ).
  3. Eduscol, Baccalauréats professionnels Ressources pour la classe - Statistique et probabilités, 2009, p.2 (3)
  4. [(en) Selection (deterministic & randomized): finding the median in linear time]

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]