Théorème de Pitman-Koopman-Darmois

Un article de Wikipédia, l'encyclopédie libre.

Le théorème de Pitman-Koopman-Darmois, aussi appelé théorème de Koopman-Darmois, de Darmois ou parfois de Fisher-Pitman-Koopman-Darmois (parfois le terme lemme est employé au lieu de théorème), est un résultat de statistique établi indépendamment par Bernard Koopman[1], Edwin Pitman[2] et Georges Darmois[3] dans les années 30, d'après une intuition de Ronald Fisher[4]. Ce théorème établit, sous certaines conditions, que parmi les modèles statistiques générant des variables réelles indépendantes et identiquement distribuées, les seuls admettant une statistique exhaustive non triviale sont ceux issus de la famille exponentielle. Ce théorème est considéré comme un résultat fondamental des statistiques et a donné lieu à de nombreux développements[5] et généralisations[6],[7].

Énoncé[modifier | modifier le code]

Énoncé et démonstration[modifier | modifier le code]

Théorème de Pitman-Koopman-Darmois — Soit , variables aléatoires réelles indépendantes suivant une loi admettant une densité , indexée par un paramètre à valeur dans un espace .

Supposons que le support de (c'est-à-dire l'ensemble des valeurs de telles que ) soit un intervalle de qui ne dépende pas de , et que soit dérivable par rapport à sur pour tout .

S'il existe une fonction continue de dans avec telle que soit une statistique exhaustive pour , alors est une densité de la famille exponentielle, c'est-à-dire qu'elle peut s'écrire sous la forme avec  ; une fonction de dans ; , fonctions de dans  ; et fonctions de dans .

Remarques[modifier | modifier le code]

  • Ce théorème ne s'applique qu'aux variables aléatoires continues.
  • La statistique est alors aussi une statistique exhaustive (d'après le critère de factorisation de Fisher-Neyman). De plus, si est le plus petit entier pour laquelle peut s'écrire sous la forme , alors cette statistique est aussi minimale, et est appelé le rang de la famille de distribution [8].
  • L'hypothèse de continuité de la statistique exhaustive est cruciale. Il est en effet possible de créer des fonctions non continues bijectives de dans . Une telle fonction, inutile en pratique par sa complexité, conserverait toute l'information d'une réalisation de l'échantillon en la compressant en un seul nombre réel, et formerait donc une statistique exhaustive (puisque l'échantillon est lui-même une statistique exhaustive), que la loi des appartienne à la famille exponentielle ou non.
  • Si le support de est une réunion finie d'intervalles disjoints , alors on peut appliquer le théorème de Pitman-Koopman-Darmois à la variable aléatoire , dont le support est l'intervalle et dont la densité est . Il en résulte que sur chaque intervalle , la densité de s'écrit sous la forme d'un membre de famille exponentielle.
  • On trouve des versions du théorème requérant que la fonction soit différentiable[9], ou que la densité soit strictement positive sur tout entier[10]. Ces conditions, plus strictes que celles de l'énoncé ci-dessus, sont suffisantes puisque la différentiabilité de implique sa continuité, et que le stricte positivité de sur implique que son support soit indépendant de , cependant elle ne sont pas nécessaires.
  • Dans l'énoncé ci-dessus le théorème a pour hypothèse que la dimension de soit strictement inférieure à la taille d'échantillon . Cette hypothèse est souvent remplacée par l'hypothèse, plus restrictive, que la dimension de n'augmente pas avec . Cette hypothèse est suffisante puis qu'alors, lorsque augmente, il dépasse à un moment donné la dimension de qui elle reste fixe. Cependant elle est plus stricte que nécessaire. Par exemple, une statistique exhaustive de dimension garantit l'appartenance de à la famille exponentielle, si les autres hypothèses du théorème sont respectées.

Réciproque[modifier | modifier le code]

Le théorème de Pitman-Koopman-Darmois admet une réciproque : si une variable aléatoire est distribuée suivant une loi de la famille exponentielle, alors il existe une statistique suffisante pour le paramètre de cette loi. Ceci est une simple conséquence de la définition de la famille exponentielle et du critère de factorisation de Fisher-Neymann. Cette réciproque s'applique aussi aux variables aléatoires discrètes.

Exemples[modifier | modifier le code]

Loi normale[modifier | modifier le code]

  • Soit des variables indépendantes et identiquement distribuées selon une loi normale d'espérance et de variance . Soit la moyenne empirique et l'estimateur non biaisé de la variance. Alors est une statistique exhaustive pour le couple de paramètres , et la loi normale appartient bien à la famille exponentielle. De plus, la statistique est aussi minimale et la loi normale (d'espérance et de variances inconnues) est bien de rang 2.

Contre exemples[modifier | modifier le code]

Loi de Cauchy[modifier | modifier le code]

La loi de Cauchy de densité sur n'appartient pas à la famille exponentielle. Il n'existe donc pas de statistique exhaustive non triviale pour le paramètre .

Loi uniforme[modifier | modifier le code]

Soit , variables aléatoires indépendantes et identiquement distribuées selon une loi uniforme sur l'intervalle pour . Cette distribution n'appartient pas à la famille exponentielle mais elle admet la statistique comme statistique exhaustive. Cela est possible car la loi uniforme ne satisfait pas les conditions du théorème de Pitman-Koopman-Darmois puisque son support dépend du paramètre .

Cas des variables aléatoires discrètes[modifier | modifier le code]

Le théorème de Pitman-Koopman-Darmois énoncé plus haut n'est valide que pour les variables aléatoires continues à valeurs dans . En effet, plusieurs hypothèses ne sont pas pertinentes pour des variables discrètes, notamment la continuité de la fonction . Cette continuité est cruciale pour interdire des fonctions qui seraient des bijections entre et , et qui pourraient donc former des statistiques exhaustives pour toute loi de probabilité, puisqu'il serait possible de retrouver les valeurs de depuis la valeur de . Dans le cas de variables aléatoires discrètes, la fonction a pour ensemble de départ en ensemble discret. La continuité de n'est donc pas une notion pertinente.

Il existe bien une version du théorème de Pitman-Koopman-Darmois pour les variables aléatoires discrètes[11] pour laquelle la condition de continuité de est adaptée au . Cependant, cette condition devient non-triviale et peu intuitive.

Théorème de Pitman-Koopman-Darmois pour des variables discrètes — Soit , variables aléatoires discrètes à valeur dans un sous ensemble discret de (typiquement ), indépendantes et identiquement distribuées suivant une loi de probabilité discrète de fonction de masse , dépendante d'un paramètre à valeurs dans un ensemble . Si le support de ne dépend pas du paramètre et s'il existe une fonction de dans un ensemble telle que est exhaustive pour et qui satisfait les deux conditions suivantes :

  1. l'ensemble est totalement ordonné, c'est-à-dire qu'il existe une relation «  » telle que pour tout , on ait soit soit . De plus, on a et si et seulement si .
  2. pour tout , si sont trois valeurs possibles de telle que et . Si est entre et , alors il existe entre et tel que .

Alors la loi des fait partie de la famille exponentielle avec un rang 1, c'est-à-dire que peut s'écrire sous la forme est une fonction de dans , est une fonction de dans , et sont des fonctions de dans .

Remarques[modifier | modifier le code]

  • Cette version discrète du théorème se limite aux familles exponentielles de rang 1. La statistique est donc typiquement de dimension 1.
  • La condition 2 portant sur la statistique est satisfaite pour tous les moments, c'est-à-dire pour les statistiques de la forme pour .

Exemple[modifier | modifier le code]

Si sont variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi géométrique ou une loi de Poisson de paramètre inconnu, alors la statistique est une statistique exhaustive pour le paramètre de la loi et elle vérifie les conditions du théorème de Pitman-Koopman-Darmois pour les variables discrètes. Les lois géométrique et de Poisson appartiennent bien à la famille exponentielle et sont de rang 1. Dans ces deux cas, la statistique est aussi minimale.

Contre-exemples[modifier | modifier le code]

  • Si sont variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi uniforme sur pour . Comme le support de cette loi dépend du paramètre , les conditions du théorème ne sont pas satisfaits. La statistique est exhaustive pour et satisfait les conditions du théorème Pitman-Koopman-Darmois pour les variables discrètes. Cependant, la loi uniforme n'appartient pas à la famille exponentielle.
  • Si sont variables aléatoires discrètes à valeurs dans , indépendantes et identiquement distribuées suivant une loi de fonction de masse dépendant d'un paramètre . Alors, la statistique est exhaustive pour , que appartienne à la famille exponentielle ou non. Cela semble contredire le théorème de Pitman-Koopman-Darmois pour les variables discrètes mais en réalité la statistique ne satisfait pas la condition 2 de ce théorème. Pour une valeur de donnée, il est en fait possible de retrouver les valeurs correspondantes, à l'ordre près. Formellement, si , alors à une permutation près[11] (cela se montre en utilisant la transcendance du nombre ). Cela signifie que la statistique contient autant d'information que les données elles-mêmes, à l'exception de leur ordre. Puisque celles-ci sont exhaustives, l'est aussi.

Autres généralisations[modifier | modifier le code]

Il existe diverses généralisations du théorème de Pitman-Koopman-Darmois. Entre autres, il existe des versions du théorème pour :

  • des variables aléatoires dont la loi a un support dépendant du paramètre[8],
  • des variables aléatoires indépendantes mais non identiquement distribuées[6],
  • des processus stochastiques[10].

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

  1. a et b B. O. Koopman, « On Distributions Admitting a Sufficient Statistic », Transactions of the American Mathematical Society, vol. 39, no 3,‎ , p. 399 (ISSN 0002-9947, DOI 10.2307/1989758, lire en ligne, consulté le )
  2. E. J. G. Pitman, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, no 4,‎ , p. 567–579 (ISSN 0305-0041 et 1469-8064, DOI 10.1017/s0305004100019307, lire en ligne, consulté le )
  3. Georges Darmois, « Sur les lois de probabilité à estimation exhaustive », Comptes rendus hebdomadaires des séances de l'Académie des sciences, vol. 200,‎ , p. 1265-1266
  4. « Two new properties of mathematical likelihood », Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, vol. 144, no 852,‎ , p. 285–307 (ISSN 0950-1207 et 2053-9150, DOI 10.1098/rspa.1934.0050, lire en ligne, consulté le )
  5. D. A. S. Fraser, « On Sufficiency and the Exponential Family », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 25, no 1,‎ , p. 115–123 (ISSN 1369-7412 et 1467-9868, DOI 10.1111/j.2517-6161.1963.tb00489.x, lire en ligne, consulté le )
  6. a et b (en) « Generalizing Koopman-Pitman-Darmois - LessWrong », sur www.lesswrong.com (consulté le )
  7. Edward W. Barankin et Ashok P. Maitra, « Generalization of the Fisher-Darmois-Koopman-Pitman Theorem on Sufficient Statistics », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 25, no 3,‎ , p. 217–244 (ISSN 0581-572X, lire en ligne, consulté le )
  8. a et b (en) Evgeniĭ Borisovich Dynkin et Gary M. Seitz, Selected Papers of E. B. Dynkin with Commentary, American Mathematical Soc., (ISBN 978-0-8218-1065-1, lire en ligne)
  9. (en) « Is Pitman-Koopman-Darmois Theorem valid for discrete random variables? », sur Cross Validated (consulté le )
  10. a et b Frederick Daum, « The Fisher-Darmois-Koopman-Pitman theorem for random processes », 1986 25th IEEE Conference on Decision and Control, IEEE,‎ (DOI 10.1109/cdc.1986.267536, lire en ligne, consulté le )
  11. a et b Erling Bernhard Andersen, « Sufficiency and Exponential Families for Discrete Sample Spaces », Journal of the American Statistical Association, vol. 65, no 331,‎ , p. 1248 (ISSN 0162-1459, DOI 10.2307/2284291, lire en ligne, consulté le )