Matrice des liaisons

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par un ensemble de variables. La matrice des liaisons rassemble les indicateurs de liaison entre les variables prises deux à deux. Elle généralise la matrice des corrélations au cas où l’on dispose simultanément de variables quantitatives et de variables qualitatives.

Contexte[modifier | modifier le code]

En statistique, il est utile de mesurer l’intensité de la liaison entre deux variables par un indicateur. Le plus connu est le coefficient de corrélation, ou son carré noté classiquement $R^{2}$ , calculé entre deux variables quantitatives.
Entre une variable quantitative et une variable qualitative, l’intensité de la liaison est mesurée par le carré du rapport de corrélation (noté classiquement $\eta ^{2}$ )^{[b 1]}.
Entre deux variables qualitatives, les deux indicateurs classiques sont le $phi^{2}$ (noté $\phi ^{2}$ ) et le coefficient $V$ de Cramer^{[b 2]}.

Lorsque l’on est en présence de plusieurs variables, il est utile de rassembler ces coefficients dans une matrice telle que, à l’intersection de la ligne $j$ et de la colonne $k$ on trouve la mesure d’intensité de la liaison entre les variables $j$ et $k$ . Ceci est fait couramment lorsque les variables sont toutes quantitatives, auquel cas on calcule la matrice des corrélations.

Définition[modifier | modifier le code]

En présence de variables des deux types, une extension de la matrice des corrélations est la matrice des liaisons dans laquelle, à l’intersection de la ligne $j$ et de la colonne $k$ on trouve :

si $j$ et $k$ sont quantitatives : $R^{2}(j,k)$ .
si $j$ est quantitative et $k$ qualitative : $\eta ^{2}(j,k)$ .
si $j$ et $k$ sont qualitatives : $\phi ^{2}(j,k)$ .

La diagonale de cette matrice comporte la valeur 1 si la variable est quantitative et le nombre de modalités moins 1 si la variable est qualitative.

Exemple numérique[modifier | modifier le code]

Six individus $(i_{1},...,i_{6})$ sont décrits par trois variables quantitatives $(k_{1},k_{2},k_{3})$ et trois variables qualitatives $(q_{1},q_{2},q_{3})$ ayant respectivement 3, 2 et 3 modalités. À partir des données du tableau 1, on calcule la matrice des liaisons du tableau 2.

Tableau 1. Données
	$k_{1}$	$k_{2}$	$k_{3}$	$q_{1}$	$q_{2}$	$q_{3}$
$i_{1}$	2	4.5	4	$q_{1}$ -A	$q_{2}$ -B	$q_{3}$ -C
$i_{2}$	5	4.5	4	$q_{1}$ -C	$q_{2}$ -B	$q_{3}$ -C
$i_{3}$	3	1	2	$q_{1}$ -B	$q_{2}$ -B	$q_{3}$ -B
$i_{4}$	4	1	2	$q_{1}$ -B	$q_{2}$ -B	$q_{3}$ -B
$i_{5}$	1	1	1	$q_{1}$ -A	$q_{2}$ -A	$q_{3}$ -A
$i_{6}$	6	1	2	$q_{1}$ -C	$q_{2}$ -A	$q_{3}$ -A

Tableau 2. Matrice des liaisons associée au tableau 1.
	$k_{1}$	$k_{2}$	$k_{3}$	$q_{1}$	$q_{2}$	$q_{3}$
$k_{1}$	1	0.00	0.05	0.91	0.00	0.00
$k_{2}$	0.00	1	0.90	0.25	0.25	1.00
$k_{3}$	0.05	0.90	1	0.13	0.40	0.93
$q_{1}$	0.91	0.25	0.13	2	0.25	1.00
$q_{2}$	0.00	0.25	0.40	0.25	1	1.00
$q_{3}$	0.00	1.00	0.93	1.00	1.00	2

Lecture[modifier | modifier le code]

Variables quantitatives. Les variables $k_{2}$ et $k_{3}$ sont étroitement corrélées entre elles $(R^{2}=.90)$ et non corrélés à $k_{1}$ .

Variables qualitatives. La variable $q_{1}$ n’est pratiquement pas liée à $q_{2}$ $(\phi ^{2}=.25)$ et est liée à $q_{3}$ $(\phi ^{2}=1)$ . Les variables $q_{2}$ et $q_{3}$ sont liées $(\phi ^{2}=1)$ .

Variables quantitatives et qualitatives. La variable $k_{1}$ est liée uniquement (et étroitement) à $q_{1}$ $(\eta ^{2}=.91)$ . Les variables $k_{2}$ et $k_{3}$ sont liées étroitement à $q_{3}$ $(\eta ^{2}=1$ ou $.93)$ et ne sont pas liées aux deux autres variables qualitatives $(\eta ^{2}\leqslant .4)$ .

Synthèse et visualisation[modifier | modifier le code]

De même qu’une matrice des corrélations peut être utilement visualisée par l’Analyse en composantes principales (ACP), une matrice des liaisons peut être utilement visualisée par l’Analyse Factorielle des Données Mixtes (AFDM)^{[b 3]}. En particulier l’AFDM fournit un graphique dit « carré des liaisons »^{[b 4]}, sur lequel les variables quantitatives et qualitatives sont simultanément représentées. Si l’on réordonne les variables selon le premier axe de l’AFDM, la matrice des liaisons fait apparaître des groupes de variables liées entre elles. Si l’on veut expliciter des groupes, il vaut mieux ne pas imposer à ces groupes d’être disjoints puisqu’une variable qualitative peut être parfaitement liée à deux variables quantitatives non corrélées.
Dans l’exemple, cela conduit au tableau 3 dans lequel on peut voir trois groupes de variables :
${k_{2},k_{3},q_{3}}$ : ces trois variables caractérisent les individus $i_{1}$ et $i_{2}$ .
${q_{3},q_{2}}$ : ces deux variables caractérisent les individus $i_{3}$ et $i_{4}$ (on pourrait aussi ajouter $q_{1}$ , liée à $q_{3}$ mais pas à $q_{2}$ ).
${q_{1},k_{1}}$ : ces deux variables opposent les individus ${i_{1},i_{5}}$ et ${i_{2},i_{6}}$ .

Références[modifier | modifier le code]

Ouvrages spécialisés[modifier | modifier le code]

↑ Dagnélie 1998, p. 222 et suiv.
↑ Saporta 2006, p. 149 et suiv.
↑ Pagès 2002
↑ Pagès 2013, p. 72 et suiv.

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

(fr) Gilbert Saporta, Probabilités, analyse des données et statistique, Technip, Paris, 2006, 2^e éd. (1^re éd. 1990), 622 p. (ISBN 978-2-7108-0814-5, lire en ligne)

(fr) Pierre Dagnélie, Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions, Bruxelles/Paris, Bruxelles, De Boeck, 2011, 3^e éd. (1^re éd. 1998), 736 p. (ISBN 978-2-8041-6336-5)

(fr) Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, n^o 4,‎ 2002, p. 93-111 (lire en ligne [PDF])

(fr) Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, 2013, 253 p. (ISBN 978-2-7598-0963-9)

Portail des probabilités et de la statistique

[1] Dagnélie 1998, p. 222 et suiv.

[2] Saporta 2006, p. 149 et suiv.

[3] Pagès 2002

[4] Pagès 2013, p. 72 et suiv.

[b 1]

[b 2]

[b 3]

[b 4]