Créer et exécuter un modèle PLS-PM simple
Le principe de lâapproche PLS
Lâapproche PLS est une méthode statistique permettant de modéliser des relations complexes entre des variables observées et des variables latentes. Ce type de modèles est généralement appelé modèle dâéquations structurelles à variables latentes.
Depuis quelques années, cette approche est de plus en plus populaire dans des communautés scientifiques très variées (Esposito Vinzi et al., 2007). Les modèles dâéquations structurelles (Structural Equation Models) comprennent un grand nombre de méthodologies statistiques (dont lâapproche PLS fait partie) qui permettent lâestimation de relation de causalité complexes entre des variables latentes mesurées elles-mêmes par des variables observées dites manifestes.
Lâapproche PLS dans sa version actuelle a été présentée pour la première fois par Herman Wold en 1979, mais les articles de référence sur cette méthode sont Wold (1982 et 1985).
Du point de vue classique des modèles dâéquations structurelles à variables latentes, lâapproche PLS est une méthode basée sur des composantes pour laquelle la causalité est formulée en termes dâespérance conditionnelle linéaire.
Lâapproche PLS privilégie la recherche dâune optimalité prédictive des relations plutôt que celle de relations de causalité. Elle est orientée de manière prédictive afin de tester des hypothèses de causalité. Ainsi, plutôt que de valider un modèle en termes de qualité dâajustement, on utilisera des indices de qualité prédictive. Pour plus de détails sur ces points, on peut voir lâaide de XLSTAT et deux articles de référence sur le sujet : Chin (1998, plutôt orienté vers les applications) et Tenenhaus et al. (2005, plutôt orienté vers la théorie).
Par ailleurs, lâapproche PLS permet dâanalyser des tableaux multiples et peut être directement reliée à des méthodes dâanalyse de données classiques de ce domaine. En fait, lâapproche PLS peut aussi être vue comme une méthode extrêmement flexible dans lâanalyse de tableaux multiples grâce à , dâune part, lâapproche PLS hiérarchique et, dâautre part, lâapproche PLS confirmatoire (Tenenhaus et Hanafi, 2007). Ces approches montrent que les méthodes classiques basées sur les données (« data-driven methods ») peuvent être reliées à des méthodes basées sur la théorie (« theory-driven methods ») telle que les modèles dâéquations structurelles. Ceci permet dâintégrer des connaissances sur les relations entre les tableaux dans les analyses.
Lâapproche PLS avec XLSTAT-PLSPM
Dans ce tutoriel, nous vous guidons afin de créer un projet, définir un modèle, estimer les paramètres de celui-ci et analyser les résultats. Ce tutoriel est basé sur lâarticle suivant : [Tenenhaus M., Esposito Vinzi V., Chatelin Y.-M. and Lauro C. (2005). PLS Path Modeling. Computational Statistics & Data Analysis, 48(1), 159-205].
Lâapplication présentée est basée sur des données réelles. 250 clients dâun opérateur de téléphones portables ont été contactés afin de répondre à un grand nombre de questions pour pouvoir modéliser leur fidélité envers lâopérateur. Le modèle PLSPM est basé sur lâindice de satisfaction européen des clients (ECSI). Ce modèle à variables latentes est représenté dans la figure suivante :

Chaque variable latente est reliée à un certain nombre de variables manifestes qui sont directement observables et donc mesurées. Dans cette application, les variables manifestes sont mesurées sur des échelles de 0 à 100. Par exemple, pour la variable latente image, les cinq variables manifestes associées sont :
- on peut avoir confiance en ce quâil fait et dit
- câest un opérateur stable et bien implanté
- câest un opérateur qui apporte une contribution sociale à notre société
- câest un opérateur pour lequel les clients sont importants
- câest un opérateur innovant
Jeu de données pour appliquer lâapproche PLS
Les projets XLSTAT-PLSPM sont des classeurs Excel spécifiques. Lorsquâun nouveau projet est créé, il prend le nom PLSPMBook. Il est possible ensuite de le sauver, mais il faut bien utiliser la commande de sauvegarde de la barre XLSTAT-PLSPM afin de la sauvegarder en entier avec lâextension *.ppmx.

Note : il peut arriver que lorsquâon ouvre le fichier, lâaffichage soit mal organisé. Il suffit de cliquer sur « Optimiser lâaffichage » (voir plus loin).
Un projet XLSTAT-PLSPM vierge contient deux feuilles qui ne peuvent pas être supprimées : - D1 : feuille de calcul vide dans laquelle il faut copier les données que lâon veut traiter. - PLSPMGraph : Feuille blanche utilisée pour dessiner le modèle. Lorsque cette feuille est sélectionnée, la barre dâoutils apparaît.
Dans le cadre de ce tutoriel, afin de créer le projet on doit utiliser les fonctions PLSPM :

Lâapproche PLS étant une méthode statistique complexe et les développements présents dans le module PLSPM étant très développés, nous avons mis en place deux types dâaffichage des menus. Un premier, paramétré par défaut et rassemblant les principales fonctions associées à lâapproche PLS, appelé « classique » et un second permettant des recherches plus avancées appelé « expert ». Pour modifier cette option, cliquer sur le bouton options PLSPM :

Dans le cadre de ce tutoriel, nous nous focaliserons sur lâaffichage classique qui permet dâappliquer lâapproche PLS dans les cas généraux. Nous sauvons maintenant le projet en utilisant la fonction « enregistrer le projet sous ».

Attention, il faut toujours sauvegarder et ouvrir les projets .ppmx en utilisant les fonctions PLSPM et non les fonctions classiques dâExcel.
Nous copions les données dâune feuille classique Excel vers la feuille D1. On peut alors mettre en place le modèle. Allez vers la feuille PLSPMGraph. La barre de commandes se trouve en haut à gauche :

Afin de créer plusieurs variables latentes à la suite, double-cliquez sur le bouton dédié, de façon à ce quâil reste enfoncé : 
Vous pouvez alors ajouter les flèches reliant les variables latentes les unes aux autres. Pour ajouter une flèche, il suffit de cliquer sur la variable latente de laquelle elle part et de sélectionner la variable latente de destination en gardant appuyer le bouton CtrL. Une fois les deux variables sélectionnées, utilisez soit le bouton de la barre dâoutil comme dans la figure suivante, soit le raccourci clavier Ctrl+L.

Une fois que tous les liens ont été ajoutés, il faut définir les variables manifestes associées à chaque variable latente. La manière la plus rapide consiste à cliquer sur la variable latente et utilisez le bouton MV de la barre :

Ceci active une boîte de dialogue qui sâouvre sur la feuille D1. Cette boîte permet de donner un nom à la variable latente, définir les variables manifestes et mettre en place quelques options de base.

Ce menu permet de définir chacun des blocs de variables manifestes en sélectionnant les données dans la feuille de calcul D1. On doit aussi choisir le mode dâestimation : dans le cadre de cette application nous supposons que les construit sont réflectifs et sélectionnons donc le mode A. Dans le mode A, les variables manifestes sont des reflets de la variable latente, câest le cas réflectif. Dans le mode B, les variables manifestes construisent la variable latente, câest le cas formatif.
Par exemple, pour la variable latente Attente, la boîte de dialogue aura la forme suivante :

Le modèle obtenu a la forme suivante :

Une fois lâensemble du modèle construit, on peut lancer lâapplication de lâapproche PLS en utilisant la barre dâoutils et en cliquant sur "Lancer les calculs" :

La boîte de dialogue « lancer les calculs » apparaît :

Dans notre application, les variables manifestes ayant toutes les mêmes échelles, on peut travailler sur les données dâorigine (il existe 4 alternatives). Lâalgorithme PLS (décrit dans lâaide XLSTAT) doit être initialisé, on choisit ici comme vecteur dâinitialisation des poids externes les valeurs du premier vecteur propre issues dâune analyse en composantes principales sur chaque bloc (il existe 2 alternatives).

Lâonglet « options » permet de choisir le schéma dâestimation des poids. Dans le cadre de cette application, nous utilisons le schéma centroïde. Nous utilisons le bootstrap afin dâobtenir des intervalles de confiance.

Lâonglet « données manq. » nâest pas modifié car aucune données nâest manquante dans le jeu de données traité. Néanmoins, XLSTAT-PLSPM permet dâutiliser de nombreuses méthodes de traitement des données manquantes dont lâalgorithme NIPALS qui est spécifique à lâapproche PLS. Ces méthodes sont détaillées dans lâaide de XLSTAT.

Finalement, lâonglet âSortiesâ permet de choisir les résultats que lâon désire afficher dans le feuille des sorties. Nous détaillerons ces résultats dans la partie suivante.
Résultats et interprétation des sorties dâun projet PLSPM
La première partie des résultats rassemble des informations sur les données et le modèle créé (statistiques descriptives des variables manifestes, spécification du modèle).
Le premier élément important est la vérification de lâunidimensionnalité des blocs. Nous nous trouvons dans le cas réflectif, les blocs doivent donc être unidimensionnels. On utilise donc le tableau donnant la fiabilité des blocs :

On peut voir que lâalpha de Cronbach est en-dessous de son seuil pour les variables Attente et Fidélité. Néanmoins, le rho de Dillon et Goldstein est toujours supérieur à 0,7. Finalement, la première valeur propre est beaucoup plus grande que la seconde dans beaucoup de cas. Ces résultats nous poussent à considérer que les blocs sont unidimensionnels même si une analyse des dimensions supplémentaires de lâattente et de la fidélité pourrait être intéressante. Par ailleurs, les indices nâapparaissent pas pour la variable latente Réclamations car elle ne possède quâune seule variable manifeste associée.
Afin dâaller plus loin dans la recherche de dimensions supplémentaires, XLSTAT donne des tableaux de corrélations pour chaque variable latente entre les variables manifestes et les facteurs obtenus par une ACP sur chaque bloc. Dans le cadre de cette application, nous nous focalisons sur une seule dimension.
La sortie suivante est le tableau des GoF qui permettent dâévaluer la qualité dâajustement du modèle :

On voit que le GoF absolu est de 0,465, très proche de son estimation bootstrap. Cette valeur est difficile à interpréter et sert surtout afin de comparer différents groupes dâindividus ou différents modèles. Le Gof relatif et ceux basés sur les modèles internes et externes sont très élevés et auraient tendance à traduire une bonne qualité dâajustement du modèle aux données.
Il faut ensuite vérifier les cross-loadings :

On vérifie que les loadings les plus élevés sont ceux reliant la variable manifeste à sa variable latente associée dans le modèle. Câest le cas ici. Deux tableaux détaillent les poids externes et les corrélations associées au modèle de mesure. Si on étudie le tableau des corrélations :

On peut voir que, par exemple, pour la variable satisfaction, CUSA3 et CUSA2 ont un plus fort impact sur la satisfaction que CUSA1. Ces tableaux permettent de connaître lâinfluence des variables manifestes sur les variables latentes.
Une fois le modèle de mesure étudié, le modèle structurel doit être analysé. Pour chaque variable latente, un certain nombre dâinformations sont rassemblées. Nous prenons lâexemple de la satisfaction : 
Ainsi, avec un R² de 0,672, on peut considérer que la variable latente est bien expliquée. On voit que câest la qualité perçue qui a le plus fort impact sur la satisfaction suivie par la valeur perçue. Lâimpact des attentes est non significatif. Le dernier tableau résume lâensemble des résultats précédents. On voit que la qualité perçue contribue à 64 % du R².
Le graphe suivant illustre les résultats précédents :

Par la suite, un tableau récapitule les indices de qualité prédictive principaux pour chacune des variables latentes. Ainsi, le Râ² de la satisfaction est le plus élevé et les autres sont assez faibles. Les redondances sont toujours plus faibles que les communalités car lâapproche PLS avec le mode A a tendance à favoriser le modèle de mesure.

Dans la suite des sorties sont rassemblés les scores des variables latentes et les statistiques descriptives associées. Ces scores peuvent être réutilisés dans le cadre dâautres analyses statistiques avec XLSTAT.
Cette analyse nous a permis de présenter lâétude dâun jeu de données sur un modèle classiquement utilisé. Nous avons illustré lâutilisation de lâapproche PLS qui permet de comprendre des interactions entre des concepts de manière claire. Une fois que le modèle est validé, il est simple dâinterpréter les coefficients afin dâanalyser les résultats.
Sorties sur le graphe :
Par ailleurs, XLSTAT-PLSPM permet de faire apparaître sur la feuille PLSPMGraph un grand nombre de paramètres. Pour se faire, il faut sélectionner ces paramètres. Appuyer sur le bouton suivant dans la barre dâoutils

La boîte de dialogue « résultats » apparaît. Elle possède trois onglets : - le premier permet dâafficher un certains nombre dâindices sur les variables latentes dans le graphe :

- le second onglet permet dâafficher un certain nombre dâindices et de coefficients sur les flèches entre les variables latentes :

- le troisième onglet permet dâafficher un certain nombre dâindices et de coefficients sur les flèches entre les variables manifestes et la variable latente qui leur est associée :

Sélectionner les paramètres qui vous intéressent et cliquer sur OK. Toujours sur la barre dâoutils, cliquer sur le bouton « afficher les résultats », ceux-ci apparaissent alors sur la feuille PLSPMGraph :

Was this article useful?
- Yes
- No