Endogénéité - John Antonakis

Retour au podcast

https://www.youtube.com/watch?v=bIfTBJCaWR8

Pièces jointes

Causality_and_endogeneity_final.pdf ^{(non traduit)}

2slsdata.xls.zip

[Transcription]

[00:07] Bonjour, je m’appelle John Antonakis. Je suis professeur de Comportement Organisationnel à l’Université de Lausanne.

[00:15] Aujourd’hui, je vais vous parler d’un sujet que beaucoup de chercheurs ne savent pas ou prennent soin à éviter: l’endogénéité.

[00:24] Ça sonne mal et c’est mauvais. C’est comme un virus mortel qui menace la viabilité de modèles qui font des déclarations causale concernant la relation entre une variable dépendante et une variable indépendante.

[00:39] Qui a besoin de savoir à propos de l’endogénéité? Les chercheurs, les étudiants, mais plus important les décideurs politiques et privés. L’endogénéité rode toujours dans l’arrière-plan. C’est pourquoi c’est important de savoir ce que c’est, pourquoi c’est mortel pour la recherche, et comment y faire face.

[01:03] On est sans arrêt bombardés avec des soi-disant déclarations causales et qui ont des implications pratiques. Par exemple, choisissant une quelconque politique d’entreprise ou un système de contrôle améliore, apparemment, le rendement de l’entreprise. Ou, de bonnes relations entre le leader et ses subalternes (le LMX) réduit, apparemment, le tournus et améliore la satisfaction. Avoir plus de femmes au comité de direction accroit, apparemment, la profitabilité des firmes.

[01:32] Des chercheurs et consultants font souvent ces revendications, mais ces résultats sont-ils réellement valables? Comment pouvons-nous savoir si c’est le cas?

[01:43] Comme vous le verrez à la fin de ce podcast, très souvent, de telles affirmations, si elles n’ont pas été observées dans certaines conditions, seraient généralement fausses.

[01:52] Pour mieux comprendre le problème d’endogénéité, imaginez une philosophe qui est sortie dans un champ où elle est supposée observer un phénomène qui va se produire 50 fois. Son but est de reconstituer ce qu’elle voit et fournir une explication théorique de ce qu’elle a observé.

[02:12] Ainsi, la philosophe se promène sur le champ, et elle regarde tout autour d’elle, elle entend quelques oiseaux, rien d’inhabituel. Soudain, un disque vole à travers le ciel (pffffft pfffft pfffft). Elle entend un craquement, et le disque se brise en mille morceaux. Perplexe devant cet incident, elle regarde à nouveau.

[02:42] Soudain, elle entend encore le bruit du disque dans le ciel (pffffft pfffft pfffft). Un autre disque apparaît. Elle entend le craquement et le disque se brise à nouveau. Cela arrive plusieurs fois. La plupart du temps qu’elle entend un craquement, le disque se brise.

[03:02] Après un temps de réflexion à propos du phénomène, la philosophe vient à une conclusion. Une explication théorique qui émane du craquement. Elle arrive à cette conclusion après avoir observé 50 essais, et elle est vraiment convaincue que ça doit être le son qui a détruit les disques.

[03:25] Jetons un regard sur les données qu’elle a recueillies.

[03:29] Donc, voici les données qui montrent exactement ce que la philosophe a vu et ce qu’elle a enregistré. Ici, il n’y avait pas craquement. Comme vous le voyez, sur 19 essais, le disque est resté intact et il n’a jamais été détruit.

[03:48] Par ici, c’est quand elle a entendu le craquement. Sur 29 essais où le craquement est survenu, les disques ont été brisés ; sur deux essais, où le craquement est survenu le disque ne s’est pas brisé.

[04:02] Comme vous pouvez le voir, il y a une relation très forte entre les deux variables. C’est « en entendant le bruit » et « les éclats ». Lorsque le bruit est présent, le disque se brise souvent. En fait, la probabilité est extrêmement élevée.

[04:17] Et, lorsque le son n’est pas là, il y a une certitude à presque 100% que le disque ne se brise pas.

[04:24] Nous pouvons en effet estimer la relation entre ces deux variables. Ceci est en fait appelé un coefficient phi, et il est de .92. Il est presque parfait. Par conséquent, que pouvons-nous conclure? Lorsque le bruit est présent, il est fort probable que le disque se brise et quand le bruit n’est pas présent, il est fort probable qu’il ne se brise pas.

[04:43] Maintenant, voici une question pour vous: la philosophe peut-elle effectivement conclure que le bruit fait voler en éclats le disque? La corrélation observée, et je souligne « observée », est très forte et elle est statistiquement significative. C’est à dire, que cette relation est très fiable et n’est pas due au hasard. Mais, s’y reflète réellement la véritable relation entre le son et le disque qui se fracasse?

[05:11] Il semble que le crac entraîne le disque à se briser. Parlons des variables en termes de « x », la cause, et « y », le résultat apparent.

[05:21] Supposons que le diagramme suivant de causalité où « x » cause « y », et Il y a quelque chose qui cause « y » également que nous n’observons pas : Nous appelons cela un terme de perturbation, le terme « e » ici ; ou, peut-être, les causes non mesurées. Comme vous pouvez le voir, la raison pour laquelle cela existe est parce que nous n’avons pas parfaitement prédit quand le disque se brisera en fonction du bruit. Nous avons des erreurs, ce qui a été montré dans le graphique à barres. Ce sont les ratés que nous avons eu.

[05:50] Le problème avec cette spécification causale est que « x » ici n’est pas réellement exogène. Il dépend de quelque chose. Et si ce quelque chose n’est pas pris en compte dans le modèle, la relation que nous allons estimer entre « x » et « y » sera, en fait, très biaisée.

[06:09] Maintenant, voici le gros problème: l’endogénéité. Les causes de « x » peuvent aussi causer « y ». C’est à dire, « u » et « e », ces causes inconnues peuvent être corrélées ou peut-être dues à la même variable. Et cette variable est ce que nous appelons « une cause omise ».

[06:29] Lorsqu’on ajoute « z » dans le modèle, nous nous rendons compte de ce qui provoque à la fois « x » et « y ». En fait, la relation entre les « x » et « y » est inexistante. Il est nulle, zéro.

[06:47] Pour mieux comprendre pourquoi la relation entre « x » et « y » est en fait zéro, j’ai estimé une régression multivariable où :

1. « z » prédit « x », le volume du son, en utilisant un modèle linéaire

2. « z » prédit « y », si le disque a été brisé, en utilisant un modèle de probabilités linéaire, estimé par les moindres carrés (ordinaires)

3. les perturbations de « x » et « y », « u » et « e » respectivement, sont corrélées

La corrélation résiduelle entre « x » et « y » est en fait zéro quand le modèle prend en compte les causes de « x » et « y ». Pour des notes détaillées et pour télécharger ces données, veuillez suivre le lien suivant sur ma page web :

https://www.hec.unil.ch/jantonakis/disk.xls

[07:43] Donc, ceci est le vrai modèle. « z » provoque à la fois « x » et « y ». « x » est la puissance du crac entendu par la philosophe, qui est causé par un coup de fusil: la variable omise « z ». Ce qu’elle entend est aussi causé par « u », une cause non mesurée, peut-être le bruit de fond, ce qui perturbe un peu ce qu’elle a entendu. Le disque qui se fracasse est causé par « z » ainsi, et « e » qui est : une cause aléatoire non-mesurée. Il pourrait avoir été le vent quand le tireur a tiré et qui a dérangé la direction des balles, ce qui explique pourquoi elles ont manqué les disques. Donc, ce fut une cause aléatoire, qui n’est pas mesurée dans le modèle et non corrélée avec « z ».

[08:32] Pour en revenir à la philosophe dans le champ, malgré ses bonnes intentions pour tenter de modéliser ce phénomène correctement, ce qu’elle a fait était faux. Il n’existe aucune corrélation entre le son et le disque fracassant. Les deux sont causés par une arme à feu dont elle ignorait l’existence. Là, nous pouvons voir le tireur.

[08:56] Et c’est le tireur qui, en fait, détruit le disque, qui est lancé sur le côté par un lanceur de disque.

[09:03] Lorsque l’on est confrontés à des problèmes d’endogénéité de ce genre, le problème est que la relation que nous observons pourrait être positive, pourrait être négative, ou pourrait être non significative. En fait, nous ne savons pas quelle est la vraie relation quand nous omettons des causes importantes.

[09:25] Quelles sont les causes de l’endogénéité? Il y a trois raisons principales: la première, celle que vous avez vue, ce sont les variables omises. Et celles-ci existent dans beaucoup de différents types et formes. Je viens de vous montrer un exemple où nous avons omis une cause commune, mais il y a différentes sortes de biais de variables omises.

[09:44] Par exemple, en omettant les effets fixes. De nombreux chercheurs, surtout ceux qui utilisent ce qu’on appelle des modèles HLM, ou modèles linéaires hiérarchiques, font l’estimation de ces modèles à l’aide d’effets aléatoires, ou des coefficients aléatoires, sans vérifier si la variable au niveau « bas » corrèle avec les effets fixes ou constants qui sont dus à l’entité de niveau supérieur.

[10:07] Un deuxième cas intéressant de biais de variable omise est le biais sélection. Dans ce cas, il y a un choix qui a été fait par l’entité que nous observons. Par exemple, les femmes qui choisissent de travailler ou qui choisissent de ne pas travailler.

[10:26] Comment peut-on estimer la relation entre l’éducation et à quel point une femme gagne si on ne peut pas qu’observer les femmes qui travaillent? Nous devons également observer la contrefactuelle. Que feraient des femmes qui ne travaillent pas, en termes de salaire, si elles avaient choisi de travailler?

[10:44] Donc, nous avons besoin de modéliser ce choix endogène. Ceci vient sous différentes formes. Par exemple, les dirigeants peuvent choisir de participer à un programme de formation au leadership, ou non.

[10:55] Les entreprises peuvent choisir d’exporter, ou non; elles peuvent choisir d’utiliser une certaine stratégie, ou non. Ce choix est endogène. Il ne peut pas être utilisé pour prédire quoi que ce soit. C’est un peu comme le bruit du coup de feu.

[11:10] La troisième cause majeure est ce qu’on appelle la simultanéité. Par la simultanéité, nous entendons que le modèle que nous avons: « x » prédit « y », pourrait fonctionner d’une façon où « x » est une cause de « y ».

[11:24] Toutefois, « y » est aussi une cause de « x ». Nous avons donc une boucle de rétroaction allant de « y » à « x ».

[11:32] Comme vous pouvez le voir, « x » est causé par « y » qui est une cause omise que nous n’observons pas, est que « y » est causé par « x » et aussi par une cause omise que nous n’avons pas observée.

[11:44] Le problème que nous avons lorsque nous estimons une relation entre « x » et « y », et que la simultanéité pourrait être la raison de ces résultats, est que le coefficient que nous estimons est en fait erroné, car il est composé de deux coefficients.

[11:59] Donc, nous pourrions observer un coefficient de .50 mais cela ne veut rien dire. L’un pourrait aller dans un sens positif, l’autre pourrait aller dans un sens négatif.

[12:09] Par exemple, les leaders changent leur style de leadership en fonction de la performance des subalternes. Si un subalterne a de mauvaises performances, le leader pourrait utiliser un style de leadership négatif, ce qui donne une rétroaction négative.

[12:23] Si le subalterne a de bonnes performances, le leader pourrait adapter son style en fonction de ces bonnes performances.

[12:29] Ainsi, le coefficient que nous observons n’est pas digne de confiance : il est constitué de deux corrélations.

[12:35] Très souvent, les chercheurs disent, «Eh bien, la corrélation observée que nous avons est peut-être parce que « x » est à l’origine de « y », ou parce que « y » est à l’origine de « x ». Non, c’est faux. Ces chercheurs ne comprennent pas.

[12:47] La corrélation que nous observons n’est pas correcte, parce que l’une des corrélations pourrait être positive, l’autre pourrait être négative, et elles pourraient être de tailles différentes ou de différentes magnitudes. En fait, ce que les chercheurs font est de corréler le son des balles avec un résultat.

[13:05] Il y a beaucoup d’autres causes d’endogénéité, y compris l’erreur de mesure, qui est un cas particulier où « x » est en réalité exogène, mais n’est pas mesuré de manière fiable.

[13:16] Il y a aussi ce qu’on appelle une variance de méthode commune. Beaucoup de chercheurs ne réalisent pas à quel point la variance de méthode commune peut biaiser les résultats, en d’autres termes, que les effets de la variance de méthode commune peuvent être surestimés. Mais, en fait, s’il y a un problème de variance de méthode commune, nous ne savons pas ce que la véritable relation peut être.

[13:30] Par exemple, supposons que je vous demande d’évaluer votre patron sur un certain style de leadership et puis je vous demande si vous aimez votre patron. Ou je pourrais poser les questions dans l’autre sens: « Aimez-vous votre patron?», disons que vous dites « oui ».

[13:44] « Êtes-vous très impressionné par le style de leadership de votre patron? », « Est-ce que votre patron est un bon leader? » Vous êtes plus susceptibles de dire « oui » étant donné la première réponse. Maintenant, il était très flagrant la façon dont j’ai posé la question en disant: «Aimez-vous votre patron? » Les questions peuvent être posées de manière plus indirecte, mais elles peuvent être conduites par une variable cachée, « z », qui est le moteur de la relation entre « x » et « y » et nous ne savons pas quelle est la vraie relation si nous avons omis une cause, si nous avons l’endogénéité.

[14:15] Comment pouvons-nous nous débarrasser de l’endogénéité? C’est très simple. La façon irréprochable de le faire est avec une expérience.

[14:23] Dans une expérience « x » est manipulé de manière exogène. En d’autres termes, il varie de manière aléatoire.

[14:32] Parce qu’il varie de manière aléatoire, il ne sera pas en corrélation avec quelque chose dans la variable dépendante que nous n’avons pas mesuré. Laissez-moi vous donner un exemple.

[14:42] Supposons que nous voulons tester l’efficacité d’un traitement, quel qu’il soit, une formation en leadership, ou un médicament, par exemple. Nous avons donc un échantillon d’individus, disons 100, et ce que nous ferons est que nous allons utiliser une sorte de mécanisme aléatoire pour répartir ces personnes entre un groupe de traitement et un groupe de contrôle.

[15:01] Nous pourrions leur faire subir des traitements différents, ce n’est pas important. Supposons que nous ayons un groupe de traitement et un groupe de contrôle.

[15:08] Puisque les participants ont été répartis de manière aléatoire à l’un ou l’autre groupe, au départ les deux groupes sont identiques sur toutes les variables, observables ou non. Cela est très important.

[15:22] Donc, si les groupes sont identiques sur des facteurs observables ou non et s’il y a une différence entre eux après le traitement, la différence ne peut être que due à une cause: au traitement.

[15:33] Ceci en raison du fait que rien d’autre ne peut expliquer pourquoi il existe une différence entre les groupes. Les groupes étaient identiques au départ.

[15 :43] Ainsi, la force du modèle de recherche expérimentale réside dans le fait que nous pouvons observer ce qu’on appelle la contrefactuelle. Qu’aurait eu le groupe traité si elle n’avait pas reçu le traitement ? Cela pourrait être observé chez le groupe non traité.

[15:58] nous pouvons faire une déclaration causale qui est valide avec une expérience.

[16:03] Rappelez-vous. Avec une expérience, on peut s’assurer que :

1. il n’y a pas des causes omises qui corrèlent avec le traitement

2. les groupes sont les mêmes au début

3. on peut observer la contrefactuelle au niveau du groupe

4. les déclarations causales sont valides

[16:22] Les méthodes expérimentales sont une façon de gérer l’endogénéité. Il y a d’autres moyens, un peu plus complexes, qui empruntent largement à l’économétrie.

[16:34] Je voudrais illustrer la relation entre « x » et « y » en utilisant des cercles.

[16 :40] Cet exemple est tiré du livre de Kennedy « Introduction to econometrics ».

[16:45] Imaginez que nous avons ici les deux variables « y » et « x ». Le chevauchement entre elles, et leur intersection, est en fait le pourcentage de chevauchement, ou de variance qui est partagé entre les deux variables, et qui est réellement ce que nous voulons estimer quand nous estimons un modèle ANOVA ou un modèle de régression.

[17:05] Supposons que c’est une pente, le bêta. Bien entendu, « y » dépend de « x », mais « y » dépend d’autres variables que nous n’avons pas mesurées. Je vais juste en ajouter une ici: « m ».

[17:19] Maintenant, parce que nous avons manipulé « x » de manière exogène, « x » ne se chevauche pas du tout avec »m ». « x » est indépendant de celui-ci, ou il lui est orthogonal.

[17:31] Par conséquent, ce que nous estimons en termes de « x » prédit « y », le coefficient de la pente, est réellement consistant.

[17:38] Par « consistant » nous entendons que la pente reflètera la véritable valeur tandis que la taille de l’échantillon augmente.

[17:46] Même avec des expériences on peut avoir des problèmes d’endogénéité, un fait méconnu de certains chercheurs. J’ai remarqué cela très souvent en psychologie.

[17:54] Parfois nous mesurons effectivement deux variables dépendantes lors d’une expérience, « y1 » et « y2 », et nous voulons estimer l’effet causal de « y1 » sur « y2 » en fonction de « x ».

[18:08] Ainsi, par exemple, les sujets ont été répartis aléatoirement à un traitement, nous appelons cela « x », et ils ont ensuite été mesurés sur « y1 » et « y2 ». Maintenant, supposons que « y1 » et « y2 » partagent une cause commune, ce qui est possible parce qu’ils ont été mesurés à peu près au même moment.

[18:28] Supposons qu’ils ont été exposés à un certain leader, et peut-être qu’ils ont plus ou moins aimé le leader à cause de son apparence physique.

[18:36] Ceci n’a rien à voir avec le traitement qui a été administré. Par conséquent, si l’on tente d’estimer l’effet causal de « y1 » sur « y2 », il y a un problème d’endogénéité à nouveau entre « y1 » et « y2 ».

[18:48] Et ce problème d’endogénéité doit être reconnu.

[18:53] Par reconnu, on entend que la structure causale des données doit être modélisée correctement. C’est à dire que « x » cause « y1 » et « y2 », mais il y a une cause commune qui relie les deux variables dépendantes qui doit être modélisée.

[19:09] Cette corrélation entre les deux perturbations doit effectivement être modélisée lors de la procédure d’estimation.

[19:18] Très souvent, les chercheurs ne le font pas. En conséquence la corrélation estimée entre “y1” et “y2” sera effectivement mal estimée: elle sera fausse.

[19:31] La solution à ce problème est très simple. Elle requiert l’utilisation de l’estimateur de doubles moindres carrés, ou DMC.

[19:39] Dans ce cas, “x” est connu comme la variable exogène ou l’instrument, qui est utilisé pour aider à identifier l’effet causal de « y1 » ou « y2 ». Comment allons-nous faire cela?

[19:54] Nous trouverons la portion de la variabilité partagée entre “x” et “y1” que chevauche « y2 ». Cependant, nous devons modéliser cette structure causale correctement en corrélant les pertubations.

[20:08] Pour en revenir à notre cercle, afin que nous puissions comprendre la nature du problème.

[20:13] Supposons que nous voulons estimer la relation entre « y1 » et « y2 », c’est à dire la relation de causalité. Malheureusement, « y1 » et « y2 » partagent une cause commune, qui est « q ».

[20:27] Comme vous pouvez le voir, la partie où « q » chevauche « y1 » et « y2 » est celle où se posera le problème d’endogénéité. Ceci doit être correctement reconnu dans l’estimateur.

[20:39] Maintenant, si nous avons juste estimé cette relation entre « y1 » et « y2 », comme vous le verrez la zone de chevauchement se compose d’un élément vrai, mais il comprend également une composante d’erreur, et c’est là que les trois cercles se chevauchent.

[20:55] Cette portion de la variance dans le cercle jaune sera mal estimé si l’on utilise ce qu’on appelle les moindres carrés ordinaires (MCO), ou peut-être même un estimateur du maximum de vraisemblance.

[21:08] Le choix de l’estimateur est égal mais si nous ne reconnaissons pas la structure exacte de causalité et trouvons un instrument qui est exogène au système de variables, nous ne pouvons pas identifier l’effet causal de « y1 » sur « y2 ». L’instrument dans ce cas est « x ».

[21:28] Comme vous pouvez le voir, « x » recouvre à la fois « y1 » et « y2 ». Puisque « x » est exogène il ne se chevauche pas du tout avec la cause commune omise: « q » ou toute autre cause et je ne les ai pas mises dans le modèle.

[21:43] Nous avons simplement isolé « q » pour la démonstration. Alors, l’estimateur va regarder la portion de variance partagée entre “x” et “y1” et “y2” dans le but d’estimer la relation entre les deux variables dépendantes.

[21:57] Même si il (x) utilise une moindre portion de chevauchement de “y1” et »y2” il estimera cette relation de manière consistante.

[22:07] En d’autres termes, le coefficient que nous trouverons sera correctement estimé, même si nous avons utilisé moins d’informations.

[22:14] Cette portion de la variance est ce que j’appelle sur l’image « y1 » chapeau. « y1 » chapeau est la valeur prédite de « y1 » qui est due à « x ».

[22:25] Cette valeur prédite a une propriété très spéciale. Elle ne se chevauche pas du tout avec « q », comme vous pouvez le voir dans le diagramme.

[22:34] Ceci est en fait l’estimation des doubles moindres carrés ordinaires, qui peut être estimée en utilisant l’estimateur des doubles moindres carrés ordinaires ou bien l’estimateur du maximum de vraisemblance.

[22:46] Ce qui est important est de corréler les deux perturbations: les perturbations des variables endogènes (« y1 » et « y2 ») bien entendu. Vous devez reconnaître dans l’estimateur que « y1 » et « y2 » sont endogènes et qu’elles pourraient potentiellement partager une cause commune.

[23:01] La corrélation entre ces deux perturbations comme je l’indique dans les cercles est effectivement ce qu’estime le test de Hausman.

[23:10] Alors, laissez-moi vous montrer comment estimer correctement, mais d’abord nous allons commencer par l’estimation incorrecte.

[23:17] Normalement, ce qui se fait dans ces cas est que « y1 » est utilisé comme un prédicteur de « y2 ». Le problème est que « y1 » est corrélé avec la perturbation de « y2 ».

[23:31] En d’autres termes, cette corrélation n’est pas ‘zéro. Beta un, la relation entre « y1 » et « y2 », sera en effet inconsistant dans son estimation, elle ne sera pas correcte.

[23:43] Maintenant, la façon correcte d’évaluer ce modèle est en fait d’utiliser les instruments à prédire « y1 » d’abord et ensuite d’utiliser la valeur prédite de « y1 » pour prédire « y2 ».

[23:54] Pour ce faire, nous devons corréler les perturbations des deux équations. En d’autres termes, les perturbations de « y1 » et de « y2 ». Ainsi, cette corrélation (des perturbations) est appelée « psi1 ».

[24:08] Si cette corrélation, « psi1 », n’est pas nulle, et elle est estimée, nous tuerons l’endogénéité.

[24:17] Si la « psi1 » n’est pas nulle et nous ne l’estimons pas nous allons avoir un gros problème, et ce gros problème, c’est juste comme nous le faisions avant.

[24:28] Si je peux revenir à la figure précédente, c’est comme si nous n’avions jamais utilisé les instruments à prédire « y1 » et la valeur prédite de « y1 » à prédire « y2 ».

[24:39] En d’autres termes, tenant constant que la covariance entre les deux perturbations à zéro va donner exactement la même, et incohérente, estimation, comme si nous n’avions jamais utilisé « z » ou « q » dans le modèle.

[24:54] Et voilà comment de nombreux chercheurs font tester ces modèles causaux.

[24:59] Ils ont deux variables endogènes, ils peuvent avoir des variables exogènes à partir d’une expérience, idéalement, mais ils ne les utilisent pas d’une façon correcte pour estimer la relation entre « y1 » et « y2 ». Si les deux variables, qui sont endogènes, partagent une cause commune, ceci doit être reconnu dans l’estimateur.

[25:17] Permettez-moi de démontrer un cas particulier avec des données simulées. Ces données sont disponibles sur mon site (2slsdata.xls.zip), et je vous encourage à les télécharger et d’utiliser les différents programmes pour voir si vous pouvez obtenir les mêmes estimations que moi.

[25:32] Ainsi, supposons que le modèle qui a généré les données, en fait, le vrai modèle, qui structure les relations entre les deux variables, est décrit ainsi.

[25:42] Nous avons « x » qui cause « y », mais nous avons »q » qui cause à la fois « x » et « y ». Nous avons également deux instruments: « m » et « n » qui sont exogènes, ils ne sont pas corrélés avec « u », avec « e » et ni même avec « q ».

[25:58] Donc, ce que nous essayons d’estimer est l’effet causal de « x » sur « y » et cet effet de causalité est censé être -.30.

[26:10] On peut estimer ce modèle correctement, même si nous n’incluons pas »q » dans le modèle, tant que nous corrélons les deux perturbations. Comme vous pouvez le voir à partir des données simulées (et ici les données sont assez volumineuses puisque j’ai un échantillon de 10’000 observations), nous voyons que l’estimateur DMC récupère le véritable paramètre presque exactement. Il estime qu’il soit -.29. Rappelez-vous que la vraie estimation était -.30.

[26:45] Maintenant, si cela est estimé de manière habituelle, de manière MCO, où cette corrélation n’est pas reconnue, c’est comme si nous estimions deux équations distinctes.

[26:57] Donc, même si vous estimez le système d’équations simultanément, et si vous ne faites pas corréler les perturbations, c’est comme si vous aviez estimé deux équations indépendantes qui les lie avec rien du tout.

[27:10] Dans ce cas, lorsque nous régressons »y » sur »x », nous obtenons une estimation de .03. Rappelez-vous que la vraie estimation était -.30. Donc nous sommes loin du vrai paramètre.

[27:24] Essayez de le faire vous-mêmes. Prenez »y » et régressez-la sur »x ». Vous obtiendrez une estimation de .03. Ceci est la corrélation observée. Et celle-ci est complètement fausse.

[27:38] Vous pouvez utiliser tous les outils possibles et grands programmes des équations structurelles, mais si le modèle, d’abord, ne comporte pas les variables exogènes requises pour identifier l’effet de »x » sur »y », vous n’allez pas obtenir des estimations correctes.

[27:51] Deuxième problème: si vous ne reconnaissez pas l’endogénéité entre les deux variables endogènes, vous n’allez pas obtenir des estimations correctes.

[27:59] Maintenant, voici la question à un million francs suisses (et pour les Américains, sachez que cela équivaut à 1.2 millions dollars). Où pouvons-nous obtenir des instruments?

[28:10] Dans un modèle expérimental, il est très facile d’obtenir un instrument, c’est la ou les variables qui ont été manipulés de manière exogène et, idéalement, vous aurez plus de variables que vous n’avez de régresseurs endogènes, de sorte que vous pouvez estimer ce qu’on appelle une statistique de sur-identification, si la structure que vous avez dans les données, la structure causale, est en fait valable.

[28:34] Alors, ce que fait cette statistique, en fait, c’est de comparer le modèle que vous avez avec ce qu’elle observe dans les données. Ceci est semblable à comparer un plan d’architecte à la maison construite pour vérifier la ressemblance du modèle avec les données.

[28:51] Ainsi, il nous est bénéfique de disposer d’instruments, d’avoir au moins quelques-uns de plus de ce que nous avons en termes de régresseurs endogènes.

[29:03] Où pouvons-nous obtenir les instruments, si nous n’avons pas fait une expérience?

[29:08] Il y a beaucoup de façons créatives de [se] procurer des instruments. Les économistes ont trouvé beaucoup de moyens de le faire, quand on veut, par exemple, estimer l’effet des firmes sur la performance ou bien l’effet des variables au niveau national sur la performance du pays.

[29:22] Il peut y avoir des instruments géographiques, des instruments de distance, des vecteurs de malaria ou d’autres façons diverses.

[29:30] En psychologie, par exemple, le QI d’un leader ou n’importe quel effet constant qui est déterminé génétiquement peut servir comme instrument.

[29:38] On parle de ça dans l’article publié dans le Leadership Quarterly, »On making causal claims ». Alors si vous êtes intéressés à approfondir vos connaissances, veuillez vous référer à l’article.

Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). On making causal claims: A review and recommendations. The Leadership Quarterly, 21(6). 1086-1120. https://www.hec.unil.ch/jantonakis/Causal_Claims.pdf

[Si vous le souhaitez, vous pouvez également vous référer à cet article, qui est une introduction bien plus basique au problème d’endogénéité]:

Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (submitted). Causality and endogeneity: Problems and solutions. In D.V. Day (Ed.), The Oxford Handbook of Leadership and Organizations. https://www.hec.unil.ch/jantonakis/Causality_and_endogeneity_final.pdf

[29:54] Pour résumer, si »x » n’est pas exogène, sa relation avec »y » est suspecte, et doit être corrigée en utilisant une sorte de technique corrective, pour tuer l’endogénéité.

[30:06] Il y a beaucoup de cas de ceci dans la littérature ainsi que dans l’article dont je parle, publié dans le Leadership Quarterly, où nous avons trouvé que même dans de très bonnes revues scientifiques, dans les meilleures revues de management, de psychologie appliquée, les estimations étaient sévèrement compromises en utilisant des procédures inadéquates.

[30:24] Nous ne pouvons pas régresser »y » (la satisfaction des suiveurs, ou n’importe quelle variable) sur LMX, la qualité des relations entre les subalternes et leur leader, puisque LMX est endogène.

[30:35] Nous ne pouvons pas utiliser les modèles de régression multi-niveaux, qui analysent les effets aléatoires, lorsque les variables au niveau bas pourraient corréler avec des effets fixes (les effets constants sont une cause omise).

[30:45] On ne peut pas régresser les performances d’une entreprise sur un choix endogène, par exemple en utilisant une certaine stratégie de contrôle, ou de ne pas l’utiliser, parce que le choix est endogène, il doit être modélisé correctement.

[30:58] Ce qu’a fait James Heckman, qui a remporté le prix Nobel en 2000, dans sa procédure éponyme, méthode d’estimation d’Heckman en deux étapes. Il a trouvé un moyen par lequel il pouvait corriger cette endogénéité et reproduire un contrefactuel véritable. Tout comme dans une conception expérimentale.

[31:15] Merci d’avoir pris le temps d’écouter ce podcast d’Université de Lausanne. Si vous êtes intéressés à en savoir plus au sujet de l’endogénéité et comment la corriger, veuillez vous référez au document suivant. L’article est disponible sur mon site ; ou si vous le souhaitez, vous pouvez m’envoyer un courriel et je serai très heureux de vous le faire parvenir.

Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). On making causal claims: A review and recommendations. The Leadership Quarterly, 21(6). 1086-1120. Causal_Claims.pdf ^{(non traduit)}

[Si vous le souhaitez, vous pouvez également vous référer à cet article, qui est une introduction bien plus basique au problème d’endogénéité]:

Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (submitted). Causality and endogeneity: Problems and solutions. In D.V. Day (Ed.), The Oxford Handbook of Leadership and Organizations. Causality_and_endogeneity_final.pdf ^{(non traduit)}

[31:36] En conclusion, assurez-vous de réfléchir à ces effets causals supposés quand quelqu’un essaie de vous en convaincre. Cette réclamation est-elle faite dans le cadre d’une expérience?

[31:45] Si non, est-il possible qu’on ait omis des causes que ne sont pas correctement modélisées?

[31:50] Des instruments étaient-ils utilisés pour assurer que la direction causale de l’effet d’une régression endogène puisse être identifiée sur une variable dépendante?

[31:58] S’il y a une raison de douter, ne pas faire confiance aux résultats de l’étude qui les a publiés.

[32:04] Rappelez-vous, l’endogénéité est comme une maladie, il doit être piétinée dans chacune de ses formes.

[32:11] Il n’est ni éthique ni économique de baser des politiques ou pratiques sur les procédures qui pourraient ne pas fonctionner.

[32:18] Merci d’avoir écouté ce podcast.