Is een Fixed-Effects regressie noodzakelijk?
Een fixed-effects regressie is al jarenlang de voorkeursregressie als je panel-data gebruikt. Als je Stata (xtreg-commando) gebruikt tijdens je analyses is her een handige handleiding van Torres-Reyna (2007) van de Princeton University. Een iets complexere en uitgebreidere handleiding is geschreven door Park (2011). De fixed-effects heeft een belangrijk voordeel bovenop een Least Square Dummy Variable model (LSDV) en de asreg functie in Stata is dat een fixed effects regressie altijd unbiased is. Dit is een belangrijk voordeel van de fixed effects regressie omdat de andere regressies uitgaan van de Best Lineair Unbiased Estimate (BLUE) aannames. Dit wil zeggen dat alle relevante variabelen opgenomen zijn in het model. Nu is er ongetwijfeld minimaal wel een variabele die je vergeten bent mee te nemen in je analyse model. Hierdoor heb je het probleem van ommited variable bias, wat de fixed effects regressie voor je oplost. Daarnaast, heeft de fixed effects regressie nog een bijkomend voordeel, dat hij een correctie doet voor mogelijke endogeniteit in je model (Chi, 2005; Imai & Kim, 2017).
De beperkingen van de fixed-effects regressie
Daarentegen is de fixed effects regressie, zoals onder andere beargumenteerd door Collischon and Eberl (2020), Nikolaev and van Lent (2005) en Barros, Bergmann, Castro, and Silveira (2020) niet zonder zijn fouten.
Strict exogeneity assumption
Als je de fixed effects regressie uitvoert regressie moet je voldoen aan de “strict exogeneity assumption”. Dit begrip gaat er van uit dat de verklarende variabelen geen verband houden met de schattingsfout (error term). Daarnaast mogen de observaties van elke willekeurige tijd-variërende variabele geen verband met elkaar houden. Dit wil zeggen, dat de observatie van tijd moment 2 geen verband heeft met de observatie van tijd-moment 1 of tijd-moment 3. In hoeverre je variabelen voldoen aan deze aanname kan in Stata eenvoudig worden getest. Professor Jeff Wooldridge heeft aangegeven dat door het toevoegen van tijd dummies en de variabele waarvan je denkt dat deze endogeen is een tijdsperiode later (Forward commando). Vervolgens gebruik je de “F-statistic for joint significance” in Stata (test-commando). In dit test commando neem je de vermoedelijke endogene variabele van een periode later (F. commando) op. Als het test commando een significante F-waarde laat zien, zijn de geteste variabelen dus endogeen. Professor Jeff Wooldridge adviseert in dit soort gevallen, indien deze variabelen niet te verwijderen of vervangen is, over te schakelen op een Instrumental Variable (IV) regressie.
Auto- of seriecorrelatie in een fixed effects regressie
De hierboven genoemde “strict exogeneity assumption” is problematisch als je een fixed effect regressie doet. Als je panel-data hebt, met andere woorden een herhaalde meting van hetzelfde object, is autocorrelatie bijna een zekerheid. In de praktijk zijn er maar weinig dataset die aan de “strict exogeneity assumption” voldoen (Pugh, 2018) https://www.researchgate.net/post/Dynamic-vs-Static-panel-data. Kortom, als je niet aan de “strict exogeneity assumption” voldoet kan je jouw model als “mispecified” beschouwen. Hierdoor kan je model een incorrecte coëfficiënt en/of standaard error rapporteren. Een fixed effects model, wat kan worden omschreven als een “static model”, is dus gevoelig voor afwijkingen van de “strict exogeneity assumption” en is dus in veel gevallen “mispecified”, waardoor het een miswijzing heeft. Een “dynamic model” daarentegen houdt rekening met het verleden, en daarmee de autocorrelatie waardoor het beter gespecificeerd is dan een “static model”.
Gratis Intakegesprek? >>Dynamic panel models
Een dynamic model is een regressie model waarbij de afhankelijke variabele van een of meer periodes terug is opgenomen als een van de onafhankelijke variabelen. Je neemt bijvoorbeeld de afhankelijke variabele van een jaar eerder op als onafhankelijke variabele. Als je in Stata met het xtset of tsset commando werkt is dit vrij gemakkelijk te realiseren door “L1.”direct voor de variabele te plaatsen. Een ander alternatief in Stata is de “[_n-1]” functie, maar deze kan net als de hiernavolgende SPSS-functie foutgevoelig zijn. In SPSS zal je met de lag-functie moeten werken om een nieuwe variabele te creëren. Pas hierbij op voor de overgang van het ene bedrijf op het andere bedrijf. Keele and Kelly (2006) geven wel aan dat het belangrijk is als je een lagged dependent variable (LDV) gebruikt dat je controleert of de tijdserie van de afhankelijke variabele stationair is.
De functie van de lagged dependent variable (LDV)
Deze lagged dependent variable (LDV) heeft als doel om onderscheid te maken tussen korte en lange termijneffecten van de onafhankelijke variabelen op de afhankelijke variabele (Pugh, 2018). Per slot van rekening zitten in de LDV alle, dus ook de ommited variables (omitted variables bias), effecten opgenomen van de voorgaande jaren op de afhankelijke variabele. Daarnaast, is meestal het verleden een goede voorspeller van de toekomst, daarom is de verwachting dat de LDV een goede voorspeller is van de toekomstige waarde van de afhankelijke variabele. Je zou ook kunnen argumenteren dat de LDV een indicator is van de mate van autocorrelatie in de dataset. Met andere woorden, hoeveel effect heeft de voorgaande periode nog op de huidige periode. Gezien het conditionele karakter van een regressie, met andere woorden, de regressie coëfficiënten zijn afhankelijk van de variabelen opgenomen in de regressie, zou je kunnen beargumenteren dat wanneer je de LDV opneemt in je regressie, de andere variabelen alleen nog iets vertellen over de verandering, het dynamische effect, van de voorgaande periode op de huidige periode van de afhankelijke variabele.
Wat zijn de voordelen/nadelen van een dynamic panel model?
Als je fixed of random effects model goed gespecificeerd is, dit wil zeggen dat je aan alle voorwaarden en assumpties voldoet is er geen doorslaggevend voordeel van een dynamic panel model (DPM). Daarentegen, het is bijvoorbeeld een grote uitdaging om met datasets uit de praktijk aan alle voorwaarden te voldoen, zeker als je een wat kleinere dataset hebt. Als je niet aan alle voorwaarden voldoet kan je dus spreken over een “misspecification” van je analyse en kunnen je resultaten gebaseerd zijn op een miswijzing. In dat soort gevallen kan een DPM je resultaten corrigeren. Maar, een DPM is niet ideaal, ook in een DPM kan er bias optreden.
Short panel bias
Als je een DPM maakt of wil compenseren voor de tijd-invariantie ommited variables kan je last krijgen van “short panel bias”. In een short panel de N (aantal bedrijven) is vaak aanzienlijk groter dan de T(aantal tijd observaties) (Barros et al., 2020; Moyo, 2016). De bias kan ontstaan wanneer je een LDV opneemt in je model. Een LDV is simpel gezegd de waarde van de afhankelijke variabele van een (of meer) periode(n) eerder. Om aan de hiervoor genoemde “strict exogeneity assumption” te voldoen mag niet alleen de verklarende variabelen geen correlatie hebben met de schattingsfout, maar mag er ook geen correlatie zijn tussen de tijdsobservaties van een willekeurige variabele (Barros et al., 2020). Met andere woorden de observatie van tijdmoment een heeft geen verband met de schattingsfout en observatie van tijdmoment twee heeft ook geen verband met de schattingsfout, …etc.
Short panel bias: autocorrelatie
Indien de “strict exogeneity assumption” is geschonden dan zien we dat vaak terug in de autocorrelatie (serie correlatie) van de error-terms. Het testen voor autocorrelatie kan via de Durbin-Watson meting maar ook heel eenvoudig met de methode die Professor Jeff Wooldridge voorschrijft in zijn boek (Wooldridge, 2008, p. 417), en die gedemonstreerd wordt in Stata door Mike Jonas Econometrics. Indien er autocorrelatie geconstateerd is, kan het helpen om te zoeken naar andere proxy’s waarvan je meer tijd-observaties per bedrijf kan krijgen. Uit de presentatie van Mikko Rönkkö blijkt deze autocorrelatie in een Arellano-Bond regressie vaak opgelost wordt door “lags” van eerdere jaren op te nemen. De complicatie is dat uit het artikel van Judson and Owen (1999) blijkt dat in een dynamic panel model de autocorrelatie aanzienlijk kan blijven tot ongeveer 30 jaar later. Hierdoor kan het opnemen van een lagged variable, zelfs als is deze van 30 jaar eerder, het autocorrelatie probleem niet oplossen.
Short panel bias: waarom is endogeniteit zo slecht.
De hele zoektocht naar de meest toepasselijke regressie wordt onder andere gedreven door het verminderen van endogeniteit. Semadeni, Withers, and Trevis Certo (2014) geven een interessante uitleg op hoofdlijnen met verwijzingen naar andere artikelen over endogeniteit. Zij geven aan dat zelfs al bij lage endogeniteit de bias in de resultaten aanzienlijk kan zijn. Dit wil zeggen dat je resultaten een miswijzing laten zien. Daarom, adviseren zij om een instrumental variable (IV) regressie uit te voeren. Maar, zij waarschuwen voor slechte of endogene instrumenten, deze kunnen de resultaten nog slechter maken dan die van een OLS-regressie. Daarnaast, kunnen instrumenten resulteren in een lage statistische power (detectie capaciteit).
Naast het verminderen van de statistisch power van de instrumenten is het misschien ook handig om even de pagina “Hoeveel regressie variabelen kan mijn dataset aan?” te raadplegen. Dit in verband met het aantal variabelen en het aantal observaties in je analysemodel.
Short panel bias: de veel gebruikte oplossingen van endogeniteit.
Uit voorgaande blijkt al dat autocorrelatie, naast effecten zoals meetfouten, ommited variables en simultaneity, wat een bron kan zijn van endogeniteit. Deze autocorrelatie kan lang in de data aanwezig blijven (Judson & Owen, 1999), waardoor het “laggen” meestal geen praktische oplossing is. Daarnaast, laat Reed (2015) zien dat het laggen de simultaneity bias niet oplost, tenzij de lagged variable als een instrument wordt gebruikt in een two stage least square (2SLS) of General Method of Moments (GMM) regressie, waarbij de lagged variable niet voorkomt in de second stage. Het centrale probleem is dat zolang er een auto- of seriecorrelatie is tussen de afhankelijke en onafhankelijk variabele, het laggen de simultaneity en revers causality bias niet verminderd. Bellemare, Masaki, and Pepinsky (2017) heeft een ook onderzoek gedaan naar het effect van laggen op simultaneity en revers causality bias, en komt tot vergelijkbare conclusies. Alleen zij zijn het niet eens met het advies van Reed (2015) om de lagged variable als instrument te gebruiken. Zij beargumenteren dat het alleen op te lossen is in het onderzoeksdesign, of de lagged variables onder strikte voorwaarden en aannames te gebruiken. Indien je dus een instrumental variable (IV) regressie uitvoert, is het raadzaam om je instrumenten te creëren met (externe) andere variabelen, en niet een lagged versie van een bestaande variabele te gebruiken (Habib, Mileva, & Stracca, 2017). Leszczensky and Wolbring (2019) geeft een gedetailleerd overzicht en de afwegingen bij de verschillende modellen keuzes.
Short panel bias: aantal tijdsobservaties
Nickell (1981) heeft bijvoorbeeld beargumenteerd dat de error in de fixed effect regressie naar nul daalt wanneer het aantal tijdperiode oneindig groot wordt. Met andere woorden, als je in een fixed effects regressie de (aanzienlijk) bias wil verminderen, zal je veel tijdsperioden moeten opnemen in je model. Flannery and Hankins (2013) bevestigen in hun onderzoek dat de fixed effects regressie het beste presteert als er veel tijdperiode beschikbaar zijn, de variabelen exogeen zijn en is vrij robuust tegen autocorrelatie. De Blundell Bond (Blundell & Bond, 1998) regressie is volgens hun soms beter dan de fixed effects regressie indien de LDV een hoge waarde vertoond, dus veel autoregressie (AR1) aanwezig is, en indien er gewerkt wordt met een korte of unbalenced panels. Een langere tijd observatie kan de short panel bias verminderen (Flannery & Hankins, 2013).
Short panel bias: analysemethode
Een andere optie is om naar een Arellano Bond (Arellano & Bond, 1991; Arellano & Bover, 1995), Blundell Bond (Blundell & Bond, 1998)of corrected least squares dependent variable (LSDVC) over te stappen (Bruno, 2005; Kiviet, 1995). In Stata is er een heel handige add on, “xtlsdvc” (Bruno, 2005), die je kan installeren die een LSDVC voor je berekend. In een LSDVC wordt er gecorrigeerd voor de unbalanced dynamic panels en de small sample bias die kan ontstaan doordat je een beperkt aantal tijdobservaties hebt. Volgens Flannery and Hankins (2013) presteert de LSDVC methode over het algemeen het beste. De Blundell en Bond’s (1998) system GMM estimator als tweede optie. Deze methodes maken gebruik van een ruimere definitie van exogenity, namelijk de “sequential exogeneity”. Onder de voorwaarden van “sequential exogeneity” een tijd observatie kan wel met een correlatie hebben met een toekomstige tijd observatie, bijvoorbeeld t=1 van de onafhankelijke variabele met t=2 van de schattingsfout, maar niet met een tijd observatie in het verleden, bijvoorbeeld t=1 van de onafhankelijke variabele met t=0 van de schattingsfout.
Het probleem in een Generalized Method of Moments (GMM) in dynamic panel models
Volgens Mikko Rönkkö en Allison, Williams, and Moral-Benito (2017, p. 4) heeft de Arellano-Bond (Arellano & Bond, 1991; Arellano & Bover, 1995), Blundell-Bond (Blundell & Bond, 1998) een aantal nadelen.
Small sample bias
De Arellano-Bond en Blundell-Bond regressies zijn gevoelig voor small sample bias. Small sample bias is vaak een gevolg van autocorrelatie, en als middel om die autocorrelatie te verminderen is de instrumenten net zo lang te laggen tot de autocorrelatie verdwenen is. Als je dus een kleine dataset hebt met weinig tijd observaties kan het voorkomen dat je de autocorrelatie niet kan verminderen door verdere lags (observaties later in de tijd) van je variabele te nemen. Het over lange periodes laggen van variabelen kan er teven voor zorgen dat je minder bruikbare observaties hebt en daarmee minder (detectie) power in je analyse. Met andere worden, je bent dan niet in staat kleine subtiele effecten te meten, als deze in je data aanwezig zijn.
Inefficiëntie
Arellano-Bond en Blundell-Bond regressies zijn inefficiënt, dit wil zeggen ze maken niet gebruik van alle mogelijkheden in de data waardoor in verhouding tot andere methoden er meer data nodig is om de analyse uit te voeren. Volgens Mikko Rönkkö en Allison et al. (2017) kan met een maximum likelihood (ML) analyse met minder data een vergelijkbare analyse worden uitgevoerd. Daarnaast heeft de ML een gemakkelijkere manier om te compenseren voor missing values. Als je een kleine dataset hebt zijn deze eigenschappen natuurlijk zeer interessant.
Instrument keuze
Ondanks dat in een Arellano-Bond en Blundell-Bond regressies de variabelen acteren als hun eigen instrument, en dus de zoektocht naar een geschikt instrument hiermee verdwenen lijkt te zijn, moet in deze regressie nog steeds bepaald worden hoe deze instrumenten worden ingezet. Dit brengt op zijn beurt weer complexiteiten mee.
Cross-lagged Panel Models with Fixed Effects
Het nadeel van een LDV of dynamic panel model is dat deze gevoelig is voor de small sample bias en slecht presteert wanneer de autocorrelatie factor, lees hier de LDV, dicht tegen 1 aankomt (Allison et al., 2017).
Is er een regressie methode die de positieve eigenschappen van een statisch en dynamisch model combineert?
Uit het voorgaande blijkt dat we eigenlijk op zoek zijn naar een combinatie van methodes. We zijn op zoek naar de eigenschappen van een fixed effects regressie (static model) om te corrigeren voor de omitted-variable bias (OVB), met andere woorden, die variabele(n) die belangrijk zijn voor de afhankelijke variabele maar die we “vergeten” zijn op te nemen in het regressiemodel. Aan de andere kant zijn we op zoek naar een LDV model (dynamic model) dat corrigeert voor endogeniteit.
Het nadeel van een LDV of dynamic panel model is dat deze gevoelig is voor de small sample bias en slecht presteert wanneer de autocorrelatie factor, lees hier de LDV, dicht tegen 1 aankomt (Allison et al., 2017). Allison et al. (2017) bied hier een oplossing voor met de Cross-lagged Panel Models with Fixed Effects. Aangezien de Cross-lagged Panel Models with Fixed Effects vraagt om een wat uitgebreidere uitleg verwijzen we naar het artikel van Allison et al. (2017) en naar de artikelen en presentaties van Mikko Rönkkö en Mike Jonas Econometrics.
Geïnteresseerd in onze andere Tips? >>
Ben je geïnteresseerd en wil je weten wat wij voor je kunnen beteken? Stel dan vrijblijvend je vraag via ons contactformulier of WhatsApp.
Ben je benieuwd wat onze scriptiebegeleiding (scriptiehulp) je kost? Neem dan een kijkje op onze tarievenpagina via onderstaande button!
Wat kost scriptiebegeleiding? >>
Literatuurlijst:
- Allison, P. D., Williams, R., & Moral-Benito, E. (2017). Maximum Likelihood for Cross-lagged Panel Models with Fixed Effects. Socius, 3, 2378023117710578. doi:10.1177/2378023117710578
- Arellano, M., & Bond, S. (1991). Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations. The Review of Economic Studies, 58(2), 277-297. doi:10.2307/2297968
- Arellano, M., & Bover, O. (1995). Another look at the instrumental variable estimation of error-components models. Journal of Econometrics, 68(1), 29-51. doi:10.1016/0304-4076(94)01642-D
- Barros, L. A., Bergmann, D. R., Castro, F. H., & Silveira, A. D. M. d. (2020). Endogeneity in panel data regressions: methodological guidance for corporate finance researchers. Revista brasileira de gestão de negócios, 22, 437-461. doi:10.7819/rbgn.v22i0.4059
- Bellemare, M. F., Masaki, T., & Pepinsky, T. B. (2017). Lagged Explanatory Variables and the Estimation of Causal Effect. The Journal of Politics, 79(3), 949-963. doi:10.1086/690946
- Blundell, R., & Bond, S. (1998). Initial conditions and moment restrictions in dynamic panel data models. Journal of Econometrics, 87(1), 115-143. doi:10.1016/S0304-4076(98)00009-8
- Bruno, G. S. F. (2005). Approximating the bias of the LSDV estimator for dynamic unbalanced panel data models. Economics Letters, 87(3), 361-366. doi:10.1016/j.econlet.2005.01.005
- Chi, J. (2005). Understanding the Endogeneity Between Firm Value and Shareholder Rights. Financial Management, 34(4), 65-76. doi:10.1111/j.1755-053X.2005.tb00118.x
- Collischon, M., & Eberl, A. (2020). Let’s Talk About Fixed Effects: Let’s Talk About All the Good Things and the Bad Things. KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie, 72(2), 289-299. doi:10.1007/s11577-020-00699-8
- Flannery, M. J., & Hankins, K. W. (2013). Estimating dynamic panel models in corporate finance. Journal of Corporate Finance, 19, 1-19. doi:10.1016/j.jcorpfin.2012.09.004
- Habib, M. M., Mileva, E., & Stracca, L. (2017). The real exchange rate and economic growth: Revisiting the case using external instruments. Journal of International Money and Finance, 73, 386-398. doi:10.1016/j.jimonfin.2017.02.014
- Imai, K., & Kim, S. ( 2017). When Should We Use Linear Fixed Effects Regression Models for Causal Inference with Longitudinal Data? Paper presented at the 2017 Joint Statistical Meetings, Princeton, NJ. https://imai.fas.harvard.edu/talk/files/JSM17.pdf
- Judson, R. A., & Owen, A. L. (1999). Estimating dynamic panel data models: a guide for macroeconomists. Economics Letters, 65(1), 9-15. doi:10.1016/S0165-1765(99)00130-5
- Keele, L., & Kelly, N. J. (2006). Dynamic Models for Dynamic Theories: The Ins and Outs of Lagged Dependent Variables. Political Analysis, 14(2), 186-205. doi:10.1093/pan/mpj006
- Kiviet, J. F. (1995). On bias, inconsistency, and efficiency of various estimators in dynamic panel data models. Journal of Econometrics, 68(1), 53-78. doi:10.1016/0304-4076(94)01643-E
- Leszczensky, L., & Wolbring, T. (2019). How to Deal With Reverse Causality Using Panel Data? Recommendations for Researchers Based on a Simulation Study. Sociological Methods & Research, 51(2), 837-865. doi:10.1177/0049124119882473
- Moyo, V. (2016). Dynamic capital structure adjustment : which estimator yields consistent and efficient estimates? Journal of Economic and Financial Sciences, 9(1), 209-227. doi:10.10520/EJC189974
- Nickell, S. (1981). Biases in Dynamic Models with Fixed Effects. Econometrica, 49(6), 1417-1426. doi:10.2307/1911408
- Nikolaev, V., & van Lent, L. (2005). The endogeneity bias in the relation between cost-of-debt capital and corporate disclosure policy. European Accounting Review, 14(4), 677-724. doi:10.1080/09638180500204624
- Park, H. M. (2011). Practical guides to panel data modeling: a step-by-step analysis using stata. Retrieved from Niigata-ken, Japan:
- Pugh, G. (2018). Dynamic vs Static panel data?
- Reed, W. R. (2015). On the Practice of Lagging Variables to Avoid Simultaneity. Oxford Bulletin of Economics and Statistics, 77(6), 897-905. doi:10.1111/obes.12088
- Semadeni, M., Withers, M. C., & Trevis Certo, S. (2014). The perils of endogeneity and instrumental variables in strategy research: Understanding through simulations. Strategic Management Journal, 35(7), 1070-1079. doi:doi:10.1002/smj.2136
- Torres-Reyna, O. (2007). Panel data analysis fixed and random effects using Stata (v. 4.2). Data & Statistical Services, Priceton University. Priceton University. Priceton, NJ. Retrieved from https://dss.princeton.edu/training/Panel101.pdf
- Wooldridge, J. M. (2008). Introductory econometrics: A modern approach (4 ed.). Mason, OH: Cengage learning.