Is het verstandig om al data te verzamelen voordat het theoretisch kader is afgerond?
Stel, je docent geeft aan dat je al met je dataverzameling en -analyse (data research) kan starten zonder dat je een theoretisch kader (literature review) hebt geschreven, of je theoretisch kader is nog vrij summier. Vol enthousiasme ga je in de databronnen die tot je beschikking staan zoeken naar variabelen die in een voorbeeld artikel staan, of die je docent heeft aangegeven. Je doet de standaard checks in Stata of SPSS, zoals de distributie, extreme waarde, lineariteit, autocorrelatie, heterogeniteit en multicollineariteit controles en correcties. En, dan blijken de resultaten toch moeilijk te verklaren te zijn. Ze zijn bijvoorbeeld anders dan het voorbeeld artikel of als je ze moet duiden komt er een contra-inituitief verhaal uit naar voren.
Als je jezelf in soortgelijke situatie bevindt, wees gerust, je bent niet de enige. Dit komt vaker voor dan dat je denkt. Het gene waar je hier mee te maken hebt is een modeleringsfout. Je empirisch model is onvolledig gespecificeerd. Hiermee wordt bedoeld dat de functionele vorm van de relatie tussen de onafhankelijke en afhankelijke variabele, of het weglaten van belangrijke (controle) variabelen (omitted variable bias), kan leiden tot onbetrouwbare resultaten. Het basisprincipe is dat als alle relevante variabelen zijn opgenomen in je (regressie)model, dan zou hun gecombineerde individuele (additieve) effecten alle variatie (verandering) van de afhankelijke variabelen moeten verklaren. Je kan de regressieanalyse beschouwen als een grote mechanische machine met veel tandwielen, als je een van de tandwielen verwijderd, werkt de machine dan nog goed?
Contact! >>Een praktische voorbeeld om voorgaande te illustreren
Bijvoorbeeld, als je naar de salarissen/lonen van alle Nederlandse werknemers kijkt. Stel, dat je wil aantonen dat leeftijd een effect heeft op het loon. Dan, zou je een enkelvoudige regressie kunnen doen en kijken of er een verband is tussen leeftijd een loon. In dit voorbeeld kom je er bijvoorbeeld achter dat geheel tegen de verwachting in je een negatief verband vindt. Hoe ouder de medewerker hoe lager het loon. Dit is contra-inituitief, je zou verwachten dat met leeftijd het loon omhooggaat. Een alternatieve uitkomst zou er ook een zeer sterk positief verband kunnen zijn, als je uitrekent wat dan conform je data het loon van een 65-jarige zou moeten zijn, dan zou deze persoon ongeloofwaardig veel moeten verdienen. Kortom, je vermoed dat er iets niet in orde is, er een grote kans dat je te maken hebt met een specificatiefout.
Een paar mogelijke oorzaken
Het kan bijvoorbeeld zijn dat oudere werknemers op een bepaald moment in hun leven een rustigere baan willen, en niet meer mee kunnen in de ratrace en de prestatiecultuur. Of dat oudere medewerkers minder gaan werken en meer tijd aan sociale (zorg) activiteiten willen besteden. Kortom, er zijn andere beïnvloedende factoren naast de leeftijd het loon van een werknemer bepalen. Het weglaten van deze factoren (specificatiefout) uit je model zorgt ervoor dat er een miswijzing/fout in je resultaten ontstaat.
Geïnteresseerd in onze andere Tips? >>Er is een kans dat er een probleem is met de functionele vorm
Daarnaast, kan je je vergissen in de vorm van de relatie tussen onafhankelijke en afhankelijke variabele. Hiermee wordt bedoeld dat in een lineaire regressie je er van uit gaat dat er een lineair verband is tussen onafhankelijke en afhankelijke variabele. Zoals op de website van het CBS is te zien klopt dat niet helemaal. Er is niet een rechte lineaire lijn tussen leeftijd en uurloon. Daarnaast, zie je op de website van het CBS dat dit een landelijk gemiddelde is over diverse industriesectoren heen. Als je naar de verschillen tussen de industrieën kijkt, maakt het nog wel uit in welke industrie je actief bent. En neem je aan dat medewerkers op een bepaald punt in hun leven niet in een andere industrie gaan werken. Kortom, een rechte lijn tussen leeftijd en loon lijkt een verkeerde aanname te zijn en kan dus leiden tot een specificatiefout m.b.t. de functionele voor van de relatie.
- Onderbroken lijn = regressielijn
- Niet onderbroken lijn = werkelijke uurloon ontwikkeling bij hogere leeftijdscategorie.
Uit bovenstaande kan je dus opmaken dat het onverstandig is om vol enthousiasme data te gaan verzamelen en te gaan analyseren voordat je een goed overzicht hebt van wat reeds door andere onderzoekers al is gevonden. Er kunnen verschillende conditionele effecten zijn, zoals industrie, functie, opleiding, schaarsheid, …etc. die allemaal medebepalend zijn voor het uurloon. Andere onderzoeken hebben daar al (delen) van onderzocht en dienen gezamenlijk als je theoretische en empirische achtergrond. Daarnaast, kan de theoretische lens die je gebruikt kan aanvullende eisen stellen aan de variabelen en functionele vorm die je in je model opneemt.