Η γραμμικότητα ως υπόθεση για την απλοϊκή ερμηνεία της κοινωνικής πραγματικότητας: ο ρόλος της απλής παλινδρόμησης
του Δρ. Τρύφωνα Λεμοντζόγλου
(Διδάσκων Ποσοτικών Μεθόδων στο Πάντειο Πανεπιστήμιο)
Τα ποσοτικά εργαλεία ανάλυσης είναι πλέον ιδιαίτερα δημοφιλή στις κοινωνικές επιστήμες. Ωστόσο, δεν πρέπει να ξεχνάμε πως συχνά βασίζονται σε μια σειρά υποθέσεων (παραδοχών). Μια από αυτές είναι η παραδοχή της ύπαρξης γραμμικών σχέσεων που συνδέουν τις υπό εξέταση μεταβλητές (υπόθεση γραμμικότητας). Ας δούμε ένα απλό παράδειγμα με τη χρήση πραγματικών δεδομένων για την Ελλάδα στις αρχές του 20ού αιώνα (και πιο συγκεκριμένα για το έτος 1907), εξετάζοντας ποσοτικά την εγκυρότητα της υπόθεσης του Βέμπερ για τη σύνδεση ανάμεσα στην προτεσταντική ηθική και την καπιταλιστική ανάπτυξη (βλ. “The Protestant Ethic and the Spirit of Capitalism”, 1905).
Στο συγκεκριμένο πρόβλημα χρησιμοποιούμε ως εξαρτημένη μεταβλητή (dependent variable) την παρουσία του εργατικού δυναμικού στα λεγόμενα “σύγχρονα” (καπιταλιστικά) επαγγέλματα (ως ποσοστό επί του συνόλου των εργαζομένων), δίνοντας ιδιαίτερη έμφαση στο εμπόριο. Ως πιθανό προσδιοριστικό παράγοντα της περαιτέρω έντασης των “μοντέρνων” (καπιταλιστικών) σχέσεων (βλ. ανεξάρτητη μεταβλητή) χρησιμοποιούμε την παρουσία των προτεσταντών στην Ελλάδα (ως ποσοστό επί του συνολικού πληθυσμού στις υπό εξέταση περιοχές). Κατά πόσο η παραπάνω σχέση είναι σε θέση να περιγραφεί (στο σύνολό της) μέσα από μια απλή γραμμική σχέση; Ας ρίξουμε μια ματιά στα πραγματικά δεδομένα (Χ,Ψ):
Διάγραμμα Διασποράς
Στο παραπάνω διάγραμμα φαίνονται οι πραγματικές αντιστοιχίες των τιμών (Χ,Ψ) σε ότι αφορά την ανάλυση στο επίπεδο των νομών της χώρας (n=26 regions). Με πιο απλά λόγια, οι μπλε κουκίδες του διαγράμματος διασποράς (scatter plot) περιγράφουν την πραγματική σχέση που συνδέει τη συμμετοχή του εργατικού δυναμικού στο εμπόριο (log_trad) και την παρουσία των προτεσταντών (log_prot). Όπως γίνεται εύκολα κατανοητό, η πραγματικότητα αυτή ΔΕΝ μπορεί να περιγραφεί με ΤΕΛΕΙΟ τρόπο μέσα από μια απλή γραμμική σχέση. Ωστόσο, η παραδοχή της ύπαρξης μιας γραμμικής σχέσης ανάμεσα στις υπό εξέταση μεταβλητές μας βοηθάει να έχουμε μια εικόνα για την πραγματικότητα (τουλάχιστον για ένα κομμάτι αυτής). Δείτε τι θα συμβεί όταν ο υπολογιστής υποθέσει την ύπαρξη μιας γραμμικής σχέσης ανάμεσα στη συμμετοχή του εργατικού δυναμικού στο εμπόριο (ανεξάρτητη μεταβλητή) και την παρουσία των προτεσταντών (ανεξάρτητη μεταβλητή):
Διάγραμμα Διασποράς & Γραμμή Παλινδρόμησης
Το νέο γράφημα διασποράς μοιάζει αρκετά με το προηγούμενο. Η μόνη διαφορά με πριν, είναι πως τώρα πλάι στην ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ (βλ. μπλε κουκίδες) έχει τοποθετηθεί και μια ΕΚΤΙΜΗΣΗ για τη γραμμική σχέση που συνδέει τις δύο μεταβλητές που εξετάζονται (βλ. πορτοκαλί γραμμή). Θα μπορούσαμε να πούμε πως οι μπλε κουκίδες αποτυπώνουν την ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ, ενώ η πορτοκαλί γραμμή (βλ. γραμμή παλινδρόμησης) αποτυπώνει μια εκτίμηση της πραγματικότητας. Πόσο καλή είναι αυτή η εκτίμηση; Η καλύτερη δυνατή (μιας και η γραμμή αυτή επιλέγεται ανάμεσα σε άπειρες άλλες μέσα από τη μέθοδο των ελαχίστων τετραγώνων)!!! Ποια είναι όμως η φιλοσοφία της μεθόδου των ελαχίστων τετραγώνων (OLS); Πάμε να εξηγήσουμε το πρόβλημα πιο αναλυτικά:
Τι συμβαίνει στην ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ:
Ψi=α + β * Χi + ei
όπου
Ψ: το ποσοστό συμμετοχής του εργατικού δυναμικού στο εμπόριο (εξαρτημένη μεταβλητή)
Χ: η παρουσία των προτεσταντών (ανεξάρτητη μεταβλητή)
α: ο σταθερός όρος της εξίσωσης
β: ο συντελεστής του βασικού ενδιαφέροντος
ei: ο διαταρακτικός όρος (ή τυχαίοι παράγοντες)
i: ο αριθμός των παρατηρήσεων
Αν και γνωρίζουμε τις ΠΡΑΓΜΑΤΙΚΕΣ τιμές των συνδυασμών (Χ,Ψ) ΔΕΝ είμαστε σε θέση να υπολογίσουμε τον συντελεστή του βασικού μας ενδιαφέροντος (β). Γιατί; Επειδή ο παράγοντας ei παραμένει αιώνια ΑΓΝΩΣΤΟΣ. Εμείς υποθέτουμε πως η παρουσία των προτεσταντών είναι πιθανός προσδιοριστικός παράγοντας της ανάπτυξης του εμπορίου. Ωστόσο, υπάρχουν και άλλοι παράγοντες που δεν έχουμε λάβει υπόψη στο μοντέλο μας. Ο υπολογισμός του συντελεστή β είναι ζωτικής σημασίας μιας και πρόσημό του θα μας δείξει τη σχέση που συνδέει τις δύο μεταβλητές (θετική ή αρνητική). Επιπλέον, η τιμή του συντελεστή β θα μας δείξει και της ένταση της σχέσης που συνδέει τους υπό εξέταση παράγοντες. Πως θα ξεπεράσουμε το πρόβλημα της αδυναμίας του υπολογισμού του ΠΡΑΓΜΑΤΙΚΟΥ συντελεστή β; Η απάντηση κρύβεται στην εφαρμογή της μεθόδου των ελαχίστων τετραγώνων. Αφού δε μπορούμε να υπολογίσουμε την ΠΡΑΓΜΑΤΙΚΗ σχέση που συνδέει τους παράγοντες Χ και Ψ τότε ας υπολογίσουμε την εκτίμησή της:
Ψi=α + β * Χi + ei (σχέση 1)
(πραγματική σχέση με ΑΓΝΩΣΤΑ τα α και β)
Ψi=a + β * Χi (σχέση 2)
(εκτιμώμενη σχέση με ΓΝΩΣΤΑ τα a και β)
Η δεύτερη σχέση δεν είναι άλλη από την πορτοκαλί γραμμή που εντοπίσαμε παραπάνω στο νέο διάγραμμα διασποράς (βλ. γραμμή παλινδρόμησης).
Όπου
Ψ: η εκτιμώμενη τιμή για το ποσοστό συμμετοχής του εργατικού δυναμικού στο εμπόριο
Χ: η παρουσία των προτεσταντών
a: η εκτίμηση του σταθερού όρου
β: η εκτίμηση του συντελεστή βασικού ενδιαφέροντος
i: ο αριθμός των παρατηρήσεων
Επομένως, μπορεί να μην είμαστε σε θέση να υπολογίσουμε το συντελεστή β, ωστόσο, μπορούμε να υπολογίσουμε την εκτίμησή του, δηλ. το β (εκτίμηση) !!!
Πως λειτουργεί η μέθοδος των ελαχίστων τετραγώνων; Μας αποδίδει την “καλύτερη” γραμμή ανάμεσα σε άπειρες άλλες, δηλ. εκείνη που ελαχιστοποιεί το ΣΦΑΛΜΑ!!! Όπου ΣΦΑΛΜΑ: η απόσταση που χωρίζει την ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ από την εκτίμηση της πραγματικότητας (δηλ. Ψi - Ψi_εκτ.). Αν η απόσταση αυτή θα ήταν μηδέν για κάθε παρατήρηση i τότε θα είχαμε ένα ΤΕΛΕΙΟ μοντέλο που θα ήταν σε θέση να εξηγήσει το σύνολο της πραγματικότητας. Αφού δεν μπορούμε να κατασκευάσουμε ένα ΤΕΛΕΙΟ μοντέλο τότε ας κατασκευάσουμε το καλύτερο δυνατό ανάμεσα σε άπειρα άλλη, δηλ. εκείνο το οποίο θα ελαχιστοποιεί το σφάλμα Ψi - Ψi_εκτ.. Με αυτόν τον τρόπο αποδίδονται οι τιμές των α και β (εκτιμητές των συντελεστών α και β).
Δείτε το αποτέλεσμα της απλής γραμμικής παλινδρόμησης:
Εξαρτημένη μεταβλητή: η συμμετοχή του εργατικού δυναμικού στο εμπόριο (%)
Μέθοδος: Ελάχιστα Τετράγωνα (η μέθοδος που περιγράψαμε προηγούμενα)
Ημερομηνία και ώρα: 30/05/23, 14:23
Αριθμός παρατηρήσεων: 26 (όσοι οι νομοί της χώρας)
Ανεξάρτητες μεταβλητές: η παρουσία των προτεσταντών (k=1, απλό γραμμικό υπόδειγμα)
C: ο σταθερός όρος της εξίσωσης
Η στήλη με την ονομασία “coefficient” αποδίδει τις τιμές των α και β.
Σύμφωνα με τα αποτελέσματα του πίνακα: α = 2,24 και β = 6,88
Ερμηνεία: Ακόμη και αν δε συναντήσουμε ούτε έναν προτεστάντη θα υπάρχει ένα ελάχιστο επίπεδο συμμετοχής εργαζομένων στο εμπόριο ίσο με 2,24 μονάδες (η ερμηνεία για την εκτίμηση του σταθερού όρου). Αν αυξηθεί η παρουσία των προτεσταντών κατά 1 μονάδα τότε θα αυξηθεί η συμμετοχή του εργατικού στο εμπόριο κατά περίπου 6,88 μονάδες (η ερμηνεία για την εκτίμηση του συντελεστή β). Οι δύο συντελεστές είναι και στατιστικά σημαντικοί (οι τιμές των p-values που συνοδεύουν τους εκτιμητές στην στήλη με την ονομασία “Prob.” είναι μικρότερες από το 0,05).
Ποιά είναι η ερμηνευτική εικόνα του μοντέλου μας; Κοιτάμε την τιμή του συντελεστή προσδιορισμού (βλ. R-squared). Ερμηνεία: Περίπου το 39,14% της συνολικής μεταβλητότητας της εξαρτημένης μεταβλητής (βλ. συμμετοχή στο εμπόριο) μπορεί να εξηγηθεί από τις μεταβολές των τιμών της ανεξάρτητης μεταβλητής (βλ. παρουσία προτεσταντών) → R-squared = 0,3914.
Συμπεράσματα: Με βάση τα παραπάνω επιβεβαιώνουμε την ύπαρξη μιας ΘΕΤΙΚΗΣ και ΣΤΑΤΙΣΤΙΚΑ ΣΗΜΑΝΤΙΚΗΣ σχέσης ανάμεσα στη συμμετοχή στο εμπόριο και την παρουσία των προτεσταντών στην Ελλάδα στις αρχές του 20ού αιώνα. Μπορούμε να μιλήσουμε όμως για την ύπαρξη μιας σχέσης αιτίου - αποτελέσματος ανάμεσα στους δύο υπό εξέταση παράγοντες; ΟΧΙ !!! Η ύπαρξη γραμμικής συσχέτισης ΔΕΝ συνεπάγεται απαραίτητα και την ύπαρξη αιτιακής σχέσης ανάμεσα στις μεταβλητές. Η ερμηνευτική ικανότητα του μοντέλου μας κρίνεται ως ιδιαίτερα σημαντική, μιας και περίπου το 40% (39,14%) του συνόλου της μεταβλητότητας της συμμετοχής στο εμπόριο μπορεί να ερμηνευτεί από τον παράγοντα “παρουσία των προτεσταντών”. Προφανώς, το υπόλοιπο 60% εξηγείται από άλλους παράγοντες που δεν λαμβάνονται υπόψη μας στο απλό γραμμικό μοντέλο.
Ας επαναλάβουμε τη διερεύνηση του προβλήματος λαμβάνοντας υπόψη μας αυτή τη φορά τις παρατηρήσεις από ένα βαθύτερο επίπεδο ανάλυσης, δηλ. στο επαρχιακό επίπεδο (n=69 provinces).
Όπως στο επίπεδο των νομών έτσι και στο επαρχιακό επίπεδο φαίνεται να επιβεβαιώνεται η ύπαρξη μιας ΘΕΤΙΚΗΣ σχέσης ανάμεσα στη συμμετοχή στο εμπόριο και την παρουσία των προτεσταντών στην Ελλάδα στις αρχές του 20ού αιώνα.
Στην περίπτωση της ανάλυσης στο επαρχιακό επίπεδο, το μοντέλο μας θα έχει ως εξής:
Λίγο πολύ τα αποτελέσματα παραμένουν ίδια με πριν.
Σύμφωνα με τα αποτελέσματα του πίνακα: α = 2,20 και β = 7,40
Ερμηνεία: Ακόμη και αν δε συναντήσουμε ούτε έναν προτεστάντη θα υπάρχει ένα ελάχιστο επίπεδο συμμετοχής εργαζομένων στο εμπόριο ίσο με 2,20 μονάδες (η ερμηνεία για την εκτίμηση του σταθερού όρου). Αν αυξηθεί η παρουσία των προτεσταντών κατά 1 μονάδα τότε θα αυξηθεί η συμμετοχή του εργατικού στο εμπόριο κατά περίπου 7,40 μονάδες (η ερμηνεία για την εκτίμηση του συντελεστή β). Οι δύο συντελεστές είναι και στατιστικά σημαντικοί (οι τιμές των p-values που συνοδεύουν τους εκτιμητές στην στήλη με την ονομασία “Prob.” είναι μικρότερες από το 0,05).
Ποιά είναι η ερμηνευτική εικόνα του μοντέλου μας; Κοιτάμε την τιμή του συντελεστή προσδιορισμού (βλ. R-squared). Ερμηνεία: Περίπου το 25,57% της συνολικής μεταβλητότητας της εξαρτημένης μεταβλητής (βλ. συμμετοχή στο εμπόριο) μπορεί να εξηγηθεί από τις μεταβολές των τιμών της ανεξάρτητης μεταβλητής (βλ. παρουσία προτεσταντών) → R-squared = 0,2557.
Τι θα συμβεί αν εστιάσουμε στα επαγγέλματα που αφορούν τις τράπεζες και την πίστη;
Ερμηνεία: Αν αυξηθεί κατά 1% η παρουσία των προτεσταντών τότε θα αυξηθεί κατά περίπου 0,18% η συμμετοχή των τραπεζοϋπαλλήλων. Περίπου το 22,7% της συνολικής μεταβλητότητας των τιμών της συμμετοχής των τραπεζοϋπαλλήλων μπορεί να εξηγηθεί από τις μεταβολές των τιμών του παράγοντα “παρουσία προτεσταντών”.
Ερμηνεία: Αν αυξηθεί κατά 1% η παρουσία των προτεσταντών τότε θα αυξηθεί κατά περίπου 0,27% η συμμετοχή των μεσιτών. Περίπου το 27,2% της συνολικής μεταβλητότητας των τιμών της συμμετοχής των μεσιτών μπορεί να εξηγηθεί από τις μεταβολές των τιμών του παράγοντα “παρουσία προτεσταντών”.
Ερμηνεία: Αν αυξηθεί κατά 1% η παρουσία των προτεσταντών τότε θα αυξηθεί κατά περίπου 0,91% η συμμετοχή των υπαλλήλων σε γραφεία μονοπωλιακών εταιρειών. Περίπου το 13,8% της συνολικής μεταβλητότητας των τιμών της συμμετοχής των υπαλλήλων σε γραφεία μονοπωλιακών εταιρειών μπορεί να εξηγηθεί από τις μεταβολές των τιμών του παράγοντα “παρουσία προτεσταντών”.
Ο έλεγχος της στατιστικής σημαντικότητας του συντελεστή β της παλινδρόμησης:
Ηο: μηδενική υπόθεση → β = 0 (ο συντελεστής β είναι στατιστικά ασήμαντος)
Η1: εναλλακτική υπόθεση → β 0 (ο συντελεστής β είναι στατιστικά σημαντικός)
Όπως γίνεται εύκολα κατανοητό θέλουμε να απορρίψουμε την Ηο (μηδενική υπόθεση).
Χρησιμοποιούμε τον κανόνα με τη χρήση των p-values (οι τιμές αυτές συνοδεύουν τους συντελεστές της παλινδρόμησης στη στήλη του πίνακα με την ονομασία “Prob.”):
Αν η τιμή του p-value είναι μικρότερη από το 0,05 (5%) τότε μπορούμε να απορρίψουμε την μηδενική υπόθεση της μη σημαντικότητας του συντελεστή β. Επομένως, ο συντελεστής β είναι στατιστικά σημαντικός.
Αν η τιμή του p-value είναι μεγαλύτερη από το 0,05 (5%) τότε ΔΕΝ μπορούμε να απορρίψουμε την μηδενική υπόθεση της μη σημαντικότητας του συντελεστή β. Επομένως, ο συντελεστής β είναι στατιστικά ασήμαντος.
Αν επιστρέψετε στους προηγούμενους πίνακες θα δείτε πως ο παράγοντας “παρουσία των προτεσταντών” είναι πάντοτε στατιστικά σημαντικός για την ερμηνεία των μεταβολών των τιμών της συμμετοχής του εργατικού δυναμικού στα λεγόμενα “μοντέρνα” (καπιταλιστικά) επαγγέλματα.
Ένα δίκιο φαίνεται να το είχε ο Βέμπερ...έστω και αν δεν είμαστε σε θέση να μιλήσουμε για την ύπαρξη αιτιότητας!!!
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου