Σάββατο 8 Απριλίου 2023

Βασικές τεχνικές ανάλυσης ποσοτικών δεδομένων σε ψηφιακά περιβάλλοντα: Παραδείγματα με τη χρήση πραγματικών δεδομένων από την Παγκόσμια Τράπεζα

Βασικές τεχνικές ανάλυσης ποσοτικών δεδομένων σε ψηφιακά περιβάλλοντα: Παραδείγματα με τη χρήση πραγματικών δεδομένων από την Παγκόσμια Τράπεζα

του Δρ. Τρύφωνα Λεμοντζόγλου (Διδάσκων "Ποσοτικών Μεθόδων στην Κοινωνική Έρευνα" στο Πάντειο Πανεπιστήμιο, Τμήμα Κοινωνικής Ανθρωπολογίας)


Τα βήματα της ποσοτικής ανάλυσης δεδομένων έχουν ως εξής: 

- Βήμα 1ο : Άντληση των δεδομένων μας 

- Βήμα 2ο : Γραφήματα 

- Βήμα 3ο : Πίνακας περιγραφικών στατιστικών 

- Βήμα 4ο : Ανάλυση συσχετίσεων
 
- Βήμα 5ο : Απλό γραμμικό υπόδειγμα 

- Βήμα 6ο : Πολυμεταβλητό υπόδειγμα 

Για την άντληση των δεδομένων μας χρησιμοποιούμε τη βάση δεδομένων της Παγκόσμιας Τράπεζας: https://data.worldbank.org/indicator. Το βασικό πλεονέκτημα αυτής της βάσης είναι ο μεγάλος όγκος πληροφοριών που αφορούν στοιχεία από διαφορετικές θεματικές ενδιαφέροντος. Το βασικό μειονέκτημα αφορά τον περιορισμό των δεδομένων μας στο εθνικό επίπεδο (έχουμε μεγάλο όγκο δεδομένων, αλλά όχι σε μεγάλο βάθος). 

Δουλέψτε ως εξής: Εντοπίστε μια γενική θεματική του ενδιαφέροντός σας (π.χ Gender). Έπειτα, επιλέξτε την υποκατηγορία του ενδιαφέροντός σας (π.χ Fertility rate).   

Το περιβάλλον της βάσης δεδομένων της Παγκόσμιας Τράπεζας






















Η πρώτη εικόνα σας αποδίδει αυτόματα την πορεία της μεταβλητής σας κατά το πέρασμα του χρόνου σε παγκόσμιο επίπεδο (εδώ απεικονίζεται η πτωτική πορεία του "δείκτη ολικής γονιμότητας" βλ. μέσος αριθμός γεννήσεων ανά γυναίκα). Στη δεξιά πλευρά του παραθύρου σας δίνεται η επιλογή download. Από εκεί, μπορείτε να κατεβάσετε, να επεξεργαστείτε και να αποθηκεύσετε τα δεδομένα σας σε μορφή xls.
Πηγαίνοντας στο πρώτο φύλλο του excel με την ονομασία data έχετε πλέον πρόσβαση στο σύνολο των δεδομένων.    

Τα δεδομένα του "δείκτη ολικής γονιμότητας" 

Το φύλλο data σας αποδίδει κάθε διαθέσιμη πληροφορία: έχετε δηλαδή πρόσβαση στα δεδομένα που αφορούν ένα σύνολο χωρών ή γεωγραφικών περιοχών για ένα διάστημα ετών. Χρησιμοποιώντας ένα φίλτρο μπορείτε να σχηματίσετε ένα γκρουπ χωρών του ενδιαφέροντός σας. Ας δοκιμάσουμε να θέσουμε σε εφαρμογή μια πρώτη αντιπαράθεση, δημιουργώντας 2 γκρουπ χωρών (βλ. Ευρώπη vs. Αφρική) για τα έτη 1960, 2000 και 2015.   

Το γκρουπ των ευρωπαϊκών χωρών, n = 15 


Το γκρουπ των αφρικανικών χωρών n = 15

Έχοντας αντλήσει τα δεδομένα μας, μπορούμε να περάσουμε στο επόμενο βήμα της ανάλυσης, δηλαδή στον υπολογισμό των βασικών περιγραφικών στατιστικών της μεταβλητής μας, καθώς και στην κατασκευή διαγραμμάτων

Ας χρησιμοποιήσουμε το ψηφιακό περιβάλλον του https://www.statskingdom.com/index.html
Το περιβάλλον αυτό είναι αρκετά απλοϊκό στη χρήση.  
Ανάμεσα στις διάφορες δυνατότητες που υπάρχουν  στο περιβάλλον της εφαρμογής συναντάμε και τα κάτωθι:

1) υπολογισμός διαμέσου, μέσης τιμής και επικρατούσας τιμής: https://www.statskingdom.com/mean-median-mode-calculator.html 

2) υπολογισμός τυπικής απόκλισης: https://www.statskingdom.com/standard-deviation-calculator.html 

3)  κατασκευή διαγράμματος συχνοτήτων (ιστόγραμμα): https://www.statskingdom.com/histogram-maker.html

Ας ξεκινήσουμε με τον σύνδεσμο που υπολογίζει τη διάμεσο, τη μέση τιμή και την επικρατούσα τιμή


Το μόνο που απαιτείται είναι η εισαγωγή των τιμών μας μέσα στο λευκό πλαίσιο (ΠΡΟΣΟΧΗ: αντικαταστήστε τα κόμματα με τελείες). Έπειτα, πατήστε calculate. Εδώ, χρησιμοποιήσαμε τις τιμές που αφορούν το γκρουπ των ευρωπαϊκών χωρών για το έτος 1960.  

υπολογισμός βασικών περιγραφικών στατιστικών

- μέσος όρος ή μέση τιμή (mean - average): 2.7473 (ερμηνεία: συναντάμε κατά μέσο όρο περίπου 2.75 γεννήσεις ανά γυναίκα, σε ότι αφορά πάντα το γκρουπ των ευρωπαϊκών χωρών κατά το έτος 1960)

- διάμεσος (median - Q2): 2.69 (ερμηνεία: αν απλώσουμε τις παρατηρήσεις μας σε αύξουσα σειρά τότε η τιμή 2.69 θα βρίσκεται στη μέση της διαδρομής. Με πιο απλά λόγια, είναι η τιμή που χωρίζει το δείγμα μας σε δύο ίσα κομμάτια, δηλ. αριστερά από αυτήν την τιμή συναντάμε το 50% των παρατηρήσεων, ενώ δεξιά της βρίσκεται το υπόλοιπο 50%

- επικρατούσα τιμή (mode): ερμηνεία: η τιμή που συναντάται στο δείγμα μας με τη μεγαλύτερη συχνότητα, δηλ. τις περισσότερες φορές (εδώ, δεν υπάρχει κάποια επικρατούσα τιμή, δηλ. κάθε τιμή συναντάται μόλις μια φορά)

- πρώτο τεταρτημόριο (lower quartile - Q1): 2.385 (ερμηνεία: αν απλώσουμε τις παρατηρήσεις μας σε αύξουσα σειρά τότε η τιμή 2.385 θα έχει στα αριστερά της το 25% των παρατηρήσεων του δείγματος, ενώ το υπόλοιπο 75% θα βρίσκεται στα δεξιά της)

- τρίτο τεταρτημόριο (upper quartile - Q3)2.92 (ερμηνεία: αν απλώσουμε τις παρατηρήσεις μας σε αύξουσα σειρά τότε η τιμή 2.92 θα έχει στα αριστερά της το 75% των παρατηρήσεων του δείγματος, ενώ το υπόλοιπο 25% θα βρίσκεται στα δεξιά της

- εύρος τιμών (range): μέγιστη τιμή - ελάχιστη τιμή = 2.2 (ερμηνεία: η απόσταση που χωρίζει τη μέγιστη από την ελάχιστη τιμή)

-  μέγιστη τιμή (max): 4.29 

- ελάχιστη τιμή (min): 2.09  

Ας δοκιμάσουμε τώρα το σύνδεσμο που χορηγεί τον υπολογισμό της τυπικής απόκλισης:


Όπως και πριν, το μόνο που απαιτείται είναι η καταχώρηση των τιμών μας στο λευκό πλαίσιο. Έπειτα, επιλέγουμε το "calculate". Εδώ, χρησιμοποιούμε τις τιμές για το αφρικανικό γκρουπ χωρών κατά το έτος 2000. 


Όπως και πριν, έχουμε αντικαταστήσει τα κόμματα με τελείες (η εφαρμογή διαβάζει το αμερικανικό σύστημα αριθμητικής γραφής). Η τυπική απόκλιση των τιμών του δείγματός μας (s) είναι ίση με 1.4295. Αν οι παρατηρήσεις μας θα αντιστοιχούσαν στο σύνολο των χωρών ή γεωγραφικών περιοχών τότε θα κοιτούσαμε την τιμή της τυπικής απόκλισης του πληθυσμού βλ. σ =1.3811. Θυμηθείτε πως η τυπική απόκλιση είναι η ρίζα της διακύμανσης ή διασποράς.

Ερμηνεία: μεγάλη τυπική απόκλιση των τιμών μας σηματοδοτεί όλο και μεγαλύτερες αποστάσεις των τιμών μας από τη μέση τιμή τους, δηλ. τιμές που συγκεντρώνονται όλο και πιο μακριά η μια από την άλλη. Αντίθετα, μικρή τυπική απόκλιση των τιμών μας σηματοδοτεί όλο και μικρότερες αποστάσεις των τιμών μας από τη μέση τιμή τους, δηλ. τιμές που συγκεντρώνονται σχετικά κοντά η μια στην άλλη.      

Για να χαρακτηρίσουμε μια τυπική απόκλιση μεγάλη ή μικρή θα πρέπει να τη συγκρίνουμε με κάποια αντίστοιχη. Για παράδειγμα, η τυπική απόκλιση των τιμών του "δείκτη ολικής γονιμότητας" για το γκρουπ των αφρικανικών χωρών κατά το έτος 2015 είναι ίση με 1.1809. Αυτό σημαίνει πως οι τιμές της μεταβλητής μας συγκεντρώνονται πιο κοντά η μια στην άλλη, σε σύγκριση με τις τιμές του έτους 2000 (βλ. τάση σύγκλισης των τιμών μας στα ίδια επίπεδα).

Αν δοκιμάσουμε τους αντίστοιχους υπολογισμούς για το γκρουπ χωρών της ευρώπης τότε θα δούμε πως η τυπική απόκλιση των τιμών του "δείκτη ολικής γονιμότητας" για το έτος 2000 είναι ίση με 0.2802. Για το έτος 2015, η τιμή της τυπικής απόκλισης είναι ίση με 0.1999. Από τα παραπάνω μπορούμε να συμπεράνουμε τα εξής: α) τόσο στην περίπτωση του γκρουπ των αφρικανικών χωρών όσο και στην αντίστοιχη των ευρωπαϊκών οι τιμές του "δείκτη ολικής γονιμότητας" χαρακτηρίζονται από διαχρονικές τάσεις σύγκλισης στα ίδια επίπεδα (δηλ. παρουσιάζουν μικρότερες τιμές τυπικής απόκλισης)    β) σε ότι αφορά το γκρουπ των αφρικανικών χωρών συναντάμε μεγαλύτερες αποστάσεις των τιμών από τη μέση τιμή τους, συγκριτικά πάντα με τις αντίστοιχες τιμές του γκρουπ των ευρωπαϊκών χωρών.

Πληροφορίες για τις τιμές των βασικών περιγραφικών στατιστικών μας έχουμε και στην περίπτωση που θα ακολουθήσουμε τον σύνδεσμο που αποδίδει το διάγραμμα συχνοτήτων ή ιστόγραμμα.    


Όπως και πριν, έτσι και εδώ, το μόνο που απαιτείται είναι μια απλή καταχώρηση των τιμών μας στο λευκό πλαίσιο. Έπειτα, πατάμε "calculate".

Διάγραμμα συχνοτήτων (γκρουπ ευρωπαϊκών χωρών, 1960)


- μέση τιμή: 2.74 

- συντελεστής ασυμμετρίας: 1.74 (μια κατανομή χαρακτηρίζεται ως συμμετρική όταν ο συντελεστής ασυμμετρίας είναι ίσος με 0, εδώ έχουμε μια ασύμμετρη κατανομή)

- συντελεστής κυρτότητας: 4.46 (μια κατανομή χαρακτηρίζεται ως μεσόκυρτη όταν ο συντελεστής κυρτότητας είναι ίσος με 3, εδώ έχουμε μια λεπτόκυρτη κατανομή)

Παραμένοντας στο περιβάλλον της ίδια εφαρμογής μπορούμε να παράγουμε βασικά γραφήματα: https://www.statskingdom.com/chart-maker.html 

Το μόνο που απαιτείται είναι μια απλή καταχώρηση των τιμών μας στο λευκό πλαίσιο και έπειτα η επιλογή της εντολής "υπολογισμός" (εδώ δοκιμάζουμε για τις τιμές που αφορούν το ευρωπαϊκό γκρουπ χωρών για το έτος 1960). 


Διάγραμμα με μπάρες (ευρωπαϊκό γκρουπ χωρών, 1960) 

Το παραπάνω διάγραμμα μας προσφέρει μια πρώτη εικόνα για τις διαστρωματικές αντιθέσεις από χώρα σε χώρα (βρισκόμαστε σε έναν "παγωμένο" χρόνο, αλλά έχουμε τιμές από διαφορετικές χώρες). 

Μπορούμε να εισάγουμε και μια νέα στήλη προκειμένου να δούμε και τις χρονικές μεταβολές από χώρα σε χώρα (βλ. τάσεις): 

Εισαγωγή στοιχείων για ένα επιπλέον έτος 

Διάγραμμα με μπάρες (διαστρωματικές αντιθέσεις & χρονικές μεταβολές), ευρωπαϊκό γκρουπ χωρών 1960 & 2015

Έχουμε πλέον μια ξεκάθαρη πτωτική τάση σε ότι αφορά τις τιμές του δείκτη ολικής γονιμότητας στην Ευρώπη κατά την περίοδο 1960-2015. Επιβεβαιώνεται άραγε η πτωτική τάση στις τιμές της ολικής γονιμότητας αν δοκιμάσουμε να παράγουμε το ίδιο γράφημα χρησιμοποιώντας τις τιμές για το αφρικανικό γκρουπ χωρών;   

Η εξέλιξη των τιμών για το γκρουπ των αφρικανικών χωρών 

Βασικό συμπέρασμα: η πτωτική πορεία των τιμών του "δείκτη ολικής γονιμότητας" επιβεβαιώνεται τόσο για το σύνολο των χωρών του ευρωπαϊκού γκρουπ όσο και για τη συντριπτική πλειοψηφία των χωρών του αφρικανικού γκρουπ (2 αφρικανικές χώρες αποτελούν την εξαίρεση στον κανόνα...). Μόλις επιβεβαιώσαμε ποσοτικά ένα από τα βασικά χαρακτηριστικά της λεγόμενης "πρώτης δημογραφικής μεταβάσης", το οποίο φαίνεται να επιβιώνει και κατά την περίοδο της λεγόμενης "δεύτερης δημογραφικής μετάβασης".  

Αν θέλουμε, μπορούμε να κατασκευάσουμε με ευκολία έναν πίνακα με τα συγκεντρωτικά αποτελέσματα των περιγραφικών στατιστικών της μεταβλητής μας 


Το μόνο που μένει είναι η συμπλήρωση των τιμών του πίνακα με τη βοήθεια του αυτόματου υπολογισμού των βασικών περιγραφικών στατιστικών με τον τρόπο που δείξαμε παραπάνω.  


Για τα επόμενα βήματα της ποσοτικής ανάλυσης (βλ. ανάλυση συσχετίσεων & κατασκευή μοντέλων-υποδειγμάτων) απαιτείται μια ακόμη μεταβλητή. Ας υποθέσουμε την "ολική γονιμότητα" ως την εξαρτημένη μεταβλητή μας και τη "γυναικεία εργασία" (Labor force, female % of total labor force) ως τον πιθανό προσδιοριστικό παράγοντα της ολικής γονιμότητας (βλ. ανεξάρτητη μεταβλητή). Τώρα μπορούμε να προχωρήσουμε σε μια ανάλυση 2 μεταβλητών. Σε πρώτη φάση πρέπει να προσθέσουμε τις τιμές της νέας μεταβλητής μας:  

Γυναικεία εργασία, γκρουπ ευρωπαϊκών χωρών 

Γυναικεία εργασία, γκρουπ αφρικανικών χωρών 

Τώρα, είμαστε έτοιμες/οι να προχωρήσουμε στον υπολογισμό των τιμών του συντελεστή γραμμικής συσχέτισης: https://www.statskingdom.com/correlation-calculator.html 

Ας δοκιμάσουμε τον υπολογισμό του συντελεστή συσχέτισης ανάμεσα στην ολική γονιμότητα και τη γυναικεία εργασία για το γκρουπ των ευρωπαϊκών χωρών κατά το έτος 2000:

Καταχώρηση των τιμών της εξαρτημένης και ανεξάρτητης μεταβλητής,
ευρωπαϊκό γκρουπ χωρών, 2000

Υπολογισμός του συντελεστή γραμμικής συσχέτισης 

Προκύπτει η ύπαρξη μιας θετικής συσχέτισης (σχετικά έντονης) ανάμεσα στους δύο παράγοντες που εξετάζονται, τουλάχιστον σε ότι αφορά την περίπτωση της Ευρώπης κατά το έτος 2000. Η τιμή αυτή είναι στατιστικά σημαντική μιας και έχει τιμή του p-value = 0.02 < 0.05.

Πως λειτουργεί ένας στατιστικός έλεγχος με τη βοήθεια του p-value ;  

Ηο (μηδενική υπόθεση): ο συντελεστής συσχέτισης είναι μηδέν 
Η1 (εναλλακτική υπόθεση): ο συντελεστής συσχέτισης ΔΕΝ είναι μηδέν 

Αν η τιμή του p-value είναι μικρότερη από το 0,05 (5%) τότε είμαστε σε θέση να απορρίψουμε τη μηδενική υπόθεση. 
Αν η τιμή του p-value είναι μεγαλύτερη από το 0,05 (5%) τότε δε μπορούμε να απορρίψουμε την μηδενική υπόθεση.    

Διάγραμμα διασποράς

Η θετική σχέση ανάμεσα στους δύο αυτούς παράγοντες που εξετάζονται εντοπίζεται και μέσα από το διάγραμμα διασποράς: μεγαλύτερες τιμές του παράγοντα Χ φαίνεται να οδηγούν σε ολοένα και μεγαλύτερες τιμές του παράγοντα Ψ.  

Οι κόκκινες κουκίδες στο διάγραμμα δείχνουν τις τιμές των πραγματικών συνδυασμών (Χ,Ψ), ενώ η μαύρη γραμμή αποδίδει την γραμμή της παλινδρόμησης (δηλ. την εκτιμώμενη γραμμική σχέση ανάμεσα στους παράγοντες Χ και Ψ). 

ΥΓ: η θετική σχέση ανάμεσα στις τιμές του δείκτη ολικής γονιμότητας και τα επίπεδα της γυναικείας εργασίας δεν είναι παράδοξο. Αφορά ένα από τα βασικά χαρακτηριστικά της λεγόμενης δεύτερης δημογραφικής μετάβασης (η γυναικεία εργασία από παράγοντας συρρίκνωσης των γεννήσεων μετατρέπεται σταδιακά σε βασικό παράγοντα τροφοδότησης νέων γεννήσεων). Η αλλαγή στο πρόσημο της σχέσης που συνδέει τους δύο αυτούς παράγοντες μπορεί να εξηγηθεί σε κάποιο βαθμό από την ποιοτική αλλαγή του στάτους των γεννήσεων (ένα ολοένα και μεγαλύτερο κομμάτι των γεννήσεων στις μέρες μας λαμβάνει χώρα έξω από τα πλαίσια της παραδοσιακής οικογένειας)

Με τον ίδιο τρόπο μπορούμε να υπολογίσουμε τον συντελεστή συσχέτισης για τις τιμές του ευρωπαϊκού γκρουπ κατά το έτος 2015: 

Υπολογισμός του συντελεστή γραμμικής συσχέτισης 

 
Διάγραμμα διασποράς 

Ο συντελεστής συσχέτισης που συνδέει τους δύο παράγοντες που εξετάζονται διατηρεί το θετικό πρόσημο. Ωστόσο, δε φαίνεται να είναι στατιστικά σημαντικός (p-value = 0.17 > 0.05)

Τι συμβαίνει άραγε με το πρόσημο του συντελεστή συσχέτισης που συνδέει την ολική γονιμότητα με τη γυναικεία εργασία για την περίπτωση των αφρικανικών χωρών

Καταχώρηση των τιμών της εξαρτημένης και ανεξάρτητης μεταβλητής,
γκρουπ αφρικανικών χωρών, 2000


Υπολογισμός του συντελεστή συσχέτισης 

Σύμφωνα με το αποτέλεσμα, υπάρχει μια θετική γραμμική σχέση (αρκετά έντονη) ανάμεσα στη συνολική γονιμότητα και τη γυναικεία εργασία, σε ότι αφορά το γκρουπ των αφρικανικών χωρών κατά το έτος 2000. Η σχέση αυτή είναι στατιστικά σημαντική (p-value = 0.003 < 0.05).  

Διάγραμμα διασποράς

Το θετικό πρόσημο της σχέσης που συνδέει τους δύο παράγοντες που εξετάζονται εντοπίζεται και μέσα από το διάγραμμα διασποράς. Όπως και στην περίπτωση του γκρουπ των ευρωπαϊκών χωρών, έτσι και για το γκρουπ των αφρικανικών χωρών, ο συντελεστής συσχέτισης ανάμεσα στην ολική γονιμότητα και τη γυναικεία απασχόληση διατηρεί το θετικό του πρόσημο και κατά το έτος 2015, αν και δε φαίνεται να είναι στατιστικά σημαντικός (p-value=0.08 > 0.05)

Υπολογισμός συντελεστή συσχέτισης, γκρουπ αφρικανικών χωρών, 2015

Διάγραμμα διασποράς

Βασικό συμπέρασμα: τόσο για το γκρουπ των ευρωπαϊκών χωρών όσο και για το αντίστοιχο των αφρικανικών φαίνεται πως υπήρχε μια θετική και στατιστικά σημαντική σχέση ανάμεσα στην ολική γονιμότητα και τη γυναικεία εργασία κατά το έτος 2000. Η σχέση αυτή ήταν θετική και κατά το έτος 2015, αν και μη στατιστικά σημαντική

Έχοντας ήδη επαληθεύσει την ύπαρξη κάποιας στατιστικά σημαντικής σχέσης ανάμεσα στους παράγοντες Ψ ("ολική γονιμότητα") και Χ ("γυναικεία εργασία") μπορούμε να κατασκευάσουμε ένα απλό γραμμικό υπόδειγμαhttps://www.statskingdom.com/linear-regression-calculator.html

Ας δοκιμάσουμε να υπολογίσουμε ένα απλό γραμμικό μοντέλο για τις τιμές του ευρωπαϊκού γκρουπ χωρών κατά το έτος 2000: 

Καταχώρηση των τιμών της εξαρτημένης (Ψ) και ανεξάρτητης (Χ) μεταβλητής,
ευρωπαϊκό γκουπ χωρών, 2000

Υπολογισμός απλού γραμμικού υποδείγματος 

εκτίμηση για τον σταθερό όρο α = -0.854 

εκτίμηση για τον συντελεστή β = +0.05367

ερμηνεία: αν αυξηθεί κατά 1 μονάδα (δηλ. κατά 1%) η "γυναικεία απασχόληση" τότε ο "δείκτης ολικής γονιμότητας" θα αυξηθεί κατά 0.053 μονάδες (δηλ. κατά περίπου 0.053 γεννήσεις ανά γυναίκα). Η επίδραση αυτή είναι στατιστικά σημαντική μιας και η τιμή του p-value είναι ίση με 0.025 < 0.05. 

Ο κανόνας με τη χρήση του p-value για τον έλεγχο της στατιστικής σημαντικότητας του συντελεστή της παλινδρόμησης έχει ως εξής: 

Ηο (μηδενική υπόθεση): β = 0 , δηλ. ο συντελεστής είναι μη στατιστικά σημαντικός 
Η1 (εναλλακτική υπόθεση): β ΔΕΝ είναι μηδέν , δηλ. ο συντελεστής είναι στατιστικά σημαντικός  

Αν p-value < 0.05 (5%) τότε μπορούμε να απορρίψουμε τη μηδενική υπόθεση. 
Αν p-value > 0.05 (5%) τότε ΔΕΝ μπορούμε να απορρίψουμε τη μηδενική υπόθεση. 

Η ερμηνευτή ικαικνότητα του μοντέλου μας είναι σχετικά υψηλή μιας και η τιμή του συντελεστή προσδιορισμού είναι ίση με 0.33. ερμηνεία: περίπου το 33% της συνολικής μεταβλητότητας των τιμών της "ολικής γονιμότητας" εξηγείται από τον παράγοντα "γυναικεία εργασία" (το υπόλοιπο 67% παραμένει ανερμήνευτο)

Η ίδια σχέση για την περίπτωση των χωρών του αφρικανικού γκρουπ έχει ως εξής: 


ερμηνεία: Αν αυξηθεί η τιμή της "γυναικείας εργασίας" κατά 1% τότε η τιμή του "δείκτη ολικής γονιμότητας" θα αυξηθεί κατά περίπου 0.10 γεννήσεις ανά γυναίκα (διπλάσια επίδραση συγκριτικά με την αντίστοιχη στην ευρώπη). Η επίδραση αυτή είναι στατιστικά σημαντική μιας και η τιμή του p-value ειναι ίση με 0.003 < 0.05. Ακόμη, περίπου το 50% της συνολικής μεταβλητότητας της εξαρτημένης μεταβλητής εξηγείται από την ανεξάρτητη (σχετικά υψηλή ερμηνευτική ικανότητα). Το υπόλοιπο 50% εξηγείται από άλλους παράγοντες που δε λαμβάνονται υπόψη στο υπόδειγμά μας.   

Τέλος, για τον υπολογισμό ενός πολλαπλού υποδείγματος απαιτείται η προσθήκη τουλάχιστον μιας νέας ανεξάρτητης μεταβλητής (Χ2), δηλ. ενός ακόμη πιθανού προσδιοριστικού παράγοντα της ολικής γονιμότητας. Μένουμε λοιπόν στην ανάλυση για τις σχέσεις που αφορούν τις τιμές για το έτος 2000, εισάγοντας αυτή τη φορά και έναν νέο παράγοντα (Χ2), πιο συγκεκριμένα τον "ρυθμό οικονομικής ανάπτυξης" (βλ. GDP growth annual %).    

Ακολουθήστε τον σύνδεσμο: https://www.statskingdom.com/410multi_linear_regression.html

Καταχώρηση των τιμών της εξαρτημένης (Ψ) και των ανεξάρτητων (Χ1 και Χ2) μεταβλητών,
γκρουπ ευρωπαϊκών χωρών, 2010

Εξίσωση παλινδρόμησης

Τι συνέβη; Ο υπολογιστής πετάει αυτόματα έξω τον παράγοντα Χ2 (βλ. "ρυθμός οικονομικής ανάπτυξης") ως μη στατιστικά σημαντικό. Στην ουσία, μας επιστρέφει στο αρχικό μας υπόδειγμα (βλ. απλό γραμμικό μοντέλο).


Όπως και για το γκρουπ των ευρωπαϊκών χωρών, έτσι και για το αντίστοιχο των αφρικανικών, ο παράγοντας "ρυθμοί οικονομικής ανάπτυξης" (Χ2) δε φαίνεται να ήταν στατιστικά σημαντικός. Έτσι, η εφαρμογή τον πετάει αυτόματα έξω από το μοντέλο μας, διατηρώντας μονάχα τον στατιστικά σημαντικό παράγοντα "γυναικεία εργασία". Μας επιστρέφει δηλ. ξανά πίσω στο αρχικό μας μοντέλο (βλ. απλό γραμμικό υπόδειγμα).

Βασικό συμπέρασμα: αν και η "γυναικεία εργασία" φαίνεται να μπορεί να σταθεί ως στατιστικά σημαντικός προσδιοριστικός παράγοντας της "ολικής γονιμότητας" (τουλάχιστον για το έτος 2000), ΔΕΝ φαίνεται να ισχύει το ίδιο και για τον παράγοντα "ρυθμοί οικονομικής ανάπτυξης".

Στα πλαίσια της λεγόμενης "δεύτερης δημογραφικής μετάβασης" η "γυναικεία εργασία" φαίνεται να ασκεί θετικές επιδράσεις στα επίπεδα της ολικής γονιμότητας.

Οι σχέσεις αυτές είναι στατιστικά σημαντικές μονάχα για το έτος 2000. Κατά το έτος 2015, οι σχέσεις διατηρούν το θετικό τους πρόσημο, αλλά παύουν να είναι στατιστικά σημαντικές. 

Σε μια μεταξύ τους σύγκριση για το έτος 2000, η θετική επίδραση της "γυναικείας εργασίας" στα επίπεδα της "ολικής γονιμότητας" για το γκρουπ των αφρικανικών χωρών είναι σχεδόν διπλάσια σε σχέση με την αντίστοιχη για το γκρουπ των ευρωπαϊκών χωρών. 

***
 



Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου