Ένας λόγος που ορισμένες επιστημονικές μελέτες ενδέχεται να είναι λανθασμένες

Υπάρχει ένα κρίση αναπαραγωγιμότητας στην επιστήμη - είναι άγνωστα "ψευδώς θετικά" που διαπερνούν ακόμη και τα κορυφαία ερευνητικά μας περιοδικά.

Ένα ψευδώς θετικό είναι ένας ισχυρισμός ότι ένα αποτέλεσμα υπάρχει όταν στην πραγματικότητα δεν υπάρχει. Κανείς δεν γνωρίζει τι ποσοστό δημοσιευμένων εργασιών περιέχουν τέτοια εσφαλμένα ή υπερβολικά αποτελέσματα, αλλά υπάρχουν σημάδια ότι το ποσοστό δεν είναι μικρό.

Ο επιδημιολόγος Γιάννης Ιωαννίδης έδωσε την καλύτερη εξήγηση για αυτό το φαινόμενο σε μια διάσημη εφημερίδα το 2005, με προκλητικό τίτλο «Γιατί τα περισσότερα δημοσιευμένα αποτελέσματα της έρευνας είναι ψευδή». Ένας από τους λόγους που έδωσε ο Ιωαννίδης για τόσα ψευδή αποτελέσματα ονομάστηκε «p hacking », το οποίο προκύπτει από την πίεση που αισθάνονται οι ερευνητές για να επιτύχουν στατιστική σημασία.

Τι είναι η στατιστική σημασία;

Για να εξαχθούν συμπεράσματα από δεδομένα, οι ερευνητές βασίζονται συνήθως δοκιμή σημασίας. Με απλά λόγια, αυτό σημαίνει τον υπολογισμό του "p αξία », η οποία είναι η πιθανότητα αποτελεσμάτων όπως τα δικά μας εάν πραγματικά δεν υπάρχει αποτέλεσμα. Αν το p η τιμή είναι αρκετά μικρή, το αποτέλεσμα δηλώνεται στατιστικά σημαντικό.

Παραδοσιακά, α p τιμή μικρότερη από 05 είναι το κριτήριο για τη σημασία. Εάν αναφέρετε α p<.05, οι αναγνώστες είναι πιθανό να πιστεύουν ότι έχετε βρει ένα πραγματικό αποτέλεσμα. Perhapsσως, ωστόσο, στην πραγματικότητα δεν υπάρχει καμία επίδραση και έχετε αναφέρει ψευδώς θετικό.


εσωτερικά εγγραφείτε γραφικό


Πολλά περιοδικά θα δημοσιεύουν μόνο μελέτες που μπορούν να αναφέρουν ένα ή περισσότερα στατιστικά σημαντικά αποτελέσματα. Οι μεταπτυχιακοί φοιτητές μαθαίνουν γρήγορα ότι επιτυγχάνοντας το μυθικό p

Αυτή η πίεση για να επιτευχθεί pp hacking.

Το δέλεαρ του p hacking

Για να απεικονίσει p hacking, εδώ είναι ένα υποθετικό παράδειγμα.

Ο Bruce ολοκλήρωσε πρόσφατα το διδακτορικό του και έχει λάβει μια έγκυρη επιχορήγηση για να συμμετάσχει σε μία από τις κορυφαίες ερευνητικές ομάδες στον τομέα του. Το πρώτο του πείραμα δεν λειτουργεί καλά, αλλά ο Bruce βελτιώνει γρήγορα τις διαδικασίες και εκτελεί μια δεύτερη μελέτη. Αυτό φαίνεται πιο ελπιδοφόρο, αλλά ακόμα δεν δίνει p τιμή μικρότερη από 05.

Πεπεισμένος ότι ασχολείται με κάτι, ο Μπρους συγκεντρώνει περισσότερα δεδομένα. Αποφασίζει να αφήσει μερικά από τα αποτελέσματα, τα οποία φαίνονταν σαφώς πολύ μακριά.

Στη συνέχεια, παρατηρεί ότι ένα από τα μέτρα του δίνει μια σαφέστερη εικόνα, οπότε εστιάζει σε αυτό. Μερικά ακόμη τσιμπήματα και ο Bruce τελικά εντοπίζει ένα ελαφρώς εκπληκτικό αλλά πραγματικά ενδιαφέρον αποτέλεσμα που επιτυγχάνεται p

Ο Μπρους προσπάθησε τόσο πολύ να βρει το αποτέλεσμα που είχε γνώριζαν κρυβόταν κάπου. Ένιωθε επίσης την πίεση να χτυπήσει p

Υπάρχει μόνο ένα αλίευμα: στην πραγματικότητα δεν υπήρξε καμία επίδραση. Παρά το στατιστικά σημαντικό αποτέλεσμα, ο Bruce δημοσίευσε ψευδώς θετικό.

Ο Μπρους αισθάνθηκε ότι χρησιμοποιούσε την επιστημονική του γνώση για να αποκαλύψει το κακό, καθώς έκανε διάφορα βήματα μετά την έναρξη της μελέτης του:

  • Συγκέντρωσε περισσότερα στοιχεία.
  • Έριξε κάποια δεδομένα που φαίνονταν λανθασμένα.
  • Άφησε μερικά από τα μέτρα του και επικεντρώθηκε στα πιο ελπιδοφόρα.
  • Ανέλυσε τα δεδομένα λίγο διαφορετικά και έκανε μερικές περαιτέρω τροποποιήσεις.

Το πρόβλημα είναι ότι όλες αυτές οι επιλογές έγιναν μετά βλέποντας τα δεδομένα. Ο Bruce μπορεί, ασυνείδητα, να τρυγούσε κερασιά - να επιλέγει και να τροποποιεί μέχρι να αποκτήσει το άπιαστο pp

Οι στατιστικοί έχουν ένα ρητό: αν βασανίζετε αρκετά τα δεδομένα, θα ομολογήσουν. Οι επιλογές και οι τροποποιήσεις που έγιναν μετά την προβολή των δεδομένων είναι αμφισβητήσιμες ερευνητικές πρακτικές. Η χρήση αυτών, σκόπιμα ή όχι, για την επίτευξη του σωστού στατιστικού αποτελέσματος είναι p hacking, ο οποίος είναι ένας σημαντικός λόγος που δημοσιεύθηκαν, στατιστικά σημαντικά αποτελέσματα μπορεί να είναι ψευδώς θετικά.

Ποιο ποσοστό των δημοσιευμένων αποτελεσμάτων είναι λάθος;

Αυτή είναι μια καλή ερώτηση και μια τρελά δύσκολη ερώτηση. Κανείς δεν γνωρίζει την απάντηση, η οποία είναι πιθανό να είναι διαφορετική σε διαφορετικά ερευνητικά πεδία.

Μια μεγάλη και εντυπωσιακή προσπάθεια απάντησης στην ερώτηση για την κοινωνική και γνωστική ψυχολογία δημοσιεύτηκε το 2015. Με επικεφαλής τον Brian Nosek και τους συναδέλφους του στο Κέντρο Ανοικτής Επιστήμης, Έργο Replicability: ologyυχολογία (RP: P) είχε 100 ερευνητικές ομάδες σε όλο τον κόσμο η καθεμία πραγματοποίησε μια προσεκτική αντιγραφή ενός από τα 100 δημοσιευμένα αποτελέσματα. Συνολικά, περίπου 40 επαναλήφθηκαν αρκετά καλά, ενώ σε περίπου 60 περιπτώσεις οι μελέτες αντιγραφής έφεραν μικρότερα ή πολύ μικρότερα αποτελέσματα.

Οι μελέτες αναπαραγωγής 100 RP: P ανέφεραν αποτελέσματα που ήταν, κατά μέσο όρο, μόλις το ήμισυ του μεγέθους των αποτελεσμάτων που αναφέρθηκαν από τις αρχικές μελέτες. Οι προσεκτικά διεξαγμένες αντιγραφές δίνουν πιθανώς ακριβέστερες εκτιμήσεις από τις πιθανές p χάκαρε τις αρχικές μελέτες, οπότε θα μπορούσαμε να συμπεράνουμε ότι οι αρχικές μελέτες υπερεκτίμησαν τις πραγματικές επιδράσεις, κατά μέσο όρο, με συντελεστή δύο. Αυτό είναι ανησυχητικό!

Πώς να αποφύγετε p hacking

Ο καλύτερος τρόπος αποφυγής p το hacking είναι να αποφύγετε οποιαδήποτε επιλογή ή τροποποιήσεις αφού δείτε τα δεδομένα. Με άλλα λόγια, αποφύγετε αμφισβητήσιμες ερευνητικές πρακτικές. Στις περισσότερες περιπτώσεις, ο καλύτερος τρόπος για να γίνει αυτό είναι η χρήση προεγγραφή.

Η προεγγραφή απαιτεί να προετοιμάσετε εκ των προτέρων ένα λεπτομερές ερευνητικό σχέδιο, συμπεριλαμβανομένης της στατιστικής ανάλυσης που θα εφαρμοστεί στα δεδομένα. Στη συνέχεια, προεγγραφείτε το σχέδιο, με σφραγίδα ημερομηνίας, στο Ανοιχτό Επιστημονικό Πλαίσιο ή κάποιο άλλο διαδικτυακό μητρώο.

Τότε πραγματοποιήσετε τη μελέτη, αναλύστε τα δεδομένα σύμφωνα με το σχέδιο και αναφέρετε τα αποτελέσματα, όποια και αν είναι αυτά. Οι αναγνώστες μπορούν να ελέγξουν το προσχεδιασμένο σχέδιο και έτσι να είναι σίγουροι ότι η ανάλυση είχε καθοριστεί εκ των προτέρων και όχι p χακαρισμένος. Η προεγγραφή είναι μια προκλητική νέα ιδέα για πολλούς ερευνητές, αλλά πιθανόν να είναι ο δρόμος του μέλλοντος.

Εκτίμηση παρά p αξιών

Ο πειρασμός να p Το hack είναι ένα από τα μεγάλα μειονεκτήματα του να βασίζεσαι p αξίες. Ένα άλλο είναι ότι το pμάλλον σαν να λέμε ότι ένα αποτέλεσμα υπάρχει ή δεν υπάρχει.

Αλλά ο κόσμος δεν είναι ασπρόμαυρος. Για να αναγνωρίσετε τις πολυάριθμες αποχρώσεις του γκρι είναι πολύ καλύτερο να το χρησιμοποιήσετε εκτίμηση αντί p αξίες. Ο σκοπός με την εκτίμηση είναι να εκτιμηθεί το μέγεθος ενός αποτελέσματος - το οποίο μπορεί να είναι μικρό ή μεγάλο, μηδενικό ή ακόμη και αρνητικό. Όσον αφορά την εκτίμηση, ένα ψευδώς θετικό αποτέλεσμα είναι μια εκτίμηση μεγαλύτερη ή πολύ μεγαλύτερη από την πραγματική τιμή ενός αποτελέσματος.

Ας κάνουμε μια υποθετική μελέτη για τον αντίκτυπο της θεραπείας. Η μελέτη μπορεί, για παράδειγμα, να εκτιμήσει ότι η θεραπεία δίνει, κατά μέσο όρο, μείωση του άγχους κατά 7 μονάδες. Ας υποθέσουμε ότι υπολογίζουμε από τα δεδομένα μας α διάστημα εμπιστοσύνης - ένα εύρος αβεβαιότητας εκατέρωθεν της καλύτερης εκτίμησής μας - [4, 10]. Αυτό μας λέει ότι η εκτίμησή μας για το 7 είναι, πιθανότατα, εντός περίπου 3 βαθμών στην κλίμακα άγχους της πραγματικής επίδρασης - του πραγματικού μέσου όρου του οφέλους της θεραπείας.

Με άλλα λόγια, το διάστημα εμπιστοσύνης δείχνει πόσο ακριβής είναι η εκτίμησή μας. Η γνώση μιας τέτοιας εκτίμησης και το διάστημα εμπιστοσύνης της είναι πολύ πιο κατατοπιστική από οποιαδήποτε άλλη p αξία.

Αναφέρομαι στην εκτίμηση ως μία από τις "νέες στατιστικές". Οι ίδιες οι τεχνικές δεν είναι νέες, αλλά η χρήση τους ως ο κύριος τρόπος εξαγωγής συμπερασμάτων από δεδομένα θα ήταν για πολλούς ερευνητές καινούργια και ένα μεγάλο βήμα προς τα εμπρός. Θα βοηθήσει επίσης στην αποφυγή των στρεβλώσεων που προκαλούνται από p πειρατεία.

Σχετικά με το Συγγραφέας

Geoff Cumming, Ομότιμος Καθηγητής, Πανεπιστήμιο La Trobe

Αυτό το άρθρο δημοσιεύθηκε αρχικά στις Η Συνομιλία. Διαβάστε το αρχικό άρθρο.

Σχετικές Βιβλία:

at InnerSelf Market και Amazon