Στατιστική σημασία

Η ποίηση της πραγματικότητας
Επιστήμη
Εικονίδιο science.svg
Πρέπει να ξέρουμε.
Θα ξέρουμε.
  • Βιολογία
  • Χημεία
  • Η φυσικη
Μια θέα από το
ώμοι γίγαντων.

Δήλωση στατιστική σημασία είναι η πλησιέστερη στατιστική που αποδεικνύει ένα αποτέλεσμα. Άτυπα, είναι ο όρος που χρησιμοποιείται για να πει ότι τομηδενική υπόθεσημάλλον δεν είναι αλήθεια. Πιο τυπικά, είναι το μέτρο του πόσο πρόθυμος είναι ένας πειραματιστής να απορρίψει εσφαλμένα την μηδενική υπόθεση. Η στατιστική σημασία δηλώνεται όταν η πιθανότητα παρατήρησης των δεδομένων με την υπόθεση ότι η μηδενική υπόθεση είναι αληθής (η τιμή p) είναι πάνω ή κάτω από κάποια αυθαίρετη τιμή, που αντιπροσωπεύεται από ένα πεζά άλφα (α). Μια τιμή p κάτω από το άλφα υποδηλώνει ότι τα δεδομένα δεν είναι συνεπή με μια πραγματική μηδενική υπόθεση. Συμβατικά, η μηδενική υπόθεση απορρίπτεται στη συνέχεια, δηλώνεται η στατιστική σημασία και άρχισαν τα μέρη.

Η λέξη «σημαντική», υπό αυτή την έννοια, δεν σημαίνει «μεγάλη» ή «σημαντική» όπως στην καθημερινή χρήση της λέξης. Σημαίνει απλώς ότι ένα εφέ είναι αρκετά μεγάλο ώστε να φαίνεται απίθανο να έχει συμβεί μόνο τυχαία. Τα στατιστικά σημαντικά αποτελέσματα μπορούν, στην πραγματικότητα, να είναι πολύ μικρά. Συνήθως, απαιτούνται μεγαλύτερα μεγέθη δείγματος για να αποδειχθεί η σημασία των μικρότερων αποτελεσμάτων.

Περιεχόμενα

Βασικά στοιχεία στατιστικής σημασίας

  1. Ξεκινήστε με τα δεδομένα που συλλέγονται ειδικά για την ερώτηση
  2. Διατυπώστε με σαφήνεια μια μηδενική και εναλλακτική υπόθεση
  3. Καθορίστε ένα επίπεδο άλφα κατάλληλο για τη μελέτη
  4. Υπολογίστε μια στατιστική δοκιμής και αντιστοιχεί στην πιθανότητα υπό την μηδενική υπόθεση (ή χρησιμοποιήστε έναν υπολογιστή να το κάνει).
  5. Συγκρίνετε την τιμή p με το επίπεδο άλφα και
    1. Απορρίψτε το μηδέν εάν η τιμή p είναι χαμηλότερη
    2. Μην απορρίπτετε το μηδέν εάν η τιμή p είναι υψηλότερη

Σωστάυπόθεσηδοκιμή, το άλφα προσδιορίζεται πριν από τη συλλογή δεδομένων. Η επιλογή του σωστού άλφα θα πρέπει να βασίζεται σε προσεκτική εξέταση των κινδύνων από την εξαγωγή λανθασμένου συμπεράσματος, αλλά, συνήθως ορίζεται σε 0,05 ή 0,01. Υπάρχει μια αντιστάθμιση μεταξύ της σημασίας και της στατιστικής ισχύος (η πιθανότητα η μηδενική υπόθεση να απορριφθεί δεδομένου ότι είναι ψευδής). Μια χαμηλή τιμή άλφα σημαίνει ότι η απόρριψη του μηδενικού είναι λιγότερο πιθανό να είναι λάθος, αλλά μειώνει επίσης την πιθανότητα τέτοιας απόρριψης. Η αύξηση του μεγέθους του δείγματος μπορεί να αυξήσει την πιθανότητα σημασίας χωρίς μείωση της ισχύος.

Σε πιο κοινές στατιστικές προσεγγίσεις (δηλ. «Συχνός»), η στατιστική σημασία προκύπτει από τα αποτελέσματα των δοκιμών υπόθεσης. Ενα εναλλακτική υπόθεση (εκείείναιένα αποτέλεσμα) ευνοείται - και ένα μηδενική υπόθεση (ότι υπάρχειδενένα αποτέλεσμα) απορρίπτεται - εάν τα πειραματικά στοιχεία δείχνουν σημαντική διαφορά από την μηδενική υπόθεση. Εάν δεν υπάρχει σημαντική διαφορά, η μηδενική υπόθεση δεν απορρίπτεται.

Για να είμαστε σαφείς, η δοκιμή στατιστικής σημασίας δεν αποδεικνύει καμία υπόθεση. Η απόρριψη του μηδενικού υπονοεί απλώς ότι τα στοιχεία ευνοούν το μηδέν αρκετά για να μπορέσουμε να πηδήξουμε στην αγκαλιά της φιλόξενης εναλλακτικής υπόθεσης. Η μη απόρριψη της μηδενικής υπόθεσης λέει ότι είτε η μηδενική υπόθεση είναι πιθανώς αληθινή είτε δεν υπάρχουν αρκετά στοιχεία που να την απορρίπτουν. δεν αποδεικνύει την μηδενική υπόθεση. Η στατιστική σημασία είναι απλώς ένας τρόπος για να κάνετε μια δήλωση σχετικά με τη δύναμη των αποδεικτικών στοιχείων.

Τιμή άλφα έναντιΠ-αξία

Απεικόνιση της περιγραφής της έννοιας της τιμής p στην δοκιμή στατιστικής σημασίας

Ο έλεγχος υπόθεσης συνίσταται στη διατύπωση μηδενικής υπόθεσης και εναλλακτικής υπόθεσης, στην επιλογή μιας τιμής άλφα, στον προσδιορισμό της περιοχής απόρριψης, στη συλλογή δεδομένων, στον υπολογισμό μιας στατιστικής και στην αξιολόγηση του κατά πόσον το στατιστικό στοιχείο πέφτει στην περιοχή απόρριψης. Υπάρχουν τέσσερα πιθανά αποτελέσματα μιας δοκιμής υπόθεσης: η μηδενική υπόθεση είναι αληθινή και διατηρείται, η μηδενική υπόθεση είναι ψευδής και απορρίπτεται, η μηδενική υπόθεση είναι αληθής και απορριφθείσα και η μηδενική υπόθεση είναι ψευδής και διατηρείται. Εάν η μηδενική υπόθεση είναι αληθινή, αλλά απορριφθεί, αυτό είναι σφάλμα τύπου Ι. Εάν η μηδενική υπόθεση είναι ψευδής, αλλά διατηρείται, αυτό είναι σφάλμα τύπου II. Η πιθανότητα σφάλματος τύπου Ι είναι εξ ορισμού ίση με την τιμή άλφα. Η πιθανότητα σφάλματος τύπου II γενικά δεν μπορεί να υπολογιστεί, καθώς η εναλλακτική υπόθεση δεν περιλαμβάνει γνωστή κατανομή. Εάν τα πιθανά αποτελέσματα του πειράματος μπορούν να ταξινομηθούν ως «πιο πιθανό» (δεδομένης της μηδενικής υπόθεσης) ως «λιγότερο πιθανό», τότε τα πραγματικά αποτελέσματα μπορούν να αντιστοιχιστούν με τιμή ίση με την πιθανότητα αυτών των αποτελεσμάτων, συν όλα τα «λιγότερο πιθανά» αποτελέσματα . Αυτή η πιθανότητα είναι γνωστή ως «Π-αξία'. Εάν τοΠ-Η τιμή είναι μικρότερη από την τιμή άλφα, η μηδενική υπόθεση απορρίπτεται. Η σημασία της δοκιμής καθορίζεται από την τιμή άλφα, η οποία δεν επηρεάζεται από τα αποτελέσματα της δοκιμής. Το μόνο αποτέλεσμα τουΠ-Η τιμή έχει ότι είναι είτε μικρότερη από την τιμή άλφα, και η μηδενική υπόθεση απορρίπτεται, ή είναι μεγαλύτερη από την τιμή άλφα, και η μηδενική υπόθεση διατηρείται. Ένα αποτέλεσμα δεν γίνεται 'πιο' στατιστικά σημαντικό εάν τοΠ-Η τιμή είναι «πολύ μικρότερη» από την τιμή άλφα, σε αντίθεση με το ότι είναι απλά «ελαφρώς μικρότερη».



Κατάχρηση

Η κατάχρηση στατιστικών είναι ότανδημοσιογράφοιή συγκεκριμένα προγράμματα προώθησης αγνοώ η έννοια της σημασίας εντελώς - που οδηγεί σε λανθασμένες πληροφορίες που δίδονται στους ανθρώπους. Το 2005, μια έκθεση που ανέθεσε ηΗνωμένο Βασίλειοκυβέρνηση κατέληξε στο συμπέρασμα ότι υπήρχε «όχισημαντικόςαύξηση σε φάρμακο χρήση σε σχολεία του Ηνωμένου Βασιλείου ». Όχι ικανοποιημένοι με το συμπέρασμα ότι «τα πράγματα δεν είναι τόσο άσχημα, στην πραγματικότητα», μερικές εφημερίδες πήγαν στην έκθεση και αποφάσισαν να βγάλουν τα δικά τους συμπεράσματα. Στο, ειλικρινά ερασιτεχνικό, αναζητούν κάτι για να ορυχείο δεδομένων (Μετά τον ορισμό), το παρατήρησαν κοκαΐνη η χρήση στα σχολεία αυξήθηκε από 1% σε 2% - παρόλο που ολοκληρώθηκαν για την περίληψη, ήταν στην πραγματικότητα 1,4% και 1,9%, οπότε35% αύξηση, αντί για αύξηση 100%. Είχαν το όπλο καπνίσματος. παρά αυτό που κατέληξε η κυβέρνηση, η χρήση κοκαΐνηςδιπλασιάστηκε, η κοκαΐνη πλημμύριζε την παιδική χαρά και η κυβέρνηση την κάλυπτε. Ωστόσο, το συμπέρασμα της κυβέρνησης ήταν πιο ακριβές, διότι έλαβε υπόψη τη σημασία, τη συγκέντρωση και το γεγονός ότι η χρήση πολλών διαφορετικών ναρκωτικών είχε εξεταστεί. Εάν δοκιμάσετε πολλές μεταβλητές, οι πιθανότητες μιας από αυτές να δείχνει σαφή τάσηκατά τύχηαύξηση, και έτσι οι δοκιμές για τη σημασία πρέπει να τροποποιηθούν κατάλληλα. Κατά την πραγματοποίηση των πραγματικών μαθηματικών, τα αποτελέσματα ήταν στην πραγματικότητα πολύ ασήμαντα, ουσιαστικά παράγονται τυχαία και η τυχαία πιθανότητα το δείγμα να πέσει σε ένα σύμπλεγμα ατόμων που χρησιμοποιούν φάρμακα που δεν ήταν αντιπροσωπευτικά ολόκληρου του δείγματος.

Προβλήματα με στατιστική σημασία

Η τιμή άλφα ορίζεται συνήθως σε 0,05 ή λιγότερο. Αυτό σημαίνει ότι υπάρχει πιθανότητα λιγότερης από πέντε τοις εκατό απόρριψης της μηδενικής υπόθεσης μόνο τυχαία. Δεν υπάρχει τίποτα βασικό μαγικό για ένα επίπεδο άλφα 0,05, αλλά μετά από πολλές γενιές που το χρησιμοποίησε στην ανάλυση φαίνεται να έχει πάρει ένα συγκεκριμένομαγικόςαξία για πολλές επιστήμες. Εάν μια στατιστική δοκιμή επιστρέψει με p = 0,04, τα αποτελέσματα ονομάζονται σημαντικά και εάν p = 0,06, ονομάζονται μη σημαντικά.

Με αυτό το τυπικό επίπεδο άλφα, περίπου 1 στα 20 αποτελέσματα θα πρέπει να επανέλθουν σημαντικά όταν πραγματικά δεν υπάρχει αποτέλεσμα. Αυτό συμβαίνει συμβαίνει συχνά οπότε είναι λάθος να υποθέσουμε μια καλή τιμή σημαίνει ότι είστε απόλυτα σίγουροι. είναι ακόμα το θέμαπιθανότητα. Σε μεμονωμένα πειράματα που εκτελούν πολλές στατιστικές δοκιμές, αυτό είναι ένα πρόβλημα, εάν εκτελέσετε 40 δοκιμές, περίπου 2 από αυτά θα δείξουν ένα αποτέλεσμα που δεν είναι πραγματικά εκεί. Αυτό αναφέρεται συχνά ως ποσοστό σφάλματος για όλη την οικογένεια και είναι δύσκολο να ελεγχθεί, αλλά ορισμένα μέτρα μπορούν να χρησιμοποιηθούν. Ενώ είναι εύκολο να δούμε αυτό το πρόβλημα σε ένα σύνολο πειραμάτων σε ένα μόνο χαρτί, το ίδιο φαινόμενο προκύπτει εάν μια δέσμη μεμονωμένων πειραμάτων δημοσιεύεται σε πολλά άρθρα. Με τα χιλιάδες πειράματα που εκτελούνται καθημερινά σε όλο τον κόσμο, ένας πολύ μεγάλος αριθμός από αυτούς θα δείξει στατιστική σημασία όταν πραγματικά δεν υπάρχει κανένα αποτέλεσμα. Οι προκαταλήψεις δημοσίευσης σε περιοδικά υπερβάλλουν αυτό το πρόβλημα, επειδή τα περιοδικά σπάνια δημοσιεύουν πειράματα που εμφανίζουν μόνο μη εφέ (δηλ. «Αποτυχημένα» πειράματα) και είναι πολύ πιο πιθανό να δημοσιεύσουν εργασίες που δείχνουν ένα αποτέλεσμα. Έτσι καταλήγετε με μια τεράστια ανεξέλεγκτη προκατάληψη στις δημοσιευμένες εφημερίδες για να δείξετε στατιστική σημασία όπου πραγματικά δεν υπάρχει.

Κατάχρηση από την ψευδοεπιστήμη

Αυτός είναι ένας λόγος για τον οποίο η επιλογή ενός τεστ σε ένα μόνο χαρτί για να κάνει ένα σημείο δεν έχει νόημα. Είναι μια κοινή τακτική ψευδοεπιστήμη προς την αναζήτηση σε χιλιάδες χαρτιά για να διαπιστώσετε ότι ένα αποτέλεσμα είναι σημαντικό και επισημαίνει . Η πραγματική επιστήμη πρέπει να συνοδεύεται από την υπεροχή των αποδεικτικών στοιχείων και τα πειραματικά αποτελέσματα πρέπει να επαναλαμβάνονται επανειλημμένα και αξιόπιστα πριν να ενσωματωθούν στο σώμα των αποδεκτών γνώσεων. Αυτός είναι ο λόγος επιστημονική συναίνεση είναι σημαντικό καικουκουβάκιακαι στρόφαλοι που αντιβαίνουν σε αυτήν τη συναίνεση δεν κερδίζουν πόντους βρίσκοντας ένα μόνο παράδειγμα σε ένα έγγραφο που θα μπορούσε να υποστηρίξει τους ισχυρισμούς τους.

Τα παραπάνω προβλήματα οφείλονται κυρίως στη χρήση συχνών προσεγγίσεων στη στατιστική ανάλυση. Υπάρχει μια αυξανόμενη κίνηση επιστημόνων που ενθαρρύνουν τη χρήση του Bayesian με βάση στατιστικά στοιχεία. Οι προσεγγίσεις Bayesian δεν υπόκεινται στο ίδιο είδος συστηματικών ζητημάτων διάδοσης σφαλμάτων με τις συχνές προσεγγίσεις (ωστόσο υπόκεινται στα δικά τους μοναδικά σύνολα ζητημάτων).

Π- Αλιεία αξίας ήΠ- αγκίστρωση

'Π-αξία αλιείας '(γνωστή ως' αποστολή αλιείας '), που είναι πιο γνωστή ως' p-hacking ', είναι ένας εκφραστικός όρος για μια στατιστική αναταραχή του χεριού που συχνά κακομεταχειρίζεται από τους στρόφαλους και εκείνους που έχουν μια ατζέντα να ωθήσουν. Υπάρχουν δύο συνηθισμένοι τρόποι για να λάβετε ένα στατιστικά σημαντικό αποτέλεσμα που δεν σημαίνει καθόλου. Το πρώτο είναι, σε μελέτες με μεγάλο αριθμό μεταβλητών, να διεξάγουμε συγκρίσεις όλων των μεταβλητών και να ελπίζουμε ότι κάτι θα βγει σημαντικό. Η σωστή μεθοδολογία υπαγορεύει ότι ο πειραματιστής επιλέγει ποιες μεταβλητές συγκρίνονται εκ των προτέρων και να εκτελέσει διορθώσεις post-hoc σε οποιεσδήποτε περαιτέρω συγκρίσεις. Με άλλα λόγια, το να συγκρίνουμε όσο το δυνατόν περισσότερες μεταβλητές τελικά θα εμφανίσει ένα σημαντικό αποτέλεσμα, αν και είναι πιθανό να είναι στατιστικός θόρυβος. Η διόρθωση post-hoc είτε μειώνει το επίπεδο άλφα του post-hoc είτε αυξάνει το επίπεδοΠ-τιμήστε έτσι ώστε να διατηρείται το οικογενειακό ποσοστό σφάλματος (π.χ. 1 στα 20).

Το δεύτερο κόλπο είναι να ψάχνετεΠ- Τιμές με την αύξηση του αριθμού των θεμάτων έως ότου επιτευχθεί η σημασία. Κανονικά, είναι καλό να έχουμε περισσότερα θέματα, ωστόσο, τα δεδομένα πρέπει να ερμηνεύονται υπό το φως αυτού. Αυτό που συμβαίνει συχνά με μια μεγάλη ομάδα θεμάτων είναι ότι ακόμη και μια μικρή διαφορά στα μέσα θα γίνει σημαντική ακόμα κι αν το μέγεθος του εφέ είναι σχεδόν τίποτα. Αυτός είναι ο λόγος για τον οποίο είναι σημαντικό να εξετάσετε το μέγεθος του εφέ εκτός από τοΠ-αξία.

Προτεινόμενες λύσεις στα προβλήματα

Μια άλλη προσέγγιση ήταν να υποστηρίξουμε ότι οι στατιστικές πρέπει να χάσουν τη μαγική της κατάσταση στην επιστήμη ως ένα είδος αναλογίας με το α απόδειξη , αλλά μάλλον πρέπει να θεωρηθεί ως επιχείρημα ή μέτρο της ισχύος των αποδεικτικών στοιχείων. οΠ-Η αξία των στατιστικών είναι μόνο ένα κομμάτι στην ευρύτερη προοπτική και πρέπει να σταθμίζεται έναντι άλλων τύπων αποδεικτικών στοιχείων.Π- Οι τιμές μπορούν να αναφερθούν απευθείας, επιτρέποντας στους ανθρώπους να τις ενσωματώσουν με άλλα στοιχεία για να καταλήξουν στα συμπεράσματά τους. Εάν άλλα στοιχεία είναι αδύνατα, ίσως αΠ-Η τιμή 0,05 δεν είναι πειστική, ή ίσως αν όλα τα άλλα στοιχεία είναι ισχυράΠ-Η τιμή 0,1 είναι αρκετά καλή. Ωστόσο, αυτό είναι προβληματικό, καθώς αντιμετωπίζουμε άμεσαΠ- Οι τιμές ανοίγουν την πιθανότητα μιας μεγάλης ποικιλίας στατιστικών λαθών, όπως ο πολλαπλασιασμός τουΠ-τιμές δύο μελετών για να πάρει το «συνδυασμένο»Π-αξία.

Εστίαση σε διαστήματα εμπιστοσύνης αντίΠ- Οι τιμές παρέχουν μια πιο ευέλικτη και λιγότερο αυθαίρετη μέθοδο για την απόδειξη του βάρους. Σίγουρα, ένα διάστημα εμπιστοσύνης 95% μπορεί να ερμηνευθεί ως απορρίπτοντας την μηδενική υπόθεση κάποιας τιμής εκτός του διαστήματος εμπιστοσύνης σε άλφα 0,05. Ωστόσο, το ίδιο το διάστημα εμπιστοσύνης επιτρέπει σε κάποιον να δει όλες τις τιμές στο εύλογο εύρος και να αποφασίσει εάν αυτή η εκτίμηση μιας διαφοράς είναι ακόμη αρκετά ακριβής ώστε να αξίζει να βασιστεί κανείς. Ένα μεγάλο διάστημα εμπιστοσύνης που σχετίζεται με χαμηλόΠ-Η τιμή θα μπορούσε να φαίνεται λιγότερο χρήσιμη από ένα στενό, ακριβέστερο διάστημα εμπιστοσύνης που δεν μπορεί να απορρίψει το μηδέν.

Facebook   twitter