Różnica między odchyleniem standardowym a błędem standardowym

Wprowadzenie

Standard reewolucja (SD) i S.tandard migroza (SE) są pozornie podobnymi terminologiami; są one jednak tak różnorodne koncepcyjnie, że są stosowane prawie zamiennie w literaturze statystycznej. Oba terminy są zwykle poprzedzone symbolem plus-minus (+/-), który wskazuje na to, że definiują one wartość symetryczną lub reprezentują zakres wartości. Niezmiennie oba terminy pojawiają się ze średnią (średnią) z zestawu zmierzonych wartości.

Co ciekawe, SE nie ma nic wspólnego ze standardami, błędami ani z przekazywaniem danych naukowych.

Szczegółowe spojrzenie na pochodzenie i wyjaśnienie SD i SE ujawni, dlaczego zawodowi statystycy i ci, którzy używają go kursorowo, mają tendencję do błądzenia.

Odchylenie standardowe (SD)

SD to opisowy statystyki opisujące rozkład rozkładu. Jako metryka przydaje się, gdy dane są zwykle dystrybuowane. Jest to jednak mniej przydatne, gdy dane są mocno wypaczone lub bimodalne, ponieważ nie opisuje dobrze kształtu rozkładu. Zazwyczaj używamy SD przy zgłaszaniu cech próbki, ponieważ zamierzamy opisać jak bardzo dane różnią się wokół średniej. Inne przydatne statystyki opisujące rozprzestrzenianie się danych to zakres międzykwartylowy, 25. i 75. percentyl oraz zakres danych.

Rysunek 1. SD jest miarą rozprzestrzeniania się danych. Gdy dane są próbką z rozkładu normalnie rozłożonego, wówczas oczekuje się, że dwie trzecie danych będzie mieściło się w granicach 1 odchylenia standardowego od średniej.

Wariancja to opisowy Statystyka również jest zdefiniowana jako kwadrat odchylenia standardowego. Zwykle nie jest zgłaszane przy opisywaniu wyników, ale jest to bardziej matematycznie możliwa formuła (np. Suma kwadratowych odchyleń) i odgrywa rolę w obliczaniu statystyki.

Na przykład, jeśli mamy dwie statystyki P. I Q ze znanymi wariancjami var(P) I var(Q), następnie wariancja sumy P + Q jest równy sumie wariancji: var(P) +var(Q). Teraz jest oczywiste, dlaczego statystycy lubią mówić o wariancjach.

Jednak odchylenia standardowe mają istotne znaczenie dla rozprzestrzeniania się, szczególnie gdy dane są normalnie rozłożone: średnia przedziału +/ - 1 SD można się spodziewać, że uchwyci 2/3 próbki i średnią przedziału +- 2 SD można oczekiwać, że przechwyci 95% próbki.

SD zapewnia wskazanie, jak daleko poszczególne odpowiedzi na pytanie różnią się lub „odbiegają” od średniej. SD mówi badaczowi, jak rozłożone są odpowiedzi - czy są skoncentrowane wokół średniej, czy rozproszone daleko i szeroko? Czy wszyscy Twoi respondenci ocenili Twój produkt w środku skali, czy też niektórzy go zaakceptowali, a niektórzy nie?

Rozważ eksperyment, w którym respondenci proszeni są o ocenę produktu według szeregu atrybutów w skali 5-punktowej. Średnia dla grupy dziesięciu respondentów (oznaczonych od „A” do „J” poniżej) dla „dobrego stosunku jakości do ceny” wyniosła 3,2 przy SD 0,4, a średnia dla „niezawodności produktu” wyniosła 3,4 przy SD 2,1.

Na pierwszy rzut oka (patrząc tylko na środki) wydaje się, że niezawodność oceniono wyżej niż wartość. Jednak wyższy SD dla wiarygodności może wskazywać (jak pokazano w poniższym rozkładzie), że odpowiedzi były bardzo spolaryzowane, w których większość respondentów nie miała problemów z wiarygodnością (oceniło atrybut na „5”), ale mniejszy, ale ważny segment respondentów miał problem z niezawodnością i ocenił atrybut „1”. Samo spojrzenie na środek przekazu opowiada tylko część historii, jednak najczęściej badacze skupiają się na tym. Należy wziąć pod uwagę rozkład odpowiedzi, a SD stanowi cenny miernik opisowy.

Pozwany Dobry stosunek jakości do ceny Niezawodność produktu
ZA 3) 1
b 3) 1
do 3) 1
re 3) 1
mi 4 5
fa 4 5
sol 3) 5
H. 3) 5
ja 3) 5
jot 3) 5
Oznaczać 3.2 3.4
Std. Dev. 0,4 2.1

Pierwsza ankieta: Respondenci oceniający produkt w 5-punktowej skali

Dwa bardzo różne rozkłady odpowiedzi na 5-punktową skalę oceny mogą dać tę samą średnią. Rozważ następujący przykład pokazujący wartości odpowiedzi dla dwóch różnych ocen.

W pierwszym przykładzie (ocena „A”) SD wynosi zero, ponieważ WSZYSTKIE odpowiedzi były dokładnie wartością średnią. Poszczególne odpowiedzi wcale nie odbiegały od średniej.

W rankingu „B”, mimo że średnia grupy jest taka sama (3,0) jak pierwszy rozkład, odchylenie standardowe jest wyższe. Odchylenie standardowe wynoszące 1,15 pokazuje, że poszczególne odpowiedzi średnio * były nieco powyżej 1 punktu od średniej.

Pozwany Ocena „A” Ocena „B”
ZA 3) 1
b 3) 2)
do 3) 2)
re 3) 3)
mi 3) 3)
fa 3) 3)
sol 3) 3)
H. 3) 4
ja 3) 4
jot 3) 5
Oznaczać 3.0 3.0
Std. Dev. 0,00 1.15

Druga ankieta: Respondenci oceniający produkt w 5-punktowej skali

Innym sposobem patrzenia na SD jest wykreślenie rozkładu jako histogram odpowiedzi. Rozkład z niskim SD byłby wyświetlany jako wysoki wąski kształt, podczas gdy duży SD byłby wskazywany przez szerszy kształt.

SD ogólnie nie oznacza „dobra lub zła” lub „lepsza lub gorsza” - niższe SD niekoniecznie jest bardziej pożądane. Jest stosowany wyłącznie jako statystyka opisowa. Opisuje rozkład w stosunku do średniej.

T.echniczne zastrzeżenie dotyczące SD

Myślenie o SD jako „średnim odchyleniu” jest doskonałym sposobem konceptualnego zrozumienia jego znaczenia. Nie jest to jednak tak naprawdę obliczane jako średnia (gdyby tak było, nazwalibyśmy to „średnim odchyleniem”). Zamiast tego jest to „znormalizowana”, nieco złożona metoda obliczania wartości z wykorzystaniem sumy kwadratów.

Dla celów praktycznych obliczenia nie są ważne. Większość programów tabelarycznych, arkuszy kalkulacyjnych lub innych narzędzi do zarządzania danymi obliczy SD za Ciebie. Ważniejsze jest zrozumienie, co przekazują statystyki.

Standardowy błąd

Standardowy błąd to wnioskowanie statystyka używana podczas porównywania średnich próbek (średnich) dla różnych populacji. Jest to miara precyzja średniej z próby. Średnia próbki jest statystyką pochodzącą z danych o rozkładzie podstawowym. Nie możemy wizualizować tego w taki sam sposób, jak danych, ponieważ przeprowadziliśmy pojedynczy eksperyment i mamy tylko jedną wartość. Teoria statystyczna mówi nam, że średnia próbki (dla dużej „wystarczającej” próbki i przy kilku warunkach prawidłowości) jest w przybliżeniu normalnie rozłożona. Odchylenie standardowe tego rozkładu normalnego nazywamy błędem standardowym.

Rysunek 2. Rozkład na dole reprezentujewysyła rozkład danych, podczas gdy rozkład u góry jest teoretycznym rozkładem średniej próbki. SD z 20 jest miarą rozproszenia danych, podczas gdy SE z 5 jest miarą niepewności wokół średniej próby.

Kiedy chcemy porównać średnie wyników z eksperymentu z dwoma próbami leczenia A w porównaniu z leczeniem B, musimy oszacować, jak dokładnie zmierzyliśmy średnie.

W rzeczywistości interesuje nas, jak dokładnie zmierzyliśmy różnicę między tymi dwoma środkami. Nazywamy to miarą standardowego błędu różnicy. Nie możesz być zaskoczony, gdy dowiesz się, że błąd standardowy różnicy w średnich próbek jest funkcją standardowych błędów średnich:

Teraz, gdy zrozumiałeś, że standardowy błąd średniej (SE) i standardowe odchylenie rozkładu (SD) to dwie różne bestie, możesz się zastanawiać, jak się pomylili. Chociaż różnią się koncepcyjnie, mają prosty związek matematyczny:

,gdzie n jest liczbą punktów danych.

Zauważ, że błąd standardowy zależy od dwóch składników: odchylenia standardowego próbki i wielkości próbki n. Ma to intuicyjny sens: im większe odchylenie standardowe próbki, tym mniej dokładna może być nasza ocena prawdziwej średniej.

Ponadto, im większa jest wielkość próby, tym więcej informacji na temat populacji i dokładniej możemy oszacować prawdziwą średnią.

SE jest wskaźnikiem wiarygodności średniej. Mała SE wskazuje, że średnia próbki jest dokładniejszym odzwierciedleniem rzeczywistej średniej populacji. Większy rozmiar próbki zwykle powoduje mniejszą SE (podczas gdy wielkość SD nie zależy bezpośrednio od wielkości próbki).

Większość badań ankietowych polega na pobieraniu próbki z populacji. Następnie wnioskujemy o populacji na podstawie wyników uzyskanych z tej próby. Jeśli zostanie pobrana druga próbka, wyniki prawdopodobnie nie będą dokładnie pasować do pierwszej próbki. Jeśli średnia wartość atrybutu oceny wynosiła 3,2 dla jednej próbki, może wynosić 3,4 dla drugiej próbki tego samego rozmiaru. Gdybyśmy mieli pobrać nieskończoną liczbę próbek (tej samej wielkości) z naszej populacji, moglibyśmy wyświetlić zaobserwowane średnie jako rozkład. Następnie moglibyśmy obliczyć średnią wszystkich naszych średnich próbek. Ta średnia byłaby równa prawdziwej średniej populacji. Możemy również obliczyć SD rozkładu średnich próbek. SD tego rozkładu średnich próbek jest SE każdej średniej próbki.

Mamy zatem naszą najważniejszą obserwację: SE to SD średniej populacji.

Próba Oznaczać
1. miejsce 3.2
2. miejsce 3.4
3. miejsce 3.3
4. miejsce 3.2
5. 3.1
… . … .
… . … .
… . … .
… . … .
… . … .
Oznaczać 3.3
Std. Dev. 0,13

Tabela ilustrująca związek między SD i SE

Teraz jest jasne, że jeśli SD tego rozkładu pomaga nam zrozumieć, jak daleko jest średnia próbki od rzeczywistej średniej populacji, możemy to wykorzystać, aby zrozumieć, jak dokładna jest każda indywidualna średnia próbki w stosunku do prawdziwej średniej. To jest istota SE.

W rzeczywistości pobraliśmy tylko jedną próbkę z naszej populacji, ale możemy wykorzystać ten wynik, aby oszacować wiarygodność naszej zaobserwowanej średniej próby.

W rzeczywistości SE mówi nam, że możemy być w 95% pewni, że nasza zaobserwowana średnia próby wynosi plus lub minus około 2 (faktycznie 1,96) błędów standardowych ze średniej populacji.

Poniższa tabela pokazuje rozkład odpowiedzi z naszej pierwszej (i jedynej) próby wykorzystanej w naszych badaniach. Wskaźnik SE wynoszący 0,13, który jest stosunkowo niewielki, daje nam wskazówkę, że nasza średnia jest względnie zbliżona do prawdziwej średniej w całej naszej populacji. Margines błędu (przy 95% ufności) dla naszej średniej wynosi (z grubsza) dwukrotność tej wartości (+/- 0,26), co oznacza, że ​​prawdziwa średnia najprawdopodobniej wynosi od 2,94 do 3,46.

Pozwany Ocena
ZA 3)
b 3)
do 3)
re 3)
mi 4
fa 4
sol 3)
H. 3)
ja 3)
jot 3)
Oznaczać 3.2
Std. Błądzić 0,13

streszczenie

Wielu badaczy nie rozumie różnicy między odchyleniem standardowym a błędem standardowym, mimo że są one często uwzględniane w analizie danych. Chociaż rzeczywiste obliczenia odchylenia standardowego i błędu standardowego wyglądają bardzo podobnie, reprezentują dwie bardzo różne, ale uzupełniające się miary. SD mówi nam o kształcie naszego rozkładu, o tym, jak blisko są poszczególne wartości danych od wartości średniej. SE mówi nam, jak blisko naszej średniej próby jest rzeczywista średnia całej populacji. Razem pomagają uzyskać bardziej kompletny obraz, niż może nam powiedzieć sam środek.