Odchylenie standardowe i zmienność są statystycznymi miarami rozproszenia
Wzór na odchylenie standardowe i wariancję często wyraża się za pomocą:
Wariancja zestawu n równie prawdopodobne wartości można zapisać jako:
Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji:
Formuły z greckimi literami wyglądają zniechęcająco, ale jest to mniej skomplikowane niż się wydaje. Mówiąc prosto:
To daje wariancję. Weź pierwiastek kwadratowy z wariancji, aby znaleźć odchylenie standardowe.
Ten znakomity film z Khan Academy wyjaśnia pojęcia wariancji i odchylenia standardowego:
Załóżmy, że zestaw danych zawiera wysokość sześciu mniszek lekarskich: 3 cale, 4 cale, 5 cali, 4 cale, 11 cali i 6 cali.
Najpierw znajdź średnią punktów danych: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Średnia wysokość wynosi 5,5 cala. Teraz potrzebujemy odchyleń, więc znajdujemy różnicę dla każdej rośliny ze średniej: -2,5, -1,5, -5, -1,5, 5,5, 1,5
Teraz wyprostuj każde odchylenie i znajdź ich sumę: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5
Teraz podziel sumę kwadratów przez liczbę punktów danych, w tym przypadku rośliny: 43,5 / 6 = 7,25
Zatem wariancja tego zestawu danych wynosi 7,25, co jest dość dowolną liczbą. Aby przekonwertować go na pomiar w świecie rzeczywistym, weź pierwiastek kwadratowy z 7,25, aby znaleźć standardowe odchylenie w calach.
Standardowe odchylenie wynosi około 2,69 cala. Oznacza to, że dla próbki każdy mniszek lekarski w odległości 2,69 cala od średniej (5,5 cala) jest „normalny”.
Odchylenia są podniesione do kwadratu, aby zapobiec anulowaniu wartości dodatnich przez wartości ujemne (odchylenia poniżej średniej). Działa to, ponieważ liczba ujemna podniesiona do kwadratu staje się wartością dodatnią. Jeśli miałeś prosty zestaw danych z odchyleniami od średniej +5, +2, -1 i -6, suma odchyleń wyniesie zero, jeśli wartości nie zostaną podniesione do kwadratu (tj. 5 + 2 - 1 - 6 = 0).
Wariancja jest wyrażona jako dyspersja matematyczna. Ponieważ jest to dowolna liczba w stosunku do oryginalnych pomiarów zbioru danych, trudno jest ją wyobrazić i zastosować w prawdziwym świecie. Znalezienie wariancji jest zwykle tylko ostatnim krokiem przed znalezieniem odchylenia standardowego. Wartości wariancji są czasem stosowane w formułach finansowych i statystycznych.
Odchylenie standardowe, wyrażone w oryginalnych jednostkach zestawu danych, jest znacznie bardziej intuicyjne i bliższe wartościom oryginalnego zestawu danych. Najczęściej stosuje się go do analizy danych demograficznych lub populacji, aby dowiedzieć się, co jest normalne w populacji.
W rozkładzie normalnym około 68% populacji (lub wartości) mieści się w granicach 1 odchylenia standardowego (1σ) średniej, a około 94% mieści się w granicach 2σ. Wartości, które różnią się od średniej o 1,7σ lub więcej, są zwykle uważane za wartości odstające.
W praktyce systemy jakości, takie jak Six Sigma, próbują zmniejszyć liczbę błędów, aby błędy stały się wartościami odstającymi. Termin „proces sześciu sigma” pochodzi od pojęcia, że jeśli ktoś ma sześć standardowych odchyleń między średnią procesu a najbliższym limitem specyfikacji, praktycznie żadna pozycja nie spełni specyfikacji.[1]
W rzeczywistych zastosowaniach używane zestawy danych zwykle reprezentują próbki populacji, a nie całe populacje. Lekko zmodyfikowaną formułę stosuje się, jeśli wnioski z całej populacji mają zostać wyciągnięte z częściowej próby.
„Odchylenie standardowe próbki” jest stosowane, jeśli masz tylko próbkę, ale chcesz złożyć oświadczenie na temat odchylenia standardowego populacji, z którego pobierana jest próbka
Jedyny sposób, w jaki wzór odchylenia standardowego próbki różni się od wzoru odchylenia standardowego, to „-1” w mianowniku.
Korzystając z przykładu mniszka lekarskiego, ta formuła byłaby potrzebna, gdybyśmy pobrali tylko 6 mniszek lekarskich, ale chcieliśmy użyć tej próbki do określenia standardowego odchylenia dla całego pola z setkami mniszek lekarskich.
Suma kwadratów zostanie teraz podzielona przez 5 zamiast 6 (n - 1), co daje wariancję 8,7 (zamiast 7,25) i przykładowe odchylenie standardowe 2,95 cala, zamiast 2,69 cala dla pierwotnego odchylenia standardowego. Ta zmiana służy do znalezienia marginesu błędu w próbce (w tym przypadku 9%).