Odchylenie standardowe vs. wariancja

Odchylenie standardowe i zmienność są statystycznymi miarami rozproszenia Odchylenie standardoweZmiennośćWzór matematyczny Pierwiastek kwadratowy wariancji Średnia kwadratów odchyleń każdej wartości od średniej w próbce. Symbol Grecka litera Sigma - σ Brak dedykowanego symbolu; wyrażone jako odchylenie standardowe lub inne wartości. Wartości w stosunku do danego zestawu danych Taka sama skala jak wartości w danym zbiorze danych; dlatego wyrażone w tych samych jednostkach. Skala większa niż wartości w danym zestawie danych; nie wyrażony w tej samej jednostce co same wartości. Są wartościami ujemnymi lub dodatnimi? Zawsze nieujemne Zawsze nieujemne Aplikacja w prawdziwym świecie Pobieranie próbek populacji; identyfikowanie wartości odstających Wzory statystyczne, finanse.

Treść: Odchylenie standardowe a wariancja

  • 1 Ważne pojęcia
  • 2 symbole
  • 3 formuły
  • 4 Przykład
    • 4.1 Dlaczego wyrównać odchylenia?
  • 5 aplikacji w świecie rzeczywistym
    • 5.1 Znajdowanie wartości odstających
  • 6 próbek odchylenia standardowego
  • 7 referencji

Ważne koncepcje

  • Oznaczać: średnia wszystkich wartości w zestawie danych (dodaj wszystkie wartości i podziel ich sumę przez liczbę wartości).
  • Odchylenie: odległość każdej wartości od średniej. Jeśli średnia wynosi 3, wartość 5 ma odchylenie 2 (odejmij średnią od wartości). Odchylenie może być dodatnie lub ujemne.

Symbolika

Wzór na odchylenie standardowe i wariancję często wyraża się za pomocą:

  • x̅ = średnia lub średnia wszystkich punktów danych w problemie
  • X = indywidualny punkt danych
  • N = liczba punktów w zestawie danych
  • ∑ = suma [kwadratów odchyleń]

Formuły

Wariancja zestawu n równie prawdopodobne wartości można zapisać jako:

Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji:

Formuły z greckimi literami wyglądają zniechęcająco, ale jest to mniej skomplikowane niż się wydaje. Mówiąc prosto:

  1. znajdź średnią wszystkich punktów danych
  2. dowiedz się, jak daleko każdy punkt jest oddalony od średniej (jest to odchylenie)
  3. kwadrat każde odchylenie (tj. różnica każdej wartości od średniej)
  4. podziel sumę kwadratów przez liczbę punktów.

To daje wariancję. Weź pierwiastek kwadratowy z wariancji, aby znaleźć odchylenie standardowe.

Ten znakomity film z Khan Academy wyjaśnia pojęcia wariancji i odchylenia standardowego:

Przykład

Załóżmy, że zestaw danych zawiera wysokość sześciu mniszek lekarskich: 3 cale, 4 cale, 5 cali, 4 cale, 11 cali i 6 cali.

Najpierw znajdź średnią punktów danych: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Średnia wysokość wynosi 5,5 cala. Teraz potrzebujemy odchyleń, więc znajdujemy różnicę dla każdej rośliny ze średniej: -2,5, -1,5, -5, -1,5, 5,5, 1,5

Teraz wyprostuj każde odchylenie i znajdź ich sumę: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5

Teraz podziel sumę kwadratów przez liczbę punktów danych, w tym przypadku rośliny: 43,5 / 6 = 7,25

Zatem wariancja tego zestawu danych wynosi 7,25, co jest dość dowolną liczbą. Aby przekonwertować go na pomiar w świecie rzeczywistym, weź pierwiastek kwadratowy z 7,25, aby znaleźć standardowe odchylenie w calach.

Standardowe odchylenie wynosi około 2,69 cala. Oznacza to, że dla próbki każdy mniszek lekarski w odległości 2,69 cala od średniej (5,5 cala) jest „normalny”.

Dlaczego kwadrat odchylenia?

Odchylenia są podniesione do kwadratu, aby zapobiec anulowaniu wartości dodatnich przez wartości ujemne (odchylenia poniżej średniej). Działa to, ponieważ liczba ujemna podniesiona do kwadratu staje się wartością dodatnią. Jeśli miałeś prosty zestaw danych z odchyleniami od średniej +5, +2, -1 i -6, suma odchyleń wyniesie zero, jeśli wartości nie zostaną podniesione do kwadratu (tj. 5 + 2 - 1 - 6 = 0).

Aplikacje w prawdziwym świecie

Wariancja jest wyrażona jako dyspersja matematyczna. Ponieważ jest to dowolna liczba w stosunku do oryginalnych pomiarów zbioru danych, trudno jest ją wyobrazić i zastosować w prawdziwym świecie. Znalezienie wariancji jest zwykle tylko ostatnim krokiem przed znalezieniem odchylenia standardowego. Wartości wariancji są czasem stosowane w formułach finansowych i statystycznych.

Odchylenie standardowe, wyrażone w oryginalnych jednostkach zestawu danych, jest znacznie bardziej intuicyjne i bliższe wartościom oryginalnego zestawu danych. Najczęściej stosuje się go do analizy danych demograficznych lub populacji, aby dowiedzieć się, co jest normalne w populacji.

Znajdowanie wartości odstających

Rozkład normalny (krzywa Bell) z pasmami odpowiadającymi 1σ

W rozkładzie normalnym około 68% populacji (lub wartości) mieści się w granicach 1 odchylenia standardowego (1σ) średniej, a około 94% mieści się w granicach 2σ. Wartości, które różnią się od średniej o 1,7σ lub więcej, są zwykle uważane za wartości odstające.

W praktyce systemy jakości, takie jak Six Sigma, próbują zmniejszyć liczbę błędów, aby błędy stały się wartościami odstającymi. Termin „proces sześciu sigma” pochodzi od pojęcia, że ​​jeśli ktoś ma sześć standardowych odchyleń między średnią procesu a najbliższym limitem specyfikacji, praktycznie żadna pozycja nie spełni specyfikacji.[1]

Odchylenie standardowe próbki

W rzeczywistych zastosowaniach używane zestawy danych zwykle reprezentują próbki populacji, a nie całe populacje. Lekko zmodyfikowaną formułę stosuje się, jeśli wnioski z całej populacji mają zostać wyciągnięte z częściowej próby.

„Odchylenie standardowe próbki” jest stosowane, jeśli masz tylko próbkę, ale chcesz złożyć oświadczenie na temat odchylenia standardowego populacji, z którego pobierana jest próbka

Jedyny sposób, w jaki wzór odchylenia standardowego próbki różni się od wzoru odchylenia standardowego, to „-1” w mianowniku.

Korzystając z przykładu mniszka lekarskiego, ta formuła byłaby potrzebna, gdybyśmy pobrali tylko 6 mniszek lekarskich, ale chcieliśmy użyć tej próbki do określenia standardowego odchylenia dla całego pola z setkami mniszek lekarskich.

Suma kwadratów zostanie teraz podzielona przez 5 zamiast 6 (n - 1), co daje wariancję 8,7 (zamiast 7,25) i przykładowe odchylenie standardowe 2,95 cala, zamiast 2,69 cala dla pierwotnego odchylenia standardowego. Ta zmiana służy do znalezienia marginesu błędu w próbce (w tym przypadku 9%).

Bibliografia

  • Prosty przykład obliczenia odchylenia standardowego - AppSpot
  • Standardowe wzory odchyleń - Math is Fun
  • Absolutne odchylenie i wariancja - Statystyka Laerda
  • Odchylenie standardowe i wariancja - Math is Fun
  • Wikipedia: odchylenie standardowe
  • Wikipedia: Variance # Properties
  • Zasięg, wariancja i odchylenie standardowe jako miary dyspersji - Khan academy
  • Tryby, mediany i środki: perspektywa jednocząca