Tendencja centralna a dyspersja
W statystyce opisowej i wnioskowej kilka wskaźników służy do opisu zestawu danych odpowiadającego jego centralnej tendencji, dyspersji i skośności: trzy najważniejsze właściwości, które określają względny kształt rozkładu zbioru danych.
Co jest główną tendencją?
Tendencja centralna odnosi się do centrum rozkładu wartości i lokalizuje go. Średnia, tryb i mediana są najczęściej stosowanymi wskaźnikami opisującymi centralną tendencję zbioru danych. Jeśli zestaw danych jest symetryczny, zarówno mediana, jak i średnia zestawu danych pokrywają się.
Biorąc pod uwagę zestaw danych, średnią oblicza się, biorąc sumę wszystkich wartości danych, a następnie dzieląc ją przez liczbę danych. Na przykład, waga 10 osób (w kilogramach) mierzona jest jako 70, 62, 65, 72, 80, 70, 63, 72, 77 i 79. Wtedy średnia waga dziesięciu osób (w kilogramach) może być obliczone w następujący sposób. Suma wag wynosi 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Średnia = (suma) / (liczba danych) = 710/10 = 71 (w kilogramach). Rozumie się, że wartości odstające (punkty danych odbiegające od normalnego trendu) mają tendencję do wpływania na średnią. Zatem w obecności wartości odstających sam środek nie da prawidłowego obrazu o środku zbioru danych.
Mediana jest punktem danych znajdującym się dokładnie w środku zbioru danych. Jednym ze sposobów obliczenia mediany jest uporządkowanie punktów danych w porządku rosnącym, a następnie zlokalizowanie punktu danych na środku. Na przykład, jeśli raz zamówiony, poprzedni zestaw danych wygląda następująco: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Dlatego (70 + 72) / 2 = 71 jest na środku. Z tego wynika, że mediana nie musi znajdować się w zbiorze danych. Na wartości odstające nie ma wpływu na medianę. Dlatego mediana posłuży jako lepsza miara tendencji centralnej w obecności wartości odstających.
Tryb jest najczęściej występującą wartością w zbiorze danych. W poprzednim przykładzie wartości 70 i 72 występują dwa razy, a zatem oba są trybami. To pokazuje, że w niektórych dystrybucjach istnieje więcej niż jedna wartość modalna. Jeśli istnieje tylko jeden tryb, zbiór danych jest uważany za nieimodalny, w tym przypadku zbiór danych jest bimodalny.
Co to jest dyspersja?
Dyspersja to wielkość rozprzestrzeniania się danych o środku rozkładu. Zakres i odchylenie standardowe są najczęściej stosowanymi miarami dyspersji.
Zakres jest po prostu najwyższą wartością minus najniższa wartość. W poprzednim przykładzie najwyższa wartość wynosi 80, a najniższa wartość 62, więc zakres wynosi 80-62 = 18. Jednak zakres nie zapewnia wystarczającego obrazu dyspersji.
Aby obliczyć odchylenie standardowe, najpierw oblicza się odchylenia wartości danych od średniej. Średnia kwadratowa odchyleń nazywa się odchyleniem standardowym. W poprzednim przykładzie odpowiednie odchylenia od średniej wynoszą (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 i (79 - 71) = 8. Suma kwadraty odchylenia to (-1)2) + (-9)2) + (-6)2) + 12) + 92) + (-1)2) + (-8)2) + 12) + 62) + 82) = 366. Odchylenie standardowe wynosi √ (366/10) = 6,05 (w kilogramach). O ile zestaw danych nie jest znacznie wypaczony, z tego można wywnioskować, że większość danych znajduje się w przedziale 71 ± 6,05, a tak naprawdę jest w tym konkretnym przykładzie.
Jaka jest różnica między tendencją centralną a dyspersją? • Tendencja centralna odnosi się i lokalizuje środek rozkładu wartości • Dyspersja to wielkość rozprzestrzeniania się danych o środku zestawu danych.
|