Różnica między T-TEST a ANOVA

T-TEST vs. ANOVA

Gromadzenie i obliczanie danych statystycznych w celu uzyskania średniej jest często długim i żmudnym procesem. Test t i jednokierunkowa analiza wariancji (ANOVA) to dwa najczęściej stosowane testy do tego celu.

Test t jest statystycznym testem hipotez, w którym statystyka testu podąża za rozkładem t Studenta, jeśli poparta jest hipoteza zerowa. Ten test jest stosowany, gdy statystyka testowa ma rozkład normalny i znana jest wartość składnika skalującego w statystyce testowej. Jeśli termin skalowania jest nieznany, zastępuje się go oszacowaniem opartym na dostępnych danych. Statystyka testowa będzie podążać za rozkładem t Studenta.

William Sealy Gosset wprowadził statystykę t w 1908 roku. Gosset był chemikiem w browarze Guinness w Dublinie w Irlandii. Browar Guinness miał politykę rekrutacji najlepszych absolwentów z Oksfordu i Cambridge, wybierając spośród tych, którzy mogliby dostarczać zastosowania biochemii i statystyki do ustalonych procesów przemysłowych firmy. William Sealy Gosset był jednym z takich absolwentów. W tym procesie William Sealy Gosset opracował test t, który pierwotnie miał być sposobem monitorowania jakości stouta (ciemnego piwa produkowanego przez browar) w opłacalny sposób. Gosset opublikował test pod pseudonimem „Student” w Biometrika, około 1908 r. Powodem tego pisma było naleganie Guinnessa, ponieważ firma chciała zachować politykę dotyczącą wykorzystywania statystyk jako części „tajemnic handlowych”.

Statystyka testu T ogólnie ma postać T = Z / s, gdzie Z i s są funkcjami danych. Zmienna Z została zaprojektowana w taki sposób, aby była wrażliwa na alternatywną hipotezę; w rzeczywistości wielkość zmiennej Z jest większa, gdy hipoteza alternatywna jest prawdziwa. W międzyczasie „s” jest parametrem skalowania, umożliwiającym określenie rozkładu T. Założenia leżące u podstaw testu t są takie, że a) Z przyjmuje standardowy rozkład normalny w oparciu o hipotezę zerową; b) ps2 ma rozkład Ï ‡ 2 z p stopniami swobody zgodnie z hipotezą zerową (gdzie p jest stałą dodatnią); oraz c) wartość Z i wartość s są niezależne. W konkretnym typie testu t warunki te są konsekwencjami badanej populacji, a także sposobem próbkowania danych.

Z drugiej strony analiza wariancji (ANOVA) jest zbiorem modeli statystycznych. Podczas gdy zasady ANOVA były stosowane przez naukowców i statystów przez długi czas, dopiero w 1918 r. Sir Ronald Fisher zaproponował sformalizowanie analizy wariancji w artykule zatytułowanym „Korelacja między krewnymi a przypuszczeniem dziedziczenia Mendla” . Od tego czasu ANOVA została poszerzona o zakres i zastosowanie. ANOVA jest w rzeczywistości mylącym, ponieważ nie wynika z różnic wariancji, ale raczej z różnic między średnimi grup. Obejmuje powiązane procedury, w których zaobserwowana wariancja w określonej zmiennej jest podzielona na komponenty przypisane do różnych źródeł zmienności.

Zasadniczo ANOVA zapewnia test statystyczny w celu ustalenia, czy średnie z kilku grup są równe, i w rezultacie uogólnia test t na więcej niż dwie grupy. ANOVA może być bardziej przydatna niż test t dla dwóch próbek, ponieważ ma mniejsze szanse na popełnienie błędu typu I. Na przykład posiadanie wielu podwójnych testów t miałoby większą szansę na popełnienie błędu niż ANOVA tych samych zmiennych zaangażowanych w celu uzyskania średniej. Model jest taki sam, a statystyką testową jest współczynnik F. Mówiąc prościej, testy t są tylko szczególnym przypadkiem ANOVA: wykonanie ANOVA będzie miało taki sam wynik z wielu testów t. Istnieją trzy klasy modeli ANOVA: a) modele o ustalonych efektach, które zakładają, że dane pochodzą z normalnych populacji, różniących się jedynie pod względem środków; b) Modele efektów losowych, które zakładają, że dane opisują hierarchię różnych populacji, których różnice są ograniczone przez hierarchię; oraz c) Modele z efektami mieszanymi, które są sytuacjami, w których występują zarówno efekty stałe, jak i losowe.

Streszczenie:

  1.  Test t stosuje się przy ustalaniu, czy dwie średnie lub średnie są takie same, czy różne. ANOVA jest preferowana przy porównywaniu trzech lub więcej średnich lub średnich.
  2.  Test t ma większe szanse na popełnienie błędu, im więcej środków jest używanych, dlatego ANOVA jest używana przy porównywaniu dwóch lub więcej średnich.