Zarówno korelacja, jak i regresja są narzędziami statystycznymi, które zajmują się dwiema lub większą liczbą zmiennych. Chociaż oba dotyczą tego samego przedmiotu, istnieją między nimi różnice. Różnice między nimi wyjaśniono poniżej.
Termin korelacja w odniesieniu do dwóch lub więcej zmiennych oznacza, że zmienne są w jakiś sposób powiązane. Analiza korelacji określa, czy istnieje związek między dwiema zmiennymi, a także siłę związku. Jeśli dwie zmienne x (niezależne) i y (zależne) są tak powiązane, że towarzyszy im zmiana wielkości zmiennej niezależnej, przez zmianę wielkości zmiennej zależnej, wówczas mówi się, że dwie zmienne są skorelowane.
Korelacja może być liniowa lub nieliniowa. Korelacja liniowa to taka, w której zmienne są tak powiązane, że zmiana wartości jednej zmiennej spowodowałaby konsekwentną zmianę wartości innej zmiennej. W korelacji liniowej rozproszone punkty związane z odpowiednimi wartościami zmiennych zależnych i niezależnych gromadziłyby się wokół nie poziomej linii prostej, chociaż pozioma linia prosta wskazywałaby również liniową zależność między zmiennymi, gdyby linia prosta mogła połączyć punkty reprezentujące zmienne.
Z drugiej strony analiza regresji wykorzystuje istniejące dane do ustalenia matematycznej zależności między zmiennymi, która może być wykorzystana do ustalenia wartości zmiennej zależnej w odniesieniu do dowolnej wartości zmiennej niezależnej.
Korelacja dotyczy pomiaru siły asocjacji lub intensywności relacji, w przypadku gdy regresja dotyczy przewidywania wartości zmiennej zależnej w stosunku do znanej wartości zmiennej niezależnej. Można to wyjaśnić za pomocą następujących wzorów.
Współczynnik korelacji lub korelację współczynnika (r) między x i y można ustalić za pomocą następującego wzoru;
r = kowariancja (x, y) /σx.σy, cov (x, y) = Σxy / n - (Σx / n) (Σy / n), σx i σy są standardowymi odchyleniami odpowiednio x i y, i - 1 < r 0, then correlation coefficient between x and y = correlation coefficient between u and v.
Współczynnik korelacji r jest liczbą czystą i niezależną od jednostki miary. Zatem jeśli x to wzrost (cale), a y to waga (funty) osób z określonego regionu, to r nie jest ani w calach, ani w funtach, ale po prostu liczba.
Równanie regresji można znaleźć za pomocą następującego wzoru;
Równanie regresji y na x (aby oszacować y) to y - y '= byx (x-x‾), byx nazywa się współczynnikiem regresji y na x. Równanie regresji x na y (aby znaleźć oszacowanie x) to x - x '= bxy (y-y‾), bxy nazywa się współczynnikiem regresji x na y.
Analiza korelacji nie zakłada zależności żadnej zmiennej od innej zmiennej, ani nie próbuje znaleźć związku między nimi. Po prostu szacuje stopień powiązania między zmiennymi. Innymi słowy, analiza korelacji testuje współzależność zmiennych. Z drugiej strony analiza regresji opisuje zależność zmiennej zależnej lub zmiennej odpowiedzi od zmiennej niezależnej lub objaśniającej. Analiza regresji zakłada, że istnieje jednokierunkowy związek przyczynowy między zmiennymi objaśniającymi a zmiennymi odpowiedzi, i nie bierze pod uwagę, czy ten związek przyczynowy jest dodatni czy ujemny. Do korelacji zarówno wartości zmiennych zależnych, jak i niezależnych są losowe, ale w przypadku regresji wartości zmiennych niezależnych nie muszą być losowe.
1. Analiza korelacji jest testem współzależności między dwiema zmiennymi. Analiza regresji daje wzór matematyczny do określenia wartości zmiennej zależnej w odniesieniu do wartości zmiennej niezależnej / s.
2. Współczynnik korelacji jest niezależny od wyboru źródła i skali, ale współczynnik regresji tak nie jest.
Dla korelacji wartości obu zmiennych muszą być losowe, ale nie jest tak w przypadku współczynnika regresji.
1. Das, N. G., (1998), Statistics Methods, Calcutta
2. Korelacja i regresja, dostępne na stronie www.le.ac.uk/bl/gat/virtualfc/stats/regression
3. Regresja i korelacja, dostępne na stronie www.abyss.uoregon.edu