Nierówność Schwarza a statystyka, część II

Dziś pokażę, jak stosując nierówność Schwarza można w statystyce badać współzależność dwóch cech.

Rozpocznę od ustalenia oznaczeń. Przypuśćmy, że mamy $n$-elementową próbę, w której badamy dwie cechy umownie nazwane $X,Y$. Obserwacje cechy $X$ oznaczymy ciągiem $x_1,x_2,\dots,x_n$, analogicznie z obserwacjami cechy $Y$. Średnia arytmetyczna cechy $X$ to
\[
\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i\,,
\]
a wariancją tej cechy jest
\[
s_X^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2\,.
\]
Kowariancją cech $X,Y$ nazywamy wielkość
\[
\cov(X,Y)=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\,.
\]
Odchylenie standardowe jest pierwiastkiem z wariancji: $s_X=\sqrt{s_X^2}$. Oczywiście odpowiednie wielkości dla cechy $Y$ wyznaczamy według analogicznych wzorów.

Wprowadzamy teraz nowe ciągi liczb: $x_1-\bar{x},x_2-\bar{x},\dots,x_n-\bar{x}$ oraz  $y_1-\bar{y},y_2-\bar{y},\dots,y_n-\bar{y}$. Zastosujmy do nich nierówność Schwarza:
\[
\left|\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\right|\leqslant\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\cdot\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}
\]
Załóżmy, że nie wszystkie wartości cechy $X$ są takie same oraz nie wszystkie wartości cechy $Y$ są takie same. Wtedy żaden z czynników po prawej stronie nie zeruje się, dlatego (po uwzględnieniu własności nierówności modułowych)
\[
-1\leqslant\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\cdot\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}\leqslant 1\,.
\]
Jeśli licznik i mianownik podzielimy przez $n$, otrzymamy
\[
-1\leqslant\frac{\cov(X,Y)}{s_X\cdot s_Y}\leqslant 1\,.
\]
Powyższą liczbę oznaczamy przez $r_{XY}$ i nazywamy współczynnikiem korelacji liniowej Pearsona. Dlaczego korelacji liniowej? Przypuśćmy bowiem, że $|r_{XY}|=1$. Wtedy, jak łatwo się przekonać, w nierówności Schwarza zachodzi równość, a więc wektory $(x_1-\bar{x},x_2-\bar{x},\dots,x_n-\bar{x})$ oraz $(y_1-\bar{y},y_2-\bar{y},\dots,y_n-\bar{y})$ są proporcjonalne: istnieje liczba $\alpha\in\mathbb{R}$ taka, że $y_i-\bar{y}=\alpha(x_i-\bar{x})$ dla $i=1,2,\dots,n$. Zapiszmy to krótko: $Y-\bar{y}=\alpha(X-\bar{x})$, czyli
\[
Y=\alpha X+\beta\,,\quad\text{gdzie }\beta=\bar{y}-\alpha\bar{x}\,,
\]
co oznacza, że cechy $X,Y$ są zależne liniowo. Jeśli $r_{XY}=-1$, to $\alpha<0$ i $Y$ jest funkcją malejącą, a jeśli $r_{XY}=1$, to $\alpha>0$ i $Y$ jest funkcją rosnącą. Z drugiej strony, jeśli $r_{XY}=0$, to $\cov(X,Y)=0$ i cechy $X,Y$ są niezależne. Dlatego im liczba $|r_{XY}|$ bliższa jedynce, tym stopień skorelowania cech $X,Y$ jest większy. W drugą stronę, im liczba $|r_{XY}|$ bliższa zeru, tym mniej skorelowane są obie cechy.

Widzimy więc, że wiedza podawana przez podręczniki statystyki ma uzasadnienie matematyczne.

Dodaj komentarz