Nierówność Schwarza a statystyka, część I

Dzisiejszy wpis otwiera cykl felietonów poświęcony zastosowaniu nierówności Schwarza w statystyce, zwłaszcza opisowej. Nierówność ta jest jedną z najbardziej podstawowych, a zarazem najważniejszych w analizie funkcjonalnej. Na początku przypomnę więc nieco teorii.

Niech $X$ będzie przestrzenią liniową nad ciałem liczb zespolonych $\mathbb{C}$. Funkcjonał dwóch zmiennych $\langle\cdot,\cdot\rangle:X\times X\to\mathbb{C}$ nazywamy iloczynem skalarnym, jeśli spełnione są warunki:

  1.  $\langle x+y,z\rangle=\langle x,z\rangle+\langle y,z\rangle$ dla wszystkich $x,y,z\in X$;
  2.  $\langle x,y\rangle=\overline{\langle y,x\rangle}$ dla wszystkich $x,y\in X$;
  3.  $\langle\lambda x,y\rangle = \lambda\langle x,y\rangle$ dla wszystkich $x\in X$ oraz $\lambda\in\mathbb{C}$;
  4.  $\langle x,x\rangle>0$ dla każdego $x\in X\setminus\{0\}$.

Przestrzeń liniową $X$ wyposażoną w iloczyn skalarny nazywamy przestrzenią unitarną (ang. inner product space). Zauważmy, że w przypadku, gdy $X$ jest przestrzenią rzeczywistą (ciałem skalarów jest $\mathbb{R}$), warunek 2 redukuje się do symetrii, tj. $\langle x,y\rangle=\langle y,x\rangle$ dla wszystkich $x,y\in X$.

W przestrzeni unitarnej iloczyn skalarny definiuje normę wzorem
\[
\|x\|=\sqrt{\langle x,x\rangle}\text{ dla każdego }x\in X.
\]
Nierówność Schwarza mówi, że w przestrzeni unitarnej $X$ (rzeczywistej bądź zespolonej) mamy
\[
|\langle x,y\rangle |\leqslant\|x\|\cdot\|y\|\text{ dla wszystkich }x,y\in X,
\]
a równość zachodzi wtedy i tylko wtedy, gdy $x,y$ są liniowo zależne, tj. $x=\lambda y$ dla pewnego skalara $\lambda$.

Dowód powyższego twierdzenia można znaleźć w każdym podręczniku analizy funkcjonalnej, a także w Wikipedii (pełniejszy artykuł znajduje się w wersji angielskojęzycznej). Dlatego ograniczę się jedynie do podania szkicu (w wersji zespolonej).

Wystarczy ograniczyć się tylko do przypadku, gdy $y\ne 0$. Oczywiście $\|x-\lambda y\|^2\geqslant 0$ dla każdego $\lambda\in\mathbb{C}$. Rozpisując tę nierówność według definicji normy i korzystając z własności iloczynu skalarnego dochodzimy do
\[
\|x\|^2-\lambda\langle y,x\rangle-\overline{\lambda}\langle x,y\rangle+|\lambda|^2\|y\|^2\geqslant 0,
\]
Wstawiając tu $\lambda=\dfrac{\langle x,y\rangle}{\|y\|^2}$ otrzymujemy nierówność Schwarza. Co więcej, jeśli zachodzi w niej równość, to stosując ten sam skalar $\lambda$ dochodzimy do równości $\|x-\lambda y\|=0$, co oznacza, że $x=\lambda y$.

W zastosowaniach statystycznych będziemy korzystać z nierówności Schwarza w rzeczywistej przestrzeni unitarnej $\mathbb{R}^n$. Iloczyn skalarny wektorów $x=(x_1,\dots,x_n),y=(y_1,\dots,y_n)\in\mathbb{R}^n$ określamy wzorem
\[
\langle x,y\rangle=\sum_{i=1}^n x_iy_i.
\]
Norma wektora $x$ ma więc wartość
\[
\|x\|=\sqrt{\langle x,x\rangle}=\sqrt{\sum_{i=1}^n x_i^2}.
\]
Sama nierówność Schwarza przyjmuje postać
\[
\left|\sum_{i=1}^n x_iy_i\right|\leqslant \sqrt{\sum_{i=1}^n x_i^2}\cdot \sqrt{\sum_{i=1}^n y_i^2}\,.
\]
W następnym odcinku opiszę, jak stosując nierówność Schwarza w powyższej postaci można badać liniową zależność dwóch cech.

2 komentarze

  1. Nierówność ta zachodzi nawet gdy warunek 4 osłabimy do

    4′. $\langle x,x\rangle \geqslant 0.$

    Nierówności Cauchy’ego–Schwarza w takiej ogólności używa się na przykład w teorii C*-algebr (dla zdegenerowanych iloczynów skalarnych pochodzących od stanów) oraz abstrakcyjnej teorii równań różniczkowych (oszacowania związane z użyciem twierdzenia Laxa–Milgrama).

Dodaj komentarz