Przejdź do treści

Zakamarki wypukłości, część 9

Już od dłuższego czasu nie było na blogu ,,twardej” matematyki. Wracając do prezentacji mniej znanych twierdzeń chciałbym przybliżyć pewien fakt, który pozwala na uzyskiwanie w prosty i jednolity sposób znanych (ale i nowych) nierówności związanych z funkcjami wypukłymi. Mowa o Lemacie Ohlina. Zapraszam do lektury.

Funkcja wypukła

Do zrozumienia dzisiejszego artykułu potrzeba podstawowej wiedzy z rachunku prawdopodobieństwa w zakresie zmiennych losowych: rozkład, dystrybuanta, wartość oczekiwana, funkcje zmiennych losowych. Te rzeczy są dostępne nie tylko studentom matematyki. Zdolniejsi studenci mojej uczelni, dla których miałem wykład Statystyka i probabilistyka też będą w stanie śledzić poniższe wywody. Może więc nie ograniczam zbytnio grona czytelników tego wpisu.

Wspomniane na wstępie twierdzenie zostało opublikowane w roku 1969 w pracy szwedzkiego autora Jana Ohlina. Ukazała się ona w czasopiśmie aktuarialnym ASTIN Bulletin: The Journal of the International Actuarial Association (nr 5, str. 249–266). Chyba z tego powodu wynik długo nie był znany matematykom zajmującym się funkcjami wypukłymi. Prezentuję go w nieco zmodyfikowanej formie.

Twierdzenie (Lemat Ohlina). Niech $\I\subset\RR$ będzie przedziałem, a $X,Y$ będą całkowalnymi zmiennymi losowymi (tzn. mającymi wartości oczekiwane) o wartościach w $\I$. Załóżmy, że spełnione są dwa warunki:

  1. $\mathbb{E}\,X=\mathbb{E}\,Y$ (tzn. wartości oczekiwane zmiennych losowych $X,Y$ są równe);
  2. Dystrybuanty $F_X,F_Y$ zmiennych losowych $X,Y$ przecinają się dokładnie raz, tzn. istnieje $t_0\in\I$ takie, że
    \begin{align*}
    F_X(t)&\xle F_Y(t)&\text{dla }t\in\I,\;\;t<t_0,\\
    F_X(t)&\xge F_Y(t)&\text{dla }t\in\I,\;\;t>t_0.\\
    \end{align*}(nie ma znaczenia, co dzieje się w samym punkcie $t_0$).

Wtedy dla każdej ciągłej funkcji wypukłej $f:\I\to\RR$ zachodzi nierówność
\[
\mathbb{E}\,f(X)\xle\mathbb{E}\,f(Y)\,.
\]
Przypomnę, że dystrybuanta zmiennej losowej $X$ określana jest jako funkcja $F_X:\RR\to[0,1]$ taka, że $F_X(t)=P(X<t)$.

Pokażę teraz, że lemat Ohlina można zastosować do dowodzenia nierówności związanych z funkcjami wypukłymi. Ta idea nie jest moim dziełem. Należy do dr hab. Teresy Rajby z mojej uczelni. Teresa napisała na ten temat serię prac naukowych.

Nierówność Jensena

Co prawda jest to nierówność definiująca wypukłość funkcji ciągłej, ale dysponując innym równoważnym warunkiem wypukłości (np. monotonicznością ilorazów różnicowych), można ją udowodnić jako twierdzenie. Przypomnę, że jeśli funkcja $f:\I\to\RR$ jest wypukła, to spełnia nierówność Jensena:
\[
f\Bigl(\frac{x+y}{2}\Bigr)\xle\frac{f(x)+f(y)}{2}
\]dla wszystkich $x,y\in\I$.

Dla dowodu angażującego lemat Ohlina należy rozważyć odpowiednie zmienne losowe. Tak naprawdę nie precyzujemy przestrzeni probabilistycznych, na których będą one określone, a operujemy rozkładami, czyli miarami Borela na prostej rzeczywistej o pewnych szczególnych własnościach.

Przede wszystkim ustalmy $x,y\in\I$. Jeśli $x=y$, to nie ma czego dowodzić. Można też (ze względu na symetrię nierówności Jensena) założyć, że $x<y$. Niech więc $X$ będzie zmienną losową o rozkładzie $\delta_{\frac{x+y}{2}}$, tj. zmienną losową przyjmującą wartość $\frac{x+y}{2}$ z prawdopodobieństwem $1$. Nie jest to zbyt skomplikowana zmienna. To mniej więcej tak, gdyby rzucać monetą z dwoma orłami, a za wyrzucenie orła wygrywać $\frac{x+y}{2}$ zł. Sam symbol $\delta_a$ oznacza tzw. deltę Diraca i w zależności od kontekstu przyjmuje różne znaczenia. Może opowiem o nich w innym artykule, aby zbytnio nie odchodzić od zasadniczego tematu. Dlatego teraz rozważymy zmienną losową $Y$ o rozkładzie $\frac{\delta_x+\delta_y}{2}$, tj. przyjmującą każdą z wartości $x,y$ z prawdopodobieństwami $\frac{1}{2}$. Jest to tzw. rozkład dwupunktowy skupiony w punktach $x,y$ z parametrem $\frac{1}{2}$.

Zauważmy, że wartości oczekiwane obu zmiennych są równe $\frac{x+y}{2}$. Istotnie,
\begin{align*}
\mathbb{E}\,X&=\frac{x+y}{2}\cdot 1=\frac{x+y}{2}\,,\\[1ex]
\mathbb{E}\,Y&=x\cdot\frac{1}{2}+y\cdot\frac{1}{2}=\frac{x+y}{2}\,.
\end{align*}Pierwsze założenie lematu Ohlina jest więc spełnione. Zajmijmy się sprawdzeniem drugiego. Posługując się definicją dystrybuanty zmiennej losowej szybko wyznaczamy
\[
F_X(t)=\begin{cases}0&\text{dla }t\xle\frac{x+y}{2}\\1&\text{dla }t>\frac{x+y}{2}\,.\end{cases}
\]oraz
\[
F_Y(t)=\begin{cases}0&\text{dla }t\xle x\,,\\\frac{1}{2}&\text{dla }x<t\xle y\,,\\1&\text{dla }t>y\,.\end{cases}
\]Spójrzmy na rysunek.

Nierówność Jensena

Jak widać, wykresy dystrybuant $F_X,F_Y$ przecinają się dokładnie raz (w punkcie $t_0=\frac{x+y}{2}$) w sposób opisany w drugim założeniu. Na mocy Lematu Ohlina dla każdej ciągłej funkcji wypukłej $f:\I\to\RR$ zachodzi nierówność
\[
\mathbb{E}\,f(X)\xle\mathbb{E}\,f(Y)\,.
\]Zauważmy, że zmienna losowa $f(X)$ przyjmuje wartość $f\bigl(\frac{x+y}{2}\bigr)$ z prawdopodobieństwem $1$; a zmienna losowa $f(Y)$ ma rozkład dwupunktowy skupiony w punktach $f(x),f(y)$ z parametrem $\frac{1}{2}$. Dlatego
\begin{align*}
\mathbb{E}\,f(X)&=f\Bigl(\frac{x+y}{2}\Bigr)\,,\\[1ex]
\mathbb{E}\,f(Y)&=\frac{f(x)+f(y)}{2}\,,
\end{align*}co kończy dowód nierówności Jensena z użyciem Lematu Ohlina.

Nierówność Hermite’a–Hadamarda

Ta nierówność jest jedną z ważniejszych w teorii funkcji wypukłych. Mówi, że jeśli funkcja $f:\I\to\RR$ jest ciągła i wypukła, to
\[
f\Bigl(\frac{x+y}{2}\Bigr)\xle\frac{1}{y-x}\int\limits_x^y f(t)\,\dd t\xle\frac{f(x)+f(y)}{2}
\]dla wszystkich $x,y\in\I$ takich, że $x<y$ (to ze względu na symetrię).

Z pomocą Lematu Ohlina udowodnimy pierwszą nierówność. Niech $X$ będzie taką samą zmienną losową, jak w poprzednim punkcie, tj. jej rozkładem będzie $\delta_{\frac{x+y}{2}}$. Natomiast $Y$ będzie zmienną losową o rozkładzie jednostajnym na przedziale $[x,y]$ (gdzie $x<y$ są ustalonymi punktami przedziału $I$). Wtedy $\mathbb{E}\,X=\mathbb{E}\,Y=\frac{x+y}{2}$, a dystrybuanty znów przecinają się dokładnie raz (w punkcie $t_0=\frac{x+y}{2}$, w sposób opisany w drugim założeniu Lematu Ohlina), co widać na poniższym rysunku.

Nierówność Jensena

Niech $f:\I\to\RR$ będzie wypukłą funkcją ciągłą. Ponieważ \[\mathbb{E}\,f(X)=f\Bigl(\frac{x+y}{2}\Bigr)\quad\text{oraz}\quad \mathbb{E}\,f(Y)=\frac{1}{y-x}\int\limits_x^y f(t)\,\dd t\,,\]to zastosowanie Lematu Ohlina kończy dowód pierwszej nierówności. Czytelnik będzie uprzejmy samodzielnie udowodnić drugą nierówność rozważając odpowiednie rozkłady zmiennych losowych.

Nierówność związana z wypukłością w sensie Wrighta

Kolejna nierówność, którą spełniają ciągłe funkcje wypukłe. Jeśli $x,y,s,t\in\I$, $x<s<t<y$ oraz $\lambda\in[0,1]$ spełniają warunek
\[
\lambda x+(1-\lambda)y=\lambda s+(1-\lambda)t\,,
\]to
\[
\lambda f(s)+(1-\lambda)f(t)\xle \lambda f(x)+(1-\lambda)f(y)
\]dla każdej ciągłej funkcji wypukłej $f:\I\to\RR$.

Dla zastosowania Lematu Ohlina rozważmy zmienne losowe $X$ o rozkładzie $\lambda\delta_s+(1-\lambda)\delta_t$ oraz  $Y$ o rozkładzie $\lambda\delta_x+(1-\lambda)\delta_y$. Mamy
\[
\mathbb{E}\,X=\lambda s+(1-\lambda)t=\lambda x+(1-\lambda)y=\mathbb{E}\,Y\,.
\]Znów dystrybuanty obu zmiennych losowych przecinają się dokładnie raz (w sposób opisany w drugim założeniu Lematu Ohlina).

Nierówność Jensena

Oczywiście tego rodzaju rysunków można wykonać nieskończenie wiele, ale w jednym tylko przypadku spełnione jest pierwsze założenie Lematu Ohlina, czyli równość wartości oczekiwanych. Widać tu także i to, że punkt $t_0$, w którym przecinają się obie dystrybuanty, nie musi być określony jednoznacznie. W omawianym przypadku można przyjąć dowolne $t_0\in[s,t]$.

Niech $f:\I\to\RR$ będzie ciągłą funkcją wypukłą. Skoro
\begin{align*}
\mathbb{E}\,f(X)&=\lambda f(s)+(1-\lambda)f(t)\,,\\
\mathbb{E}\,f(Y)&=\lambda f(x)+(1-\lambda)f(y)\,,
\end{align*}to na mocy Lematu Ohlina zachodzi omawiana w tym punkcie nierówność.

Kilka słów o tytule tego paragrafu. Jeśli $\lambda=\frac{1}{2}$, to nasza nierówność przybiera postać
\[
f(s)+f(t)\xle f(x)+f(y)\,,
\]o ile $x,y,s,t\in\I$, $x<s<t<y$ oraz $x+y=s+t$. Spełnia ją każda funkcja wypukła (nie tylko ciągła, o czym poniżej). Natomiast zakładając tę nierówność, nie otrzymamy w tezie, że funkcja $f$ jest wypukła. Klasa funkcji ją spełniających jest znacznie szersza. Są to tzw. funkcje wypukłe w sensie Wrighta i jak pokazał w roku 1987 kanadyjski matematyk chińskiego pochodzenia C.T. Ng, są one sumami funkcji addytywnych i ciągłych funkcji wypukłych. W szczególności każda funkcja addytywna jest wypukła w sensie Wrighta. Istnieją jednak nieciągłe funkcje addytywne $a:\RR\to\RR$. Mają one wykresy gęste na płaszczyźnie, więc nie mogą być wypukłe. To jednak temat na osobny artykuł.

Czy założenie ciągłości jest konieczne?

Każda funkcja wypukła $f:\I\to\RR$ jest ciągła we wnętrzu przedziału $\I$. Nieciągłości (typu skok) mogą pojawić się jedynie w punktach końcowych tego przedziału. Okazuje się jednak, że każdą funkcję wypukłą (nie tylko ciągłą) można jednostajnie aproksymować łamanymi będącymi wykresami funkcji wypukłych. Dla takich szczególnych funkcji omawiane nierówności można łatwo sprawdzić. Wskutek tej aproksymacji założenie ciągłości funkcji można w nich pominąć.

Coś na deser

Proszę spróbować zastosować Lemat Ohlina w dowodzie nierówności Popoviciu: jeśli $f:\I\to\RR$ jest ciągłą funkcją wypukłą, to
\[
\frac{2}{3}\biggl[f\Bigl(\frac{x+y}{2}\Bigr)+f\Bigl(\frac{y+z}{2}\Bigr)+f\Bigl(\frac{x+z}{2}\Bigr)\biggr]\xle\frac{f(x)+f(y)+f(z)}{3}+f\Bigl(\frac{x+y+z}{3}\Bigr)\,.
\]dla wszystkich $x,y,z\in\I$.

2 komentarze do “Zakamarki wypukłości, część 9”

    1. Zrozumiesz wcześniej. Jeśli piszę, że pojmą to zdolniejsi studenci Automatyki i Robotyki, z którymi miałem wykład ,,Statystyka i probabilistyka”, pojmiesz i Ty. 🙂

Napisz komentarz