W poprzednim odcinku cyklu pokazałem trzy definicje funkcji wypukłej. Dziś omówię znaczenie najogólniejszej z nich. Definicja ta, jak też samo pojęcie funkcji wypukłej i jej podstawowe własności, należy do szeroko pojętej kultury matematycznej. Zapraszam więc do lektury.
Niech $\I\subset\RR$ będzie przedziałem (dowolnej postaci). Funkcję $f:\I\to\RR$ nazywamy wypukłą, jeśli dla wszystkich $x_1,x_2\in\I$ oraz dla każdego $t\in[0,1]$ zachodzi nierówność\begin{equation*}f\bigl(tx_1+(1-t)x_2\bigr)\xle tf(x_1)+(1-t)f(x_2)\,.\tag{1}\label{w}\end{equation*}Czym jest argument $tx_1+(1-t)x_2$? Właśnie – argument. Skoro w nierówności \eqref{w} występuje wielkość $f\bigl(tx_1+(1-t)x_2\bigr)$, to powinno być $tx_1+(1-t)x_2\in\I$. Ale przecież tę liczbę można traktować jako średnią arytmetyczną ważoną liczb $x_1,x_2$, dlatego wiemy dużo więcej: element $tx_1+(1-t)x_2$ leży pomiędzy $x_1$ a $x_2$. Z drugiej strony, każdy punkt $x$ leżący pomiędzy $x_1$ a $x_2$, można zapisać w tej postaci, wystarczy przyjąć $t=\frac{x_2-x}{x_2-x_1}$ przy $x_2\ne x_1$.
A czym jest prawa strona nierówności \eqref{w}? Jeśli $x_1=x_2$, to nierówność ta mówi tylko, że $f(x_1)\xle f(x_1)$, czyli nie mówi zupełnie nic. Odtąd załóżmy więc, że $x_1\ne x_2$. Napiszmy równanie prostej przechodzącej przez punkty $\bigl(x_1,f(x_1)\bigr)$ oraz $\bigl(x_2,f(x_2)\bigr)$. Ma ono postać\[y=\frac{f(x_2)-f(x_1)}{x_2-x_1}(x-x_1)+f(x_1)\,,\] co łatwo sprawdzić, bo spełniają je oba powyższe punkty. Jeśli wstawimy tu $x=tx_1+(1-t)x_2$, to otrzymamy $y=tf(x_1)+(1-t)f(x_2)$ (proszę sprawdzić).
Nierówność \eqref{w} mówi więc, że punkt $\Bigl(tx_1+(1-t)x_2,f\bigl(tx_1+(1-t)x_2\bigr)\Bigr)$ znajdujący się na wykresie funkcji $f$ leży poniżej (dokładniej – nie leży powyżej) punktu $\bigl(tx_1+(1-t)x_2,tf(x_1)+(1-t)f(x_2)\bigr)$ położonego na powyższej prostej (siecznej). Ponieważ nierówność \eqref{w} postulowaliśmy dla dowolnych $x_1,x_2\in\I$ oraz dla dowolnego $t\in[0,1]$, to jej sens geometryczny jest taki, że dla dowolnych dwóch argumentów $x_1,x_2\in\I$ wykres funkcji wypukłej $f$ ograniczonej do przedziału o końcach $x_1,x_2$ leży poniżej (dokładniej – nie leży powyżej) siecznej wykresu funkcji $f$ przechodzącej przez punkty $\bigl(x_1,f(x_1)\bigr)$ oraz $\bigl(x_2,f(x_2)\bigr)$.
Jak powiedziałem w poprzednim odcinku, definicja funkcji wypukłej poprzez nierówność \eqref{w} nie wymaga żadnych założeń regularnościowych o funkcji $f$. Dla przykładu sprawdzę, że funkcja $f:\RR\to\RR$ określona wzorem $f(x)=\lvert x\rvert$ jest wypukła. Funkcja ta nie ma pochodnej w punkcie $0$, więc wymyka się pozostałym definicjom wypukłości.
Ponieważ prawdziwa jest nierówność trójkąta $\lvert a+b\rvert\xle \lvert a\rvert+\lvert b\rvert$ oraz zachodzi równość $\lvert ab\rvert=\lvert a\rvert\cdot\lvert b\rvert$, to\begin{multline*}f\bigl(tx_1+(1-t)x_2\bigr)=\bigl|tx_1+(1-t)x_2\bigr|\xle\\\xle t\lvert x_1\rvert+(1-t)\lvert x_2\rvert=tf(x_1)+(1-t)f(x_2)\end{multline*}dla wszystkich $x_1,x_2\in\RR$ oraz dla każdego $t\in[0,1]$. Dlatego funkcja $f$ spełnia nierówność \eqref{w}, a tym samym jest wypukła.
Niech teraz $f(x)=x^2$. Skoro $f^{\prime\prime}(x)=2\xge 0$, to $f$ jest funkcją wypukłą w $\RR$. Ale wypukłość można też sprawdzić stosując nierówność \eqref{w}. Istotnie, dla dowolnych $x_1,x_2\in\RR$ oraz $t\in[0,1]$ łatwo sprawdzić, że\[\bigl(tx_1+(1-t)x_2\bigr)^2-tx_1^2-(1-t)x_2^2=-2t(1-t)(x_1-x_2)^2\xle 0\,,\]a to oznacza spełnienie przez naszą funkcję nierówności \eqref{w}.
Funkcje wypukłe mają bezpośredni związek z wypukłymi podzbiorami płaszczyzny. O tym jednak opowie następny odcinek.
Znakomity wpis. Zresztą jak wszystkie. 🙂 Ciekawy i napisany przystępnym językiem. Ze zniecierpliwieniem czekam na kolejne wpisy o funkcjach wypukłych. 🙂 Mam cichą nadzieję, że zobaczę wpis o mojej ulubionej nierówności Jensena, nieodrodnie związanej z pojęciem wypukłości. 😀
Bieżący cykl adresuję do osób już obeznanych z matematyką, właśnie takich jak Ty, Mateuszu. Byłoby nietaktem, gdybym przemilczał tę nierówność. Ale o wypukłości można wykładać latami. Jak zapowiedziałem, następny wpis poświęcę zbiorom wypukłym i ich związkom z wypukłością funkcji. Może nierówność Jensena będzie następna w kolejce… To przecież podstawa w analizie różnych nierówności, w tym z kręgu zadań olimpijskich. A przecież (nie wątpię, że doskonale to wiesz) nierówność między średnimi arytmetyczną, geometryczną i harmoniczną (tzw. nierówność AGH) bezpośrednio wynika z nierówności Jensena.
Witam, ładny blog, lekkostrawne, dobrze czytające się wpisy. Warto byłoby poprawić francuskojęzyczne teksty Jensena z pierwszej części tego cyklu: akcenty musza się pojawić ( jako diakrytyki ) NAD literami, a nie jako apostrofy. ( Jestem native speakerem tego języka; dla mnie to baaardzo rażące…) . À propos parametrycznej charakteryzacji punktów odcinka $\overline{AB}$ z $A(x_1)$ i $B(x_2)$, tj. $tx_1 + (1-t)x_2$. Z punktu widzenia dydaktyki (sprawdziłem to po wielokroć jako korepetytor), lepiej jest wyjść z faktu, że punkt $C$ ( o współrzędnej $x$) należy do odcinka $\overline{AB}$ wtedy i tylko wtedy, gdy istnieje takie $t$ z przedziału $[0,1]$, że $\overrightarrow{AC} = t\cdot\overrightarrow{AB}$, co jest bardziej naturalne i przemawiające do wyobraźni, niż operowanie pojęciem średniej ważonej. Wtedy $t(x_2-x_1)=x-x_1$, skąd żądana charakteryzacja.
Bardzo dziękuję za ciepłe słowa pod adresem bloga oraz za konstruktywną krytykę. Akcenty (błąd powstał zapewne w wyniku wklejania tekstu bezpośrednio z pliku pdf) poprawiłem — proszę sprawdzić czy właściwie.
Co do koncepcji dydaktycznej, to każdy ma swoją, którą preferuje. W tej opisanej w komentarzu pobrzmiewają echa pięknej geometrii związanej ze stosunkiem podziału odcinka oraz twierdzeniem Talesa. Moja związana jest z praktycznym użyciem wypukłości w moich badaniach naukowych. Niech Czytelnik wybierze tę, która mu bardziej odpowiada.