Градиентно спускане

Шаблон:Повече източници

Градиентно спускане (на английски: Gradient Descent) е метод (алгоритъм) за намиране на локален минимум на диференцируема функция.

Идеята е чрез итеративен подход да се намери най-ниските стойности на функция, като се правят постепенни стъпки в посока обратна на градиента. Обратното на градиентно спускане е градиентно изкачване, което има за цел да намери локален максимум, чрез стъпване в посока на градиента. Метода на градиентното спускане е широко използван в машинното обучение, за минимизиране на функцията на загубата.

Има три вида алгоритъма за обучение на невронни мрежи чрез градиентно спускане. Те са batch gradient descent, mini-batch gradient descent и стохастично градиентно спускане, който е е в основата на тренирането на повечето невронни мрежи в днешно време.

Описание

Градиентното спускане се базира на наблюдението, че ако функцията с множество променливи $f (x)$ : $D_{f} \to ℝ$ е диференцируема в околност $U_{δ} (a) \in D_{f}$ , то $f$ намалява най-бързо ако се премине от $a$ в посока на отрицателния градиент $- \nabla f (a)$ . Всяка следваща стъпка се изчислява според формулата $a_{n + 1} = a_{n} - η \nabla * f (a_{n})$ . От нея следва, че за достатъчно малка скорост на обучение $η \in ℝ_{+}$ , имаме $f (a_{n}) \geq f (a_{n + 1})$ . Изваждаме градиента $- \nabla f (a)$ , защото искаме да движим срещу него и към локалния минимум.

Имайки предвид това, при прилагане на метода се започва от предположение $x_{0}$ за локален минимум от $f$ и се разглежда последователността $x_{0}, x_{1}, x_{2} ... x_{n}$ , такава, че $x_{n + 1} = x_{n} - η \nabla x_{n}, n \geq 0$ . Стойността на размера на стъпката $η$ може да се променя след всяка итерация. Получава се монотонна редица $f (x_{0}) \geq f (x_{1}) \geq (f (x_{2})) ... \geq f (x_{n})$ . Накрая редицата трябва да е сходяща и да се доближава до желания локален минимум.

Пример за градиентно спускане в реалния свят

Градиентното спускане може да бъде илюстрирано чрез конкретен сценарий. Да си представим, че човек се намира високо в планината и иска да слезе (т.е. да намери локалния минимум). Пред него, обаче има гъста мъгла и видимостта е изключително намалена. Пътеката за слизане не се вижда, така че той е принуден да използва само информацията от стръмността на наклона. Логично е този човек да следва местата с най-голям наклон надолу за да слезе възможно най-бързо. Така след като изпробва няколко посоки, той накрая ще успее или да слезе от планината или да заседне в някоя дупка (т.е. локален минимум или седлова точка).

В този пример, човекът представлява алгоритъма, а пътят поет надолу по планината, последователността от точки $x_{0}, x_{1}, x_{2} ... x_{n},$ които човекът ще изследва. Стръмността на пътят представлява производната на функцията $f$ в точка $x_{n}$ . Пътят по който се движи е в съответствие с отрицателния градиент на $f$ в т. $x_{n}$ . Времето в което пътува преди отново да се съобрази с наклона на пътя е размерът на стъпката..

Литература

J. W. Neuberger (2009). Sobolev gradients and differential equations

Източници

Шаблон:Commonscat

Градиентно спускане

Съдържание

Описание

Пример за градиентно спускане в реалния свят

Литература

Източници

Навигация

Градиентно спускане

Описание

Пример за градиентно спускане в реалния свят

Литература

Източници

Навигация

Търсене