Movatterモバイル変換

ReLU

Z Wikipedii, wolnej encyklopedii

Funkcja ReLU, prostowana jednostka liniowa^[1] (ang.rectified linear unit),jednostronnie obcięta funkcja liniowa –funkcja aktywacji zdefiniowana jako nieujemna część jej argumentu^[2]^[3]:

\operatorname {ReLU} (x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}=\left\{{\begin{matrix}0&{\text{dla}}&x<0\\x&{\text{dla}}&x\geqslant 0\end{matrix}}\right.

ReLU jest jedną z najpopularniejszych funkcji aktywacji sztucznych sieci neuronowych^[4] i znajduje zastosowanie wkomputerowym widzeniu^[5] przy użyciugłębokich sieci neuronowych^[6]^[7]^[8].

Zalety

[edytuj |edytuj kod]

Do zalet funkcji ReLU należą:

Rzadka aktywacja: w sieci z losowo zainicjowanymi wagami tylko około 50% neuronów w warstwach ukrytych jest aktywowanych (tzn. ma niezerową wartość wyjściową)^[9].
Lepsza propagacja gradientu: mniejsze ryzyko wystąpienia problemuzanikającego gradientu w porównaniu zsigmoidalnymi funkcjami aktywacji, które nasycają się w obu kierunkach^[5]^[9].
Wydajność obliczeniowa^[10]: funkcja jest bardzo prosta obliczeniowo – wymaga jedynie porównania z zerem i operacji dodawania.
Niezmienność ze względu na skalę (jednorodność)^[11]:

\max(0,ax)=a\max(0,x){\text{ dla }}a\geqslant 0

Potencjalne problemy

[edytuj |edytuj kod]

Możliwe wady funkcji ReLU to między innymi:

Nieróżniczkowalność w zerze: funkcja jest różniczkowalna w każdym innym punkcie, jednak w punkcie $x=0$ jej pochodna jest niezdefiniowana^[12]. W praktyce można umownie przyjąć, że pochodna w tym punkcie wynosi 0 lub 1.
Wyjście nie jest skoncentrowane wokół zera: wyjścia ReLU są zawsze nieujemne. Może to utrudnić sieci uczenie się podczas propagacji wstecznej, ponieważ aktualizacje gradientu mają tendencję do przesuwania wag w jednym kierunku (dodatnim lub ujemnym)^[13]. Problem ten można częściowo rozwiązać za pomocą normalizacji wsadowej^[14].
Funkcja jest nieograniczona z góry: wartości ReLU mogą rosnąć bez ograniczeń, co w niektórych przypadkach może prowadzić do problemów, takich jak eksplodujący gradient^[14].
Nadmiarowość parametryzacji: z powodu niezmienności ze względu na skalę, sieć neuronowa może uzyskać identyczną funkcję wyjściową poprzez przeskalowanie wag i biasów przed aktywacją ReLU o czynnik $k {\displaystyle k}$ , a wag warstwy następnej o czynnik $1/k$ ^[15].
Problem „umierającego ReLU” (ang. „Dying ReLU”): neurony z aktywacją ReLU mogą zostać zepchnięte do stanów, w których stają się nieaktywne dla niemal wszystkich danych wejściowych^[16]. W tym stanie żadne gradienty nie przepływają wstecz przez neuron, więc utyka on w wiecznie nieaktywnym stanie („umiera”). Jest to forma problemu zanikającego gradientu. W niektórych przypadkach duża liczba neuronów w sieci może utknąć w martwym stanie, skutecznie zmniejszając pojemność modelu i potencjalnie nawet zatrzymując proces uczenia. Problem ten pojawia się zazwyczaj, gdy współczynnik uczenia jest zbyt wysoki. Można go złagodzić, stosując warianty takie jak „Leaky ReLU”, gdzie dla $x<0$ przypisuje się niewielkie dodatnie nachylenie. W zależności od zadania może to jednak wiązać się ze spadkiem ogólnej wydajności modelu.

Zobacz też

[edytuj |edytuj kod]

Funkcja softmax

Przypisy

[edytuj |edytuj kod]

↑AurélienA. Géron AurélienA.,Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow,KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020,ISBN 978-83-283-6002-0 [dostęp 2025-04-09] (pol.).
↑JasonJ. Brownlee JasonJ.,A Gentle Introduction to the Rectified Linear Unit (ReLU) [online], MachineLearningMastery.com, 8 stycznia 2019 [dostęp 2025-04-08] (ang.).
↑A Practical Guide to ReLU [online], medium.com (ang.).
↑PrajitP. Ramachandran PrajitP.,BarretB. Zoph BarretB.,Quoc V.Q.V. Le Quoc V.Q.V.,Searching for Activation Functions, arXiv, 27 października 2017,DOI: 10.48550/arXiv.1710.05941 [dostęp 2025-04-08] .
↑^a^bXavierX. Glorot XavierX.,AntoineA. Bordes AntoineA.,YoshuaY. Bengio YoshuaY.,Deep sparse rectifier neural networks [online], 2021 .
↑D.D. Hansel D.D.,C. vanC. Vreeswijk C. vanC.,How noise contributes to contrast invariance of orientation tuning in cat visual cortex, „The Journal of Neuroscience: The Official Journal of the Society for Neuroscience”, 22 (12),2002, s. 5118–5128,DOI: 10.1523/JNEUROSCI.22-12-05118.2002,ISSN 1529-2401,PMID: 12077207,PMCID: PMC6757721 [dostęp 2025-04-08] .
↑JonathanJ. Kadmon JonathanJ.,HaimH. Sompolinsky HaimH.,Transition to chaos in random neuronal networks, arXiv, 26 sierpnia 2015,DOI: 10.48550/arXiv.1508.06486 [dostęp 2025-04-08] .
↑RainerR. Engelken RainerR.,FredF. Wolf FredF.,L.F.L.F. Abbott L.F.L.F.,Lyapunov spectra of chaotic recurrent neural networks, arXiv, 3 czerwca 2020,DOI: 10.48550/arXiv.2006.02427 [dostęp 2025-04-08] .
↑^a^bXavierX. Glorot XavierX.,AntoineA. Bordes AntoineA.,YoshuaY. Bengio YoshuaY.,Deep Sparse Rectifier Neural Networks, JMLR Workshop and Conference Proceedings, 14 czerwca 2011, s. 315–323 [dostęp 2025-06-08] (ang.).
↑TomaszT. Szandała TomaszT.,Review and Comparison of Commonly Used Activation Functions for Deep Neural Networks, arXiv, 15 października 2020,DOI: 10.48550/arXiv.2010.09458 [dostęp 2025-06-08] .
↑VinodV. Nair VinodV.,Geoffrey E.G.E. Hinton Geoffrey E.G.E.,Rectified linear units improve restricted boltzmann machines, ICML'10, Madison, WI, USA: Omnipress, 21 czerwca 2010, s. 807–814,DOI: 10.5555/3104322.3104425,ISBN 978-1-60558-907-7 [dostęp 2025-06-08] .
↑The Multilinear Structure of ReLU Networks [online], ar5iv [dostęp 2025-06-08] (ang.).
↑YuanY. Zhou YuanY.,DandanD. Li DandanD.,ShuweiS. Huo ShuweiS.,Sun-YuanS.Y. Kung Sun-YuanS.Y.,Soft-Root-Sign Activation Function [online], arXiv.org, 1 marca 2020 [dostęp 2025-06-08] (ang.).
↑a^bSergeyS. Ioffe SergeyS.,ChristianCh. Szegedy ChristianCh.,Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, arXiv, 2 marca 2015,DOI: 10.48550/arXiv.1502.03167 [dostęp 2025-06-08] .
↑VijayV. Badrinarayanan VijayV.,BamdevB. Mishra BamdevB.,RobertoR. Cipolla RobertoR.,Understanding symmetries in deep networks [online], arXiv.org, 3 listopada 2015 [dostęp 2025-06-08] (ang.).
↑LuL. Lu LuL.,YeonjongY. Shin YeonjongY.,YanhuiY. Su YanhuiY.,George EmG.E. Karniadakis George EmG.E.,Dying ReLU and Initialization: Theory and Numerical Examples [online], arXiv.org, 15 marca 2019 [dostęp 2025-06-08] (ang.).

Sztuczna inteligencja

Główne cechy

Filozofia

Pojęcia

Zastosowania

Implementacje

Audio-wizualne

tekst-do-obrazu
tekst-do-wideo

Tekstowe

Decyzyjne

Architektury

Uczenie maszynowe ieksploracja danych

Paradygmaty	uczenie nadzorowane uczenie nienadzorowane uczenie przez wzmacnianie uczenie samonadzorowane
Zagadnienia	inferencja gramatyki inżynieria cech klasteryzacja klasyfikacja regresja redukcja wymiaru uczenie multimodalne uczenie (się) cech wykrywanie anomalii
Uczenie nadzorowane (Klasyfikacja,Regresja)	drzewa klasyfikacyjne uczenie zespołowe agregacja las losowy k najbliższych sąsiadów regresja liniowa naiwny klasyfikator bayesowski sieć neuronowa regresja logistyczna perceptron maszyna wektorów nośnych
Klasteryzacja	grupowanie hierarchiczne algorytm centroidów DBSCAN inferencja gramatyki
Redukcja wymiaru	analiza czynnikowa korelacja kanoniczna liniowa analiza dyskryminacyjna analiza głównych składowych
Sieć neuronowa	autoenkoder uczenie głębokie jednokierunkowa sieć neuronowa model dyfuzyjny rekurencyjna sieć neuronowa LSTM sieć generatywna GAN sieć Kohonena konwolucyjna sieć neuronowa transformer

Źródło: „https://pl.wikipedia.org/w/index.php?title=ReLU&oldid=76967707”

Kategorie:

Ukryte kategorie:

[8]ページ先頭