Movatterモバイル変換


[0]ホーム

URL:


Przejdź do zawartości
Wikipediawolna encyklopedia
Szukaj

ReLU

Z Wikipedii, wolnej encyklopedii

Funkcja ReLU, prostowana jednostka liniowa[1] (ang.rectified linear unit),jednostronnie obcięta funkcja liniowafunkcja aktywacji zdefiniowana jako nieujemna część jej argumentu[2][3]:

ReLU(x)=x+=max(0,x)=x+|x|2={0dlax<0xdlax0{\displaystyle \operatorname {ReLU} (x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}=\left\{{\begin{matrix}0&{\text{dla}}&x<0\\x&{\text{dla}}&x\geqslant 0\end{matrix}}\right.}
Wykres ReLU w pobliżu x = 0

ReLU jest jedną z najpopularniejszych funkcji aktywacji sztucznych sieci neuronowych[4] i znajduje zastosowanie wkomputerowym widzeniu[5] przy użyciugłębokich sieci neuronowych[6][7][8].

Zalety

[edytuj |edytuj kod]

Do zalet funkcji ReLU należą:

  • Rzadka aktywacja: w sieci z losowo zainicjowanymi wagami tylko około 50% neuronów w warstwach ukrytych jest aktywowanych (tzn. ma niezerową wartość wyjściową)[9].
  • Lepsza propagacja gradientu: mniejsze ryzyko wystąpienia problemuzanikającego gradientu w porównaniu zsigmoidalnymi funkcjami aktywacji, które nasycają się w obu kierunkach[5][9].
  • Wydajność obliczeniowa[10]: funkcja jest bardzo prosta obliczeniowo – wymaga jedynie porównania z zerem i operacji dodawania.
  • Niezmienność ze względu na skalę (jednorodność)[11]:
max(0,ax)=amax(0,x) dla a0{\displaystyle \max(0,ax)=a\max(0,x){\text{ dla }}a\geqslant 0}.

Potencjalne problemy

[edytuj |edytuj kod]

Możliwe wady funkcji ReLU to między innymi:

  • Nieróżniczkowalność w zerze: funkcja jest różniczkowalna w każdym innym punkcie, jednak w punkciex=0{\displaystyle x=0} jej pochodna jest niezdefiniowana[12]. W praktyce można umownie przyjąć, że pochodna w tym punkcie wynosi 0 lub 1.
  • Wyjście nie jest skoncentrowane wokół zera: wyjścia ReLU są zawsze nieujemne. Może to utrudnić sieci uczenie się podczas propagacji wstecznej, ponieważ aktualizacje gradientu mają tendencję do przesuwania wag w jednym kierunku (dodatnim lub ujemnym)[13]. Problem ten można częściowo rozwiązać za pomocą normalizacji wsadowej[14].
  • Funkcja jest nieograniczona z góry: wartości ReLU mogą rosnąć bez ograniczeń, co w niektórych przypadkach może prowadzić do problemów, takich jak eksplodujący gradient[14].
  • Nadmiarowość parametryzacji: z powodu niezmienności ze względu na skalę, sieć neuronowa może uzyskać identyczną funkcję wyjściową poprzez przeskalowanie wag i biasów przed aktywacją ReLU o czynnikk{\displaystyle k}, a wag warstwy następnej o czynnik1/k{\displaystyle 1/k}[15].
  • Problem „umierającego ReLU” (ang. „Dying ReLU”): neurony z aktywacją ReLU mogą zostać zepchnięte do stanów, w których stają się nieaktywne dla niemal wszystkich danych wejściowych[16]. W tym stanie żadne gradienty nie przepływają wstecz przez neuron, więc utyka on w wiecznie nieaktywnym stanie („umiera”). Jest to forma problemu zanikającego gradientu. W niektórych przypadkach duża liczba neuronów w sieci może utknąć w martwym stanie, skutecznie zmniejszając pojemność modelu i potencjalnie nawet zatrzymując proces uczenia. Problem ten pojawia się zazwyczaj, gdy współczynnik uczenia jest zbyt wysoki. Można go złagodzić, stosując warianty takie jak „Leaky ReLU”, gdzie dlax<0{\displaystyle x<0} przypisuje się niewielkie dodatnie nachylenie. W zależności od zadania może to jednak wiązać się ze spadkiem ogólnej wydajności modelu.

Zobacz też

[edytuj |edytuj kod]

Przypisy

[edytuj |edytuj kod]
  1. AurélienA. Géron AurélienA.,Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow,KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020,ISBN 978-83-283-6002-0 [dostęp 2025-04-09] (pol.).
  2. JasonJ. Brownlee JasonJ.,A Gentle Introduction to the Rectified Linear Unit (ReLU) [online], MachineLearningMastery.com, 8 stycznia 2019 [dostęp 2025-04-08] (ang.).
  3. A Practical Guide to ReLU [online], medium.com (ang.).
  4. PrajitP. Ramachandran PrajitP.,BarretB. Zoph BarretB.,Quoc V.Q.V. Le Quoc V.Q.V.,Searching for Activation Functions, arXiv, 27 października 2017,DOI10.48550/arXiv.1710.05941 [dostęp 2025-04-08] .
  5. abXavierX. Glorot XavierX.,AntoineA. Bordes AntoineA.,YoshuaY. Bengio YoshuaY.,Deep sparse rectifier neural networks [online], 2021 .
  6. D.D. Hansel D.D.,C. vanC. Vreeswijk C. vanC.,How noise contributes to contrast invariance of orientation tuning in cat visual cortex, „The Journal of Neuroscience: The Official Journal of the Society for Neuroscience”, 22 (12),2002, s. 5118–5128,DOI10.1523/JNEUROSCI.22-12-05118.2002,ISSN1529-2401,PMID12077207,PMCIDPMC6757721 [dostęp 2025-04-08] .
  7. JonathanJ. Kadmon JonathanJ.,HaimH. Sompolinsky HaimH.,Transition to chaos in random neuronal networks, arXiv, 26 sierpnia 2015,DOI10.48550/arXiv.1508.06486 [dostęp 2025-04-08] .
  8. RainerR. Engelken RainerR.,FredF. Wolf FredF.,L.F.L.F. Abbott L.F.L.F.,Lyapunov spectra of chaotic recurrent neural networks, arXiv, 3 czerwca 2020,DOI10.48550/arXiv.2006.02427 [dostęp 2025-04-08] .
  9. abXavierX. Glorot XavierX.,AntoineA. Bordes AntoineA.,YoshuaY. Bengio YoshuaY.,Deep Sparse Rectifier Neural Networks, JMLR Workshop and Conference Proceedings, 14 czerwca 2011, s. 315–323 [dostęp 2025-06-08] (ang.).
  10. TomaszT. Szandała TomaszT.,Review and Comparison of Commonly Used Activation Functions for Deep Neural Networks, arXiv, 15 października 2020,DOI10.48550/arXiv.2010.09458 [dostęp 2025-06-08] .
  11. VinodV. Nair VinodV.,Geoffrey E.G.E. Hinton Geoffrey E.G.E.,Rectified linear units improve restricted boltzmann machines, ICML'10, Madison, WI, USA: Omnipress, 21 czerwca 2010, s. 807–814,DOI10.5555/3104322.3104425,ISBN 978-1-60558-907-7 [dostęp 2025-06-08] .
  12. The Multilinear Structure of ReLU Networks [online], ar5iv [dostęp 2025-06-08] (ang.).
  13. YuanY. Zhou YuanY.,DandanD. Li DandanD.,ShuweiS. Huo ShuweiS.,Sun-YuanS.Y. Kung Sun-YuanS.Y.,Soft-Root-Sign Activation Function [online], arXiv.org, 1 marca 2020 [dostęp 2025-06-08] (ang.).
  14. abSergeyS. Ioffe SergeyS.,ChristianCh. Szegedy ChristianCh.,Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, arXiv, 2 marca 2015,DOI10.48550/arXiv.1502.03167 [dostęp 2025-06-08] .
  15. VijayV. Badrinarayanan VijayV.,BamdevB. Mishra BamdevB.,RobertoR. Cipolla RobertoR.,Understanding symmetries in deep networks [online], arXiv.org, 3 listopada 2015 [dostęp 2025-06-08] (ang.).
  16. LuL. Lu LuL.,YeonjongY. Shin YeonjongY.,YanhuiY. Su YanhuiY.,George EmG.E. Karniadakis George EmG.E.,Dying ReLU and Initialization: Theory and Numerical Examples [online], arXiv.org, 15 marca 2019 [dostęp 2025-06-08] (ang.).
Sztuczna inteligencja
Główne cechy
Filozofia
Pojęcia
Zastosowania
Implementacje
Audio-wizualne
Tekstowe
Decyzyjne
Architektury
Uczenie maszynowe ieksploracja danych
Paradygmaty
Zagadnienia
Uczenie nadzorowane (Klasyfikacja,Regresja)
Klasteryzacja
Redukcja wymiaru
Sieć neuronowa
Źródło: „https://pl.wikipedia.org/w/index.php?title=ReLU&oldid=76967707
Kategorie:
Ukryte kategorie:

[8]ページ先頭

©2009-2025 Movatter.jp