Funkcja ReLU, prostowana jednostka liniowa[1] (ang.rectified linear unit),jednostronnie obcięta funkcja liniowa –funkcja aktywacji zdefiniowana jako nieujemna część jej argumentu[2][3]:
Rzadka aktywacja: w sieci z losowo zainicjowanymi wagami tylko około 50% neuronów w warstwach ukrytych jest aktywowanych (tzn. ma niezerową wartość wyjściową)[9].
Lepsza propagacja gradientu: mniejsze ryzyko wystąpienia problemuzanikającego gradientu w porównaniu zsigmoidalnymi funkcjami aktywacji, które nasycają się w obu kierunkach[5][9].
Wydajność obliczeniowa[10]: funkcja jest bardzo prosta obliczeniowo – wymaga jedynie porównania z zerem i operacji dodawania.
Nieróżniczkowalność w zerze: funkcja jest różniczkowalna w każdym innym punkcie, jednak w punkcie jej pochodna jest niezdefiniowana[12]. W praktyce można umownie przyjąć, że pochodna w tym punkcie wynosi 0 lub 1.
Wyjście nie jest skoncentrowane wokół zera: wyjścia ReLU są zawsze nieujemne. Może to utrudnić sieci uczenie się podczas propagacji wstecznej, ponieważ aktualizacje gradientu mają tendencję do przesuwania wag w jednym kierunku (dodatnim lub ujemnym)[13]. Problem ten można częściowo rozwiązać za pomocą normalizacji wsadowej[14].
Funkcja jest nieograniczona z góry: wartości ReLU mogą rosnąć bez ograniczeń, co w niektórych przypadkach może prowadzić do problemów, takich jak eksplodujący gradient[14].
Nadmiarowość parametryzacji: z powodu niezmienności ze względu na skalę, sieć neuronowa może uzyskać identyczną funkcję wyjściową poprzez przeskalowanie wag i biasów przed aktywacją ReLU o czynnik, a wag warstwy następnej o czynnik[15].
Problem „umierającego ReLU” (ang. „Dying ReLU”): neurony z aktywacją ReLU mogą zostać zepchnięte do stanów, w których stają się nieaktywne dla niemal wszystkich danych wejściowych[16]. W tym stanie żadne gradienty nie przepływają wstecz przez neuron, więc utyka on w wiecznie nieaktywnym stanie („umiera”). Jest to forma problemu zanikającego gradientu. W niektórych przypadkach duża liczba neuronów w sieci może utknąć w martwym stanie, skutecznie zmniejszając pojemność modelu i potencjalnie nawet zatrzymując proces uczenia. Problem ten pojawia się zazwyczaj, gdy współczynnik uczenia jest zbyt wysoki. Można go złagodzić, stosując warianty takie jak „Leaky ReLU”, gdzie dla przypisuje się niewielkie dodatnie nachylenie. W zależności od zadania może to jednak wiązać się ze spadkiem ogólnej wydajności modelu.
↑AurélienA.GéronAurélienA.,Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow,KrzysztofK.Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020,ISBN 978-83-283-6002-0 [dostęp 2025-04-09](pol.). Brak numerów stron w książce
↑abXavierX.GlorotXavierX.,AntoineA.BordesAntoineA.,YoshuaY.BengioYoshuaY.,Deep Sparse Rectifier Neural Networks, JMLR Workshop and Conference Proceedings, 14 czerwca 2011, s. 315–323 [dostęp 2025-06-08](ang.).pub. albo wyd.,
↑YuanY.ZhouYuanY.,DandanD.LiDandanD.,ShuweiS.HuoShuweiS.,Sun-YuanS.Y.KungSun-YuanS.Y.,Soft-Root-Sign Activation Function [online], arXiv.org, 1 marca 2020 [dostęp 2025-06-08](ang.).url-auto
↑VijayV.BadrinarayananVijayV.,BamdevB.MishraBamdevB.,RobertoR.CipollaRobertoR.,Understanding symmetries in deep networks [online], arXiv.org, 3 listopada 2015 [dostęp 2025-06-08](ang.).url-auto