Movatterモバイル変換


[0]ホーム

URL:


Lompat ke isi
WikipediaEnsiklopedia Bebas
Pencarian

Pemelajaran pengukuhan

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
Bagian dariseri
Pemelajaran mesin
danPenggalian Data
Ilustrasi Jaringan saraf tiruan
Diagnostik model

Pemelajaran pengukuhan (PP),pemelajaran penguatan atauReinforcement learning (RL) adalah suatu bidang antar disiplin ilmu dalampemelajaran mesin dankendali optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambiltindakan di lingkungan yang dinamis dalam rangka untuk memaksimalkanimbalan bertumpuk-tumpuk. Pemelajaran pengukuhan adalah satu dari tiga paradigma utama dalam pemelajaran mesin, di sampingpemelajaran terawasi danpemelajaran tak terawasi.

Pemelajaran pengukuhan berbeda dengan pemelajaran terawasi dari dua sisi, yaitu tak membutuhkan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pembetulan secara terang-terangan untuk tindakan yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara penjelajahan (wilayah yang belum dipetakan) dan pemanfaatan (pengetahuan saat ini).[1]

Lingkungan PP biasanya dinyatakan dalam bentukproses keputusan Markov (PKM) karena banyaknya algoritma PP yang dalam hal ini menggunakan teknikpemrograman dinamis.[2] Namun, terdapat perbedaan utama antara PP dengan pemrograman dinamis, yaitu PP tak membutuhkan pengetahuan pasti model matematis dari PKM, melainkan PP ini menujukan PKM yang besar dan rumit yang untuk mendapatkan model yang pasti menjadi sulit atau tidak mungkin dilakukan.[3]

Referensi

[sunting |sunting sumber]
  1. ^Kaelbling, Leslie P.;Littman, Michael L.;Moore, Andrew W. (1996)."Reinforcement Learning: A Survey".Journal of Artificial Intelligence Research.4:237–285.arXiv:cs/9605103.doi:10.1613/jair.301.S2CID 1708582. Diarsipkan dariasli tanggal 2001-11-20.
  2. ^van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes".Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. hlm. 3–42.doi:10.1007/978-3-642-27645-3_1.ISBN 978-3-642-27644-6.
  3. ^Li, Shengbo (2023).Reinforcement Learning for Sequential Decision and Optimal Control (Edisi First). Springer Verlag, Singapore. hlm. 1–460.doi:10.1007/978-981-19-7784-8.ISBN 978-9-811-97783-1.S2CID 257928563. Pemeliharaan CS1: Lokasi tanpa penerbit (link)

Sumber

[sunting |sunting sumber]

Bacaan lanjutan

[sunting |sunting sumber]

Pranala luar

[sunting |sunting sumber]
Bidang utamailmu komputer
Catatan: Templat ini secara kasar mengikutiSistem Klasifikasi Komputasi ACM tahun 2012.
Perangkat keras
Organisasi
sistem komputer
Jaringan
Organisasi
perangkat lunak
Notasi danalat
perangkat lunak
Pengembangan
perangkat lunak
Teori komputasi
Algoritma
Komputasi
matematika
Sistem informasi
Keamanan
Interaksi
manusia-komputer
Kongruensi
Kecerdasan buatan
Pembelajaran mesin
Grafika
Komputasi terapan
Diperoleh dari "https://id.wikipedia.org/w/index.php?title=Pemelajaran_pengukuhan&oldid=26955814"
Kategori:
Kategori tersembunyi:

[8]ページ先頭

©2009-2025 Movatter.jp