________ diberikan sistem penghargaan dan hukuman.

________ diberikan sistem penghargaan dan hukuman.

Penyelesaian:

Reinforcement Learning (RL) diberikan sistem reward dan punishment. Pembelajaran penguatan lebih luas daripada pembelajaran yang dipantau atau tidak diawasi untuk mencapai tujuan atau hanya mendapatkan dari insentif dan hukuman dari kontak lingkungan. Algoritma belajar untuk beradaptasi dengan lingkungan, dalam semua istilah lainnya. Pembelajaran TD tampaknya dekat dengan bagaimana individu belajar dalam situasi seperti ini, tetapi pembelajaran Q yang lain masih memiliki manfaatnya.

Pada saat yang sama, masalah pembelajaran dan sub-bidang pembelajaran mesin telah diterapkan pada pembelajaran penguatan. Masalah pembelajaran membutuhkan pembelajaran untuk mengoperasikan program untuk mengoptimalkan beberapa nilai numerik yang mewakili target jangka panjang.

9


Related Posts