六合彩打印机,百乐坊现金网,卡塔尔世界杯分组赛程表(中国)·官方网站

學(xué)術(shù)預(yù)告首頁 > 學(xué)術(shù)科研 > 學(xué)術(shù)預(yù)告 > 正文

學(xué)術(shù)報告-強(qiáng)化學(xué)習(xí)原理及概述

作者：供圖：供圖：日期：2020-11-19 來源：

講座主題：強(qiáng)化學(xué)習(xí)原理及概述

主講人：劉磊

工作單位：河海大學(xué)

活動時間：2020年11月21日 10:10--10:50

講座地點(diǎn)：騰訊會議會議ID：281 913 245

主辦單位：煙臺大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院

內(nèi)容摘要：

強(qiáng)化學(xué)習(xí)（Reinforcement Learning），屬于一種機(jī)器學(xué)習(xí)架構(gòu)，它是通過讓智能體（Agent）不斷地對所處環(huán)境（Environment）進(jìn)行探索和開發(fā)并根據(jù)反饋的回報（Reward）進(jìn)行的一種經(jīng)驗(yàn)學(xué)習(xí)。2016年,谷歌旗下DeepMind團(tuán)隊(duì)發(fā)布的AlphaGo以4：1的戰(zhàn)績擊敗了世界圍棋冠軍里李世紀(jì)石,引爆了強(qiáng)化學(xué)習(xí)的發(fā)展勢頭。近年來，不論在科研界還是工業(yè)界，強(qiáng)化學(xué)習(xí)發(fā)揮重要的作用。本報告簡介強(qiáng)化學(xué)習(xí)的數(shù)學(xué)原理，以及動態(tài)規(guī)劃、蒙特卡洛、時序差分等基本算法。在時間允許的情況下，將介紹DQN和Actor-Critic等深度強(qiáng)化學(xué)習(xí)算法。

主講人介紹：

劉磊，男，1983年06月，博士，副教授，博士生導(dǎo)師。主持國家自然科學(xué)基金面上項(xiàng)目一項(xiàng)，國家博士后基金特別資助項(xiàng)目一項(xiàng)、國家博士后基金面上項(xiàng)目一項(xiàng)、江蘇省博士后資助計(jì)劃一項(xiàng)；完成國家自然科學(xué)青年項(xiàng)目一項(xiàng)。入選2018年度江蘇省青藍(lán)工程優(yōu)秀青年骨干教師培養(yǎng)對象，2018年度河海大學(xué)首屆大禹學(xué)者人才計(jì)劃第三層次。以第一作者或通訊作者在《IEEE Transactions on Automatic Control》、《IEEE Transactions on Neural Networks and Learning Systems》、《IEEE Transactions on Systems, Man, and Cybernetics: Systems》、《Automatica》、《Science China Information Sciences》、《Systems & Control Letters》等SCI期刊上發(fā)表論文20篇。

上一條：學(xué)術(shù)報告-完備性與Baire綱定理及其應(yīng)用
下一條：學(xué)術(shù)報告-On the classification of some symmetric graphs

网络赌场gcgc 6-澳门网络赌场试赌

學(xué)術(shù)預(yù)告 首頁 > 學(xué)術(shù)科研 > 學(xué)術(shù)預(yù)告 > 正文

學(xué)術(shù)預(yù)告首頁 > 學(xué)術(shù)科研 > 學(xué)術(shù)預(yù)告 > 正文