「強化学習」 - おすすめピックアップ動画 - 機械学習のまとめ 「強化学習」に関するおすすめのピックアップ動画の一覧です。 https://ml.streamdb.net/pickup-rss/c/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92 Fri, 21 Jul 23 20:00:00 +0900 【強化学習】強化学習は行動選択の科学である【広大な分野だけどコアはこれ!】RL vol. 1 #151 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/jwHVLrtkt5w Fri, 21 Jul 23 20:00:00 +0900 【強化学習】強化学習は行動選択の科学である【広大な分野だけどコアはこれ!】RL vol. 1 #151 #VRアカデミア #ReinforcementLearning 強化学習についての解説シリーズを始めます! Q. 強化学習とは? → A. 行動選択の科学です。 非常に膨大な研究と実践が広がる強化学習ですが、一言で言うならこれだと思う! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】全体像を見据えておこう【2つのループが特徴】RL vol. 3 #153 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/_DX4HoyjnNU Fri, 04 Aug 23 20:00:00 +0900 【強化学習】全体像を見据えておこう【2つのループが特徴】RL vol. 3 #153 #VRアカデミア #ReinforcementLearning 強化学習は全体像の把握が大変! それをまず最初に紹介します。 2つのループを意識しながら色々勉強していきましょう! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 15分で分かる!機械学習とは何か【AI・データサイエンス入門】 https://ml.streamdb.net/timelines/v/Q-fGh2hXUCY Sat, 09 Jan 21 15:00:09 +0900 15分で分かる!機械学習とは何か【AI・データサイエンス入門】 AI(人工知能)やデータサイエンスにほぼ必要不可欠な「機械学習(マシンラーニング)」ですが、一体どういう技術なのでしょうか? また「教師あり学習」「教師なし学習」「強化学習」の概要についてもご紹介しました。 初学者の方の、勉強の取っ掛かりになれば幸いです。 #データサイエンス #機械学習 #データサイエンス #機械学習 【強化学習】収益 - 「期待」「割引」収益ってなんだ!?【こいつを最大化します】RL vol. 6 #159 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/kpviydgB2KQ Fri, 13 Oct 23 20:00:00 +0900 【強化学習】収益 - 「期待」「割引」収益ってなんだ!?【こいつを最大化します】RL vol. 6 #159 #VRアカデミア #ReinforcementLearning 強化学習では生の収益ではなく期待割引収益を最大化することが多いです。 「割引」は特に深くて、単なる数学的都合ではなく、実務上・最適化上も大切な意味を持っています。 収益の定義の謎を一気に解明していきましょう! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】方策 - 行動選択の担い手【こいつを学習します】RL vol. 5 #157 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/Rlkc50IVK-w Fri, 22 Sep 23 20:00:00 +0900 【強化学習】方策 - 行動選択の担い手【こいつを学習します】RL vol. 5 #157 #VRアカデミア #ReinforcementLearning 方策が行動選択を担います。その方策を紹介! 強化学習といえば、この方策がいい感じになる(= 収益の最大化)ように学習することだと言えます。 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】教師あり学習とは何が同じで何が違う?【実は共通点も多い!】RL vol. 2 #152 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/7ACqHSZwI5M Fri, 28 Jul 23 20:00:00 +0900 【強化学習】教師あり学習とは何が同じで何が違う?【実は共通点も多い!】RL vol. 2 #152 #VRアカデミア #ReinforcementLearning 意外にも!強化学習には教師あり学習との共通点が結構あります。 同じところは同じと認識するのがまずは大事! ついでに、強化学習の難しさの根源 = 素晴らしさも紹介! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】マルコフ決定過程 - 強化学習の問題設定を決めてくれるやつ【5つのうち大事なのは2つ!】RL vol. 4 #155 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/R8CyNE8Vgg4 Fri, 01 Sep 23 20:00:00 +0900 【強化学習】マルコフ決定過程 - 強化学習の問題設定を決めてくれるやつ【5つのうち大事なのは2つ!】RL vol. 4 #155 #VRアカデミア #ReinforcementLearning マルコフ決定過程 (MDP) が強化学習の問題設定を与えてくれます。 なんか定義見るとやばい集合2連打から始まりますが、大事なのはそれ以外の3つ(のうち特に2つだけ) ポイントを抑えて MDP と仲良くなりましょう! ※強化学習は広い分野です。これ以外の定式化もたくさんあります。別のものに出会ったら、それを学んでみてください! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】ベルマン期待方程式 - 2手先を読んで価値を算出【強化学習の基礎方程式】RL vol. 9 #166 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/7nRgyYjMpas Fri, 22 Dec 23 20:00:00 +0900 【強化学習】ベルマン期待方程式 - 2手先を読んで価値を算出【強化学習の基礎方程式】RL vol. 9 #166 #VRアカデミア #ReinforcementLearning 難解なベルマン方程式も「2手先を読む」という観点で見ればスッキリ!VからQ、QからVの1手先の方程式と合わせてどうぞ! このベルマン期待方程式は、学習でめちゃ使うので、ここで押さえておきましょう! 1:25の行動価値関数のベルマン方程式から割引率γが抜けていました。正しいものは36:17頃のまとめにあります。 26:55の状態価値関数のベルマン方程式、36:20の行動価値関数の1手先の未来の式から、p(r | s, a) のあとの r が抜けていました。 動画内の誤り一覧 http://bit.ly/error_asp 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 0:00 イントロ 1:04 ベルマン期待方程式とは 2:57 記号の復習 9:57 ベルマン方程式の正体に迫る 11:32 ステップ1:状態の次は行動 15:27 ステップ2:行動の次は報酬と次の状態 20:27 γが入る理由 26:07 ステップ3:いざベルマン方程式! 30:40 数学的証明 36:17 まとめ 38:54 エンディングトーク 【紹介した過去動画】 TBA 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】価値関数 - 最適化の主役はこいつ!【価値関数を通して収益最大化】RL vol. 7 #161 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/SI6CfIzEMF8 Fri, 17 Nov 23 20:00:00 +0900 【強化学習】価値関数 - 最適化の主役はこいつ!【価値関数を通して収益最大化】RL vol. 7 #161 #VRアカデミア #ReinforcementLearning 強化学習では、直接的に期待割引収益を最大化するのは激しく難しいので、2種の「価値関数」を使い倒します! 最初は混乱するかもなので、何度も見返してください~! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 00:00 オープニング 00:40 復習 02:42 価値関数とは 10:12 価値関数の使い方 16:40 エンディング 17:00 エンディングトーク 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】方策反復法 - 方策評価と方策更新の繰り返しで最適方策を見つけよう!【GPIの元ネタ】RL vol. 11 #170 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/iMqByZlwHvA Fri, 26 Jan 24 20:00:00 +0900 【強化学習】方策反復法 - 方策評価と方策更新の繰り返しで最適方策を見つけよう!【GPIの元ネタ】RL vol. 11 #170 #VRアカデミア #ReinforcementLearning 方策反復法は、かなり多くの強化学習アルゴリズムの元ネタになっている手法で、これを深く理解すれば、深層強化学習の複雑なアルゴリズムもかなり理解で切るようになります! みんなもレッツ Policy Iteration! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 00:00 オープニング 00:50 方策反復法 05:23 方策評価 10:55 連立1次方程式? 14:56 解の存在について 16:05 計算方法について 17:19 ベルマン作用素 23:35 方策更新 28:06 まとめ 33:30 エンディング 34:20 エンディングトーク 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【宣伝2:クラファンやってるよ!】 活動継続のためのご支援をお願いしています。詳細はこちら! クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000 (クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ) 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ! 3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ! 【強化学習】Q学習 - データを用いて最適方策を学習【強化学習の基礎アルゴリズム】RL vol. 14 #176 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/JPt5JYmcngc Fri, 05 Apr 24 20:00:00 +0900 【強化学習】Q学習 - データを用いて最適方策を学習【強化学習の基礎アルゴリズム】RL vol. 14 #176 #VRアカデミア #ReinforcementLearning ついにあの「Q学習」がやってきた! データから最適方策を学習できる素敵アルゴリズムであり、この子はベルマン最適作用素のデータ近似で学習を進めます。 深層強化学習の革命児 DQN の元ネタでもあるQ学習を抑え、素敵な強化学習ライフを始めましょう! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【宣伝2:クラファンやってるよ!】 活動継続のためのご支援をお願いしています。詳細はこちら! クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000 (クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ) 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ! 3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ! 【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/BWcXCecwLcI Fri, 12 Jan 24 20:00:00 +0900 【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning 最適方策という強い方策がありまして、それ使っておけばあらゆる場面で収益最大になるんです。 その場合のベルマン方程式がベルマン最適方程式。再び2手先を読む考え方で、今後大活躍します! 誤字脱字多くてごめんなさい! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 00:00 オープニング 00:43 おわび 00:59 本編スタート! 01:22 最適方策 03:51 ベルマン最適方程式 07:28 記号の復習 13:10 ベルマン最適方程式の正体 13:30 ステップ1:状態の次は行動 17:12 ステップ2:行動の次は報酬と次の状態 20:07 ステップ3:いざベルマン最適方程式! 24:32 まとめ 26:34 エンディング 27:14 エンディングトーク 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【宣伝2:クラファンやってるよ!】 活動継続のためのご支援をお願いしています。詳細はこちら! クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000 (クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ) 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13 #174 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/Mv62VMRczUo Fri, 22 Mar 24 20:00:00 +0900 【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13 #174 #VRアカデミア #ReinforcementLearning TD 法は期待と不安が入り交じった気持ちのアルゴリズム! 多くの強化学習手法の基礎なので、バッチリ抑えておきましょう! 次回から、TD 法の発展として、Q 学習や SARSA などをお届け! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 To Be Appeared 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【宣伝2:クラファンやってるよ!】 活動継続のためのご支援をお願いしています。詳細はこちら! クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000 (クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ) 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ! 3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ! 忙しい人のための忙しい人のためのTransformer - #1 #vrアカデミア https://ml.streamdb.net/timelines/v/9CUO7E6en7Y Mon, 23 Oct 23 11:52:51 +0900 忙しい人のための忙しい人のためのTransformer - #1 #vrアカデミア Transformer ってほんとすごいよね。 AIcia Solid Project では、統計や機械学習、深層学習に強化学習の動画を投稿しているよ!(あと、数学の動画もたまに) 他の動画も見てねー! 【強化学習】GPIと構造図 - 4つの対象の関係を図示して混乱と決別する!【強化学習は、探索と学習のループ】RL vol. 8 #164 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/vvtURKlaVos Fri, 08 Dec 23 20:00:00 +0900 【強化学習】GPIと構造図 - 4つの対象の関係を図示して混乱と決別する!【強化学習は、探索と学習のループ】RL vol. 8 #164 #VRアカデミア #ReinforcementLearning 【神回】強化学習特有の Generalized Policy Iteration という考え方をお伝えしつつ、 強化学習4つの対象と、その関係と、GPI のループの図示を紹介します。 これでかなり強化学習は学びやすくなると思う!!! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 0:00 イントロ 01:38 本編スタート! 02:03 復習 04:28 Generalized Policy Iterationとは 07:52 強化学習の勉強の難しさ 11:24 強化学習4つの対象 15:06 エンディングトーク 【紹介した過去動画】 第3回:【強化学習】全体像を見据えておこう【2つのループが特徴】 https://www.youtube.com/watch?v=_DX4HoyjnNU 第7回:【強化学習】価値関数 - 最適化の主役はこいつ!【価値関数を通して収益最大化】 https://www.youtube.com/watch?v=SI6CfIzEMF8 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【nnablaRLアルゴリズム解説】方策勾配法(REINFORCE) https://ml.streamdb.net/timelines/v/XGWAa99T9Yw Thu, 21 Jul 22 16:00:12 +0900 【nnablaRLアルゴリズム解説】方策勾配法(REINFORCE) nnablaRLアルゴリズム解説は、Neural Network Librariesを利用して強化学習を実行するためのライブラリ、nnablaRLを使うにあたり、必要となる強化学習の各アルゴリズムの概要などを説明していく動画です。 今回はシリーズの第4回として、方策勾配法(REINFORCE)について説明しました。 方策勾配法(REINFORCE)のアルゴリズムの概要やnnablaRLで方策勾配法(REINFORCE)を使うための方法を紹介します。 nnabla-rlのプロジェクトページはこちら:https://github.com/sony/nnabla-rl 【動画内引用文献・リンク】 Sutton, Richard S., and Andrew G. Barto. (2018). Reinforcement learning: An introduction.(三上貞芳、皆川雅章(訳)、(2000)、強化学習、森北出版) -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【分析モデル入門】本を出します!【是非買ってね!】 #137 #VRアカデミア #分析モデル入門 https://ml.streamdb.net/timelines/v/1GuJv71bZP4 Fri, 08 Jul 22 20:00:00 +0900 【分析モデル入門】本を出します!【是非買ってね!】 #137 #VRアカデミア #分析モデル入門 データサイエンスに必須の分析モデルを、ほぼ全部解説した本をだします! 使い方のサクッと解説に加え、原理数式の深い解説もあるよ! 本質を捉えたデータ分析のための分析モデル入門 ↓予約・購入はこちら!↓ https://amzn.to/3Ng0nC7 Voicy 始めたよ! ↓こちらから聴けます↓ https://voicy.jp/channel/2216 ▼目次 序章 分析モデルを学ぶための準備 第1部 定型データの扱い 第1章 回帰分析 第2章 回帰分析の結果の評価と解釈 第3章 ロジスティック回帰分析 第4章 機械学習を用いた回帰・分類 第2部 非定型データの扱い 第5章 深層学習入門 第6章 画像の分類 第7章 物体検出とセマンティックセグメンテーション 第8章 基本的な自然言語処理手法 第9章 深層学習を用いた自然言語処理モデル(前半) 第10章 深層学習を用いた自然言語処理モデル(後半) 第11章 統計的言語モデル 第12章 付加構造があるデータの扱い 第3部 強化学習 第13章 強化学習とは 第14章 強化学習の技法 第15章 深層強化学習の技法 第4部 データから知見を得る方法 第16章 クラスタリング 第17章 因子分析・主成分分析 第18章 データの関連を調べる分析 第19章 データの背後の構造を用いる分析 第5部 線形回帰分析の深い世界 第20章 多重共線性 第21章 発展的な回帰分析 ▼終わりに ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄やTwitterにどうぞ! お仕事、コラボのご依頼は、公式 WebPage や TwitterのDMからお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ ) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model: http://3d.nicovideo.jp/works/td44519 Model by: W01fa さん ( https://twitter.com/W01fa ) 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning https://ml.streamdb.net/timelines/v/BYh4uwRgNnk Sun, 25 Feb 24 20:00:00 +0900 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning 価値反復法では、ベルマン最適作用素を用いることで、いきなり最適方策を手に入れることができます。マルコフ決定過程を知る必要があり、状態数が多いと使えないですが、これも基礎で大事なアルゴリズムです! 【プレイリスト】 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 【目次】 00:00 オープニング 00:42 価値反復法とは 03:25 今の状況のおさらい 04:47 復習 07:31 ベルマン最適作用素 12:48 最適方策を計算 15:18 まとめ 17:37 エンディング 【参考文献】 分析モデル入門 https://amzn.to/3Ng0nC7 私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。 合わせてみていただくと分かり易いかと! 強化学習(第2版) https://amzn.to/3K4QsR8 Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ! ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/ 強化学習 (機械学習プロフェッショナルシリーズ) https://amzn.to/44R2XYr 理論家向けの方にはこちら! しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 https://amzn.to/3XYDrOM 手を動かしながら学びたい人向け! サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます! 将棋AIで学ぶディープラーニング https://www.amazon.co.jp/dp/B07B7JJ929 強化学習というと、将棋 AI を思い浮かべる人も少なくないはず! そういう人におすすめ! 将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。 将棋を目指す方は、ぜひこれを見てみてください! 更に強いのを作るならこれ → https://amzn.to/3pU1aDa 強化学習の基礎と深層強化学習 https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning 合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。 【宣伝:本も買ってね!】 データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました! 本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7 【宣伝2:クラファンやってるよ!】 活動継続のためのご支援をお願いしています。詳細はこちら! クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000 (クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ) 【終わりに】 ご視聴ありがとうございました! 面白かったら高評価、チャンネル登録お願いします。 動画の質問、感想などは、コメント欄や Twitter にどうぞ! お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。 AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top 動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ ) 動画編集:AIbis Solid (妹) ======= Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio ) Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ! 3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ! 【nnablaRLアルゴリズム解説】Deep Q-Network (DQN) https://ml.streamdb.net/timelines/v/Rr2sI1JsAh4 Mon, 31 Jan 22 17:00:08 +0900 【nnablaRLアルゴリズム解説】Deep Q-Network (DQN) nnablaRLアルゴリズム解説は、Neural Network Librariesを利用して強化学習を実行するためのライブラリ、nnablaRLを使うにあたり、必要となる強化学習の各アルゴリズムの概要などを説明していく動画です。 今回はシリーズの第2回として、Deep Q-Network (DQN) について説明しました。 DQNのアルゴリズムの概要やnnablaRLでDQNを使うための方法を紹介します。 nnabla-rlのプロジェクトページはこちら:https://github.com/sony/nnabla-rl 00:00 イントロダクション 01:11 Deep Q-Network (DQN) とは何か? 10:42 nnablaRLでDQNを利用する方法は? 【参考文献】 ・V. Mnih et al., “Human-level control through deep reinforcement learning”, nature, 518(7540):529–533, 2015 https://www.nature.com/articles/nature14236 ・H. van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning.”, AAAI 2016 https://arxiv.org/pdf/1509.06461.pdf ​ ・R.S.Sutton and A. G. Barto “Reinforcement Learning: An Introduction.”, The MIT press, Cambridge MA. 1998​ -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【nnablaRLアルゴリズム解説】分布型強化学習 (C51,QRDQN,IQN) https://ml.streamdb.net/timelines/v/C1lGgQ_CxBU Wed, 30 Mar 22 19:00:09 +0900 【nnablaRLアルゴリズム解説】分布型強化学習 (C51,QRDQN,IQN) nnablaRLアルゴリズム解説は、Neural Network Librariesを利用して強化学習を実行するためのライブラリ、nnablaRLを使うにあたり、必要となる強化学習の各アルゴリズムの概要などを説明していく動画です。 今回はシリーズの第3回として、分布型強化学習について説明しました。 分布型強化学習(Categorical DQN, QRDQN, IQN)のアルゴリズムの概要やnnablaRLで分布型強化学習を使うための方法を紹介します。 第2回のDQNはこちら:https://youtu.be/Rr2sI1JsAh4 nnabla-rlのプロジェクトページはこちら:https://github.com/sony/nnabla-rl 【動画内引用文献・リンク】 C51 - M. G. Bellemare, et al. "A Distributional Perspective on Reinforcement Learning." Proceedings of the 34 th International Conference on Machine Learning, 2017, http://proceedings.mlr.press/v70/bellemare17a.html QRDQN - W. Dabney, et al. "Distributional Reinforcement Learning with Quantile Regression." The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), 2018, https://arxiv.org/abs/1710.10044 IQN - W. Dabney, et al. "Implicit Quantile Networks for Distributional Reinforcement Learning." Proceedings of the 35th International Conference on Machine Learning, 2018. http://proceedings.mlr.press/v80/dabney18a.html -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 「強化学習100題」の解説(1/100) https://ml.streamdb.net/timelines/v/6GgmwT7fJWg Fri, 15 Jul 22 20:04:23 +0900 「強化学習100題」の解説(1/100) 書籍『ゼロから作るDeep Learning ❹ 強化学習編』ではオンライン上に「強化学習100題」を用意しています。この動画では「強化学習100題」の解説を行います。 ■強化学習100題 https://koki0702.github.io/dezero-p100/ ■解説動画プレイリスト https://www.youtube.com/watch?v=6GgmwT7fJWg&list=PLfEIaAl7qmZqLEvo3fE1wP0bSZ7jWA9u5 ■書籍「ゼロから作るDeep Learning ❹ 強化学習編」 https://www.amazon.co.jp/dp/4873119758/ref=cm_sw_em_r_mt_dp_X5TN6AVE21JRKS874ZGQ 【AI技術研修】nnabla-rlによる深層強化学習入門 第7回「強化学習ベストプラクティス」 https://ml.streamdb.net/timelines/v/z8Otc1u25Rw Mon, 07 Nov 22 19:00:38 +0900 【AI技術研修】nnabla-rlによる深層強化学習入門 第7回「強化学習ベストプラクティス」 本動画は「nnabla-rlによる深層強化学習入門」の第7回の動画です。第7回では、実際に強化学習を適用するにあたり、気を付けると良い、もしくは良く知られている強化学習のベストプラクティスについて説明します。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 「強化学習100題」の解説(19/100) https://ml.streamdb.net/timelines/v/DEwCkhOyduE Sat, 16 Jul 22 12:57:02 +0900 「強化学習100題」の解説(19/100) 書籍『ゼロから作るDeep Learning ❹ 強化学習編』ではオンライン上に「強化学習100題」を用意しています。この動画では「強化学習100題」の解説を行います。 ■強化学習100題 https://koki0702.github.io/dezero-p100/ ■「ゼロから作るDeep Learning ❹ 強化学習編」 https://www.amazon.co.jp/dp/4873119758/ref=cm_sw_em_r_mt_dp_X5TN6AVE21JRKS874ZGQ 【AI技術研修】nnabla-rlによる深層強化学習入門 第1回「深層強化学習とは?」 https://ml.streamdb.net/timelines/v/KZ0pwIIBKYU Mon, 17 Oct 22 19:00:11 +0900 【AI技術研修】nnabla-rlによる深層強化学習入門 第1回「深層強化学習とは?」 本動画は「nnabla-rlによる深層強化学習入門」の第1回の動画です。イントロダクションとして、本研修で扱う内容と深層強化学習とは何か?について説明します。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI技術研修】nnabla-rlによる深層強化学習入門 第6回「学習環境の実装」 https://ml.streamdb.net/timelines/v/q4tdWV22TYU Thu, 03 Nov 22 19:00:27 +0900 【AI技術研修】nnabla-rlによる深層強化学習入門 第6回「学習環境の実装」 本動画は「nnabla-rlによる深層強化学習入門」の第6回の動画です。本動画では、実際のアプリケーションに強化学習を適用するために必要な、学習環境とは何か?とその実装方法について説明します。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 「強化学習100題」の解説(15/100) https://ml.streamdb.net/timelines/v/cxEpWq3LSpA Sat, 16 Jul 22 12:54:07 +0900 「強化学習100題」の解説(15/100) 書籍『ゼロから作るDeep Learning ❹ 強化学習編』ではオンライン上に「強化学習100題」を用意しています。この動画では「強化学習100題」の解説を行います。 ■強化学習100題 https://koki0702.github.io/dezero-p100/ ■「ゼロから作るDeep Learning ❹ 強化学習編」 https://www.amazon.co.jp/dp/4873119758/ref=cm_sw_em_r_mt_dp_X5TN6AVE21JRKS874ZGQ 【AI論文解説】Gumbel回帰を利用した新しい強化学習! Extreme Q-learning #ICLR2023 https://ml.streamdb.net/timelines/v/5VQXOiCfuKc Mon, 27 Feb 23 18:00:03 +0900 【AI論文解説】Gumbel回帰を利用した新しい強化学習! Extreme Q-learning #ICLR2023 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、ICLR2023で発表されるGumbel回帰を利用した強化学習アルゴリズム、Extreme Q-learningを紹介します。 注:7pの右上のβに対応する積分は、行動aの空間全体で積分したものになります。 【紹介論文】 ・EXTREME Q-LEARNING: MAXENT RL WITHOUT ENTROPY  【論文リンク】https://arxiv.org/pdf/2301.02328.pdf 【プロジェクトページ】https://div99.github.io/XQL/ -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI技術研修】nnabla-rlによる深層強化学習入門 第4回「連続行動強化学習とは?」 https://ml.streamdb.net/timelines/v/6Vkn6gfB3sk Thu, 27 Oct 22 19:00:07 +0900 【AI技術研修】nnabla-rlによる深層強化学習入門 第4回「連続行動強化学習とは?」 本動画は「nnabla-rlによる深層強化学習入門」の第4回の動画です。第2回で紹介した離散行動強化学習と対をなす連続行動強化学習とは何か?について説明します。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 nnablaRL イントロダクション https://ml.streamdb.net/timelines/v/xjwrPjJebBg Mon, 21 Jun 21 15:52:45 +0900 nnablaRL イントロダクション 今回は、Neural Network Librariesを利用して強化学習を実行するためのライブラリ、nnablaRLの紹介です。 nnabla-rlのプロジェクトページはこちら:https://github.com/sony/nnabla-rl 【動画内引用文献・リンク】 Google Colaboratory - https://colab.research.google.com/ DQN - V. Mnih, et al. "Human-level control through deep reinforcement learning." Nature 518, 529–533 (2015). https://doi.org/10.1038/nature14236 PPO - J. Schulman, et al. "Proximal Policy Optimization Algorithms." arXiv preprint arXiv:1707.06347 (2017). https://arxiv.org/abs/1707.06347 C51 - M. G. Bellemare, et al. "A Distributional Perspective on Reinforcement Learning." Proceedings of the 34 th International Conference on Machine Learning, 2017, https://icml.cc/Conferences/2017/Schedule?showEvent=580 QRDQN - W. Dabney, et al. "Distributional Reinforcement Learning with Quantile Regression." The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), 2018, https://arxiv.org/abs/1710.10044 IQN - W. Dabney, et al. "Implicit Quantile Networks for Distributional Reinforcement Learning." Proceedings of the 35th International Conference on Machine Learning, 2018. http://proceedings.mlr.press/v80/dabney18a.html DDPG - T. P. Lillicrap, et al. "Continuous control with deep reinforcement learning.", Proceedings of the 4th International Conference on Learning Representations, 2016, https://arxiv.org/abs/1509.02971 TD3 - S. Fujimoto, et al. "Addressing Function Approximation Error in Actor-Critic Methods.", Proceedings of the 35 th International Conference on Machine Learning, 2018, https://arxiv.org/abs/1802.09477v3 SAC - T. Haarnoja, et al. "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.", Proceedings of the 35th International Conference on Machine Learning, 2018, http://proceedings.mlr.press/v80/haarnoja18b.html TRPO - J. Schulman, et al. "Trust Region Policy Optimization.", Proceedings of the 31 st International Conference on Machine Learning, 2015, http://proceedings.mlr.press/v37/schulman15.html M-DQN - "Munchausen Reinforcement Learning." 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020, https://arxiv.org/abs/2007.14430 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/channel/UCOELxR-yS2EbjBxQ0hx4yBw )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 【AI論文解説】離散+連続のハイブリッド強化学習 Hybrid Action Representation (HyAR) https://ml.streamdb.net/timelines/v/KwUK6GXn3mM Fri, 22 Dec 23 18:00:14 +0900 【AI論文解説】離散+連続のハイブリッド強化学習 Hybrid Action Representation (HyAR) 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト:https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、昨年度のICLR2022で発表された離散と連続の両方の行動を同時に扱うことができる強化学習アルゴリズム、Hybrid Action Representation (HyAR)を紹介します。 HyARの論文中で紹介されている既存手法も合わせて解説しているので、離散+連続の強化学習について概略も簡単につかむことができるようになっています。 動画内で話している追試のコードは下記で公開しています! 【再現実装】https://github.com/sony/nnabla-rl/tree/master/reproductions/algorithms/hybrid_env/hyar 注:途中、HPPOの説明で確率分布のlogを取ると言っていますが、確率(密度)のlogの言い間違いになります。 【紹介論文】 ・HYAR: ADDRESSING DISCRETE-CONTINUOUS ACTION REINFORCEMENT LEARNING VIA HYBRID ACTION REPRESENTATION 【論文リンク】https://openreview.net/pdf?id=64trBbOhdGU 【参考文献】 ・DEEP REINFORCEMENT LEARNING IN PARAMETERIZED ACTION SPACE 【論文リンク】https://www.cs.utexas.edu/users/pstone/Papers/bib2html-links/ICLR16-hausknecht.pdf ・Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space 【論文リンク】https://www.ijcai.org/proceedings/2019/0316.pdf ・Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space 【論文リンク】https://arxiv.org/pdf/1810.06394.pdf ・Deep Multi-Agent Reinforcement Learning with Discrete-Continuous Hybrid Action Spaces 【論文リンク】https://www.ijcai.org/proceedings/2019/0323.pdf -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。