集団授業

強化学習入門：機械学習の数理シリーズ

統計・機械学習講座

スポット講座

Sスタンダード

開講予定

アーカイブ講座（録画販売中）

強化学習の基礎についてPythonを通して学ぶ

強化学習は機械学習のフレームワークの一つで、囲碁や将棋等のゲーム、プラントの最適化など実社会への応用や最近の大規模言語モデルのReasoningにも活用される等幅広く使われている分野の一つです。この講座では、強化学習の基礎について、Pythonと数学を通して学んでいきましょう。特に、

価値反復法
方策勾配法

の具体的なアルゴリズムを数式を読みながら勉強し、numpyパッケージを用いて実装します。

また深層強化学習の話題から、最も基本的なDeep Q-Networkの仕組みに触れ、実装を通して親しむことを目指します。

講座概要

Overview

この講座では強化学習の入門について扱います。

強化学習は周囲の環境と相互に作用しながら、目的を達成するために最適な行動を学ぶことを目指します。将棋で勝つ等がわかりやすい目的の例になります。環境に応じつつ、最適な行動は何かを考え、学習するという少し複雑なシチュエーションのため、強化学習特有の用語も少し多くなります。

そこでこの講義では最初に強化学習の問題設定やその中で出てくる状態価値関数、行動価値関数、最適方策などの用語を最初に丁寧に解説します。その後は最適方策を求めるアプローチとして標準的な方法である価値反復法と方策勾配法について説明します。

具体では以下の想定です。
– 環境・方策・期待報酬等の強化学習の環境説明
– ベルマン方程式を利用し、Q学習/SARSA等の価値反復法
– 方策勾配定理とREINFORCEなどの方策勾配法
– DQN、及び時間のある範囲でそれ以降の進展(TRPO、PPO等)

これらを実際にPythonで計算しながら手になじむようにできればと考えています。

教科書

サンプルを見る

書籍
すうがくぶんかのオリジナルテキスト
送付方法
デジタルデータ（jupyter）をメール添付にてお送りいたします

※ テキスト代は受講料に含まれています。

講義の目標

・強化学習の問題設定が理解できている。
・価値反復法と方策勾配法が理解できている。
・Pythonで強化学習の基本的な実装ができる

前提とする知識

Python言語（特にnumpy, matplotlib）の基本的な使い方に親しみがある。
高校数学IIICまでの微分の計算に親しみがある。

カリキュラム

Curriculum

価値反復法

・強化学習の問題設定、用語定義
・価値反復法の設定
　- ベルマン方程式
　- 価値の推定方法について
　- SARSA

方策勾配法

・価値反復法の復習
・方策勾配法の説明
– 方策勾配定理の紹介
– 計算方法について
・Deep Q-Network (DQN) の紹介
・方策勾配法の課題と最近の進展

Message

講師からのメッセージ

用語は複雑なこともあり最初はとっつきにくい分野ですが、応用の広い分野なので一緒に頑張っていければと思います。

受講生の声

Voice

AlphaGoが知りたくて受講した

受講講座強化学習入門：機械学習の数理シリーズ

AlphaGoが知りたくて、基礎から勉強するために受けてみました。DQNの話など面白かったです。勉強を深めていくきっかけになりました。
経済学の知識が強化学習でも使われていると聞いて

受講講座強化学習入門：機械学習の数理シリーズ

学生の頃、経済学を勉強していたのですが、関連する知識が強化学習でも使われていると聞いて面白そうだと思い受けてみました。Q学習や方策勾配法など、さまざまなアルゴリズムの基礎に触れることができて楽しかったです。

講座情報

Information

講座名	強化学習入門：機械学習の数理シリーズ
担当講師	竹川洋都
開講スケジュール	計2回の集中講義になります。第1回 2025年8月24日(日) 10:00-15:00 第2回 2025年8月31日(日) 10:00-15:00
受講方法	Zoomによるオンライン講座
教科書	すうがくぶんかのオリジナルテキスト ※ テキスト代は受講料に含まれています。
受講料	全2回　税込34,500円
お支払い方法	クレジットカード支払いは本ページ下部「受講料のお支払いについて」よりお願いいたします。
準備物	インターネット上に接続ができ、Google Colabが利用できるPC。

特記事項

・授業は録画されます。録画（アーカイブ動画）は授業終了から5年間オンラインにて繰り返しご視聴いただけます。（ダウンロード不可）
・アーカイブ視聴のみの受講も可能です。お急ぎの方は、開講済みの講座のアーカイブ動画にてご受講いただけます。

受講料のお支払いについて

Payment options

強化学習入門：機械学習の数理シリーズ講座のクレジットカード決済フォームです。（決済にはStripeというサービスを使っています。）

下記のボタンを押すと該当する集団講座のチケットをご購入いただけます。

消費税については内税(10%)です。
全てのチケットの有効期限はご購入日より1年となっていますのでご注意ください。

※ボタンを押すと、stripeの決済ページへ遷移します。

全2回
Choose an amount 強化学習入門（シリーズ機械学習の数理:9月）

アーカイブ講座の動画販売

Archive video

2020年前期分よりオンライン授業を録画し、授業の録画販売（アーカイブ販売）を行っております。

視聴期限は5年

自分のペースで学習できます。

開講時と同じ受講料

お気に入りの講師の
過去の講義も購入できます。

Slackにて質問できます

アーカイブ講座の場合も、
質問等は受け付けます。

注意事項

アーカイブ講座の動画購入をご検討いただく場合は、下記についてご確認をお願いいたします。

お申し込み時にご登録いただいたメールアドレス宛に、講義の録画を共有させていただきます。
※Googleドライブ上のファイルを共有するため、gmailアドレス以外の場合は、共有フォルダにアクセスする際に、自動でメールに送られてくる確認コードの入力が必要になる場合がございます。
受講料は、開講時と同じ受講料となります。
動画の視聴期限は購入後、5年となっております。
講座内容に関するご質問等がある場合で、Slack以外でのご質問をご希望される場合はお問合わせください。（別途受講料が発生する個別指導での対応となる場合がございます。）

開講中講座の途中参加について

本講座は開講中の講座はございません。
アーカイブ講座(録画購入）にてご受講いただけます。
アーカイブ講座(録画購入）のお申し込みはこちら

講座名	動画内容	講師名	受講料
強化学習入門：機械学習の数理シリーズ 2020年後期	全2回	内場崇之	34,500円

年度別講座情報

年度	講座情報
ー	本講座は2020年後期のみの開講です。

アーカイブ講座（録画購入）のお申し込みはこちら

講座のお申し込み・ご相談は
気軽にお問い合わせください。

お問い合わせ