
本格的な機械学習の理論とPythonによる実践
本講座では、機械学習の理論を数学や統計学による解釈をしっかり踏まえながら講義します。また理論のみでなく、Pythonの機械学習パッケージをつかって実装と一緒に学んでいきます。
※アーカイブ講座の動画販売についてお申し込み受付中です。
統計・機械学習講座
通常講座
Sスタンダード
アーカイブ講座(録画販売中)
本講座では、機械学習の理論を数学や統計学による解釈をしっかり踏まえながら講義します。また理論のみでなく、Pythonの機械学習パッケージをつかって実装と一緒に学んでいきます。
※アーカイブ講座の動画販売についてお申し込み受付中です。
機械学習が活用されたサービスは需要予測やコンピュータビジョン、レコメンドシステムなど着実に社会に浸透しつつあります。私たちは機械学習を理解することで、これまでは困難とされるようなビジネス課題にも、クリエイティブに挑戦できる可能性があります。
この講座では、機械学習に興味があって自分でエンジニアリングしてみたい、また機械学習を実際にエンジニアリングしているが数学や統計学による理解には自信がないという方を対象に、
1. 機械学習の各手法の理解
2. 前処理や特徴抽出、モデル評価の理解
を数学や統計学による解釈をしっかり踏まえながらサポートし、初歩的な機械学習エンジニアリングが適切に出来るようになることを目指します。
すうがくぶんかのオリジナルテキスト
デジタルデータ(PDF)をメール添付にてお送りいたします
・機械学習を数学的な表現を通して理解できるようになること
・機械学習の各手法を実践的な課題に対して適切に応用できるようになること
・高校数学IA, IIB (大人のための高校数学IIB)
・Pythonに関する初歩的な知識(基礎から学ぶPython講座)
この講座の導入として機械学習によってどのようなことができるのかについて紹介します。
機械学習の手法は目的や数学的な仕組みなどによって分類されています。
たとえば次のような分類が有名です。
教師あり学習:家賃や商品を買う買わないのようなデータを正確に予測することを目的とする
教師なし学習:データの構造についての知見を抽出することを目的とする
機械学習にはこの2つに収まらないような手法もあります。強化学習などがその例です。
この講座では教師あり学習、教師なし学習を主に扱います。
以上のような概要について例を挙げながら説明します。
この講座ではPython言語を用いて機械学習の様々な計算を行います。
回を重ねるごとに徐々に慣れていけるよう、重要なものは何度も登場するカリキュラムになっていますが、
最初に知っておくとよいPython言語の基礎についてここで説明します。
あなたは引っ越しを検討していて、物件情報を分析しているとしましょう。気になるのは家賃です
部屋面積、築年数のようなデータから家賃を予測することを考えてみます。
このような問題は教師あり学習の、特に回帰問題と呼ばれるものの一つです。
この章では回帰問題の手法の中でも最も基本的な線形回帰分析について紹介します。
線形回帰分析の仕組みについての解説に加えて、教師あり学習の実装全般で基本となることを解説します。
前章の線形回帰分析は家賃のような数量で表されるデータに関する分析です。
教師あり学習では「この商品を買うか買わないか」のような所属ラベルを予測する問題もあります。このような問題を分類問題といいます。
ロジスティック回帰は分類問題に対する手法の一つです。
シグモイド関数という関数を用いることがポイントになっています。何故このようなものを用いる必要があるのか、といったような基本的なことから解説します。
クラスタリングの基本的な手法であるk-means法を紹介します。
あなたは居酒屋店を経営しているとします。お店には様々なお客さんが訪れますが大きく分けると
若者グループ:飲み放題でカクテル系をたくさん注文し、揚げ物などもたくさん食べる。
仕事帰り:ビールや日本酒を注文することが多い。重たいものはたくさんは食べられない。
デート:あまり量は注文しない。デザートとか頼む。
のように捉えられるとしましょう。
このような結果を得るための手法をクラスタリングといいます。
機械学習の数学的な理論を深く学ぶためにはベクトルや行列の扱い方に慣れておくことが重要です。
この講座で扱う部分に絞って基本的な内容を解説します。
たくさんの変数を持つデータの分析は様々な困難を伴います。
そこで手元のデータをより変数の少ないデータに変換できないかということを考えたくなります。
単に変数を消してしまうことは最も単純な解決策のように思えるかもしれません。
しかし、せっかく集めたデータをみすみす捨ててしまうのも勿体無いので、上手に変換するようなアイディアが必要です。
このような問題を次元削減といいます。
次元削減の基本的な手法である主成分分析を解説します。
類似しているデータ点の間では値が小さく、類似していないデータ点の間では値が大きいような距離の測り方をデータから見つける手法を距離学習といいます。
統計学の入門で扱われる重要なもののひとつとして標準化得点があります。
標準化得点とは各データから平均値を引き、標準偏差で割った値のことで、
平均からの離れ具合を標準偏差を基準に測るようなものです。これはデータの距離の測り方の一種であると考えられます。
単に散布図上の2点を結んだ線分の長さ以外にも、距離と考えられるものはたくさんあります。
標準化得点の多変数への拡張としてマハラノビス距離を紹介し、マハラノビス距離学習を解説します。
第2章で物件データの分析をテーマに線形回帰分析を説明しました。
他の回帰問題の手法として決定木回帰分析を紹介します。
決定木回帰で家賃の予測をする場合、築年数は20年より長いか?、面積は10平米より大きいか?と判定をくり返すことで予測値を求めていきます。
線形回帰分析ではできなかった非線形な予測を行うことができます。
決定木はデータロバストでないという欠点を紹介します。
この欠点は次章で説明するランダムフォレストに代表されるアンサンブル学習によって克服されます。
複数の学習器の合議制により予測を決めるような手法を一般にアンサンブル学習といいます。
複数の学習器をどのように作るかにはいろいろな方法があり、その中からランダムフォレストを紹介します。
ランダムフォレストは決定木を複数作るアンサンブル学習の方法です。
前章で説明したデータロバストにより決定木がアンサンブル学習に適していることを説明します。
第3章のロジスティック回帰で紹介した分類問題を扱う別の方法として、サポートベクトルマシンを解説します。
サポートベクトルマシンはカーネル法という工夫によって非線形の予測を行うことができる手法です。
線形のカサポートベクトルマシンを通して基本的な考え方を説明した後、カーネル法による発展の説明を行います。
この章で扱う階層クラスタリングは第4章で扱ったk-means法と同じクラスタリングの手法です。
デンドログラムという図を出力するような手法で結果が目で見てわかりやすいという利点があります。
計算にはウォード法と呼ばれる方法が用いられるます。
最初はこのような方法が用いられる意味が分かりにくいかもしれませんが、式の意味についても解説します。
クラスタリングは教師なし学習のひとつであるため、正解・不正解という基準が存在しません。
このような状況でもクラスタリングがうまくいっているかどうかを定量的に測る方法があります。
望ましいクラスタリングとはどういうものか?ということに立ち返りながらクラスタリングの評価方法について説明します。
教師あり学習における評価は、予測したいものが正しく予測されているかを測ることによって行われます。
教師あり学習の評価をする際は、過学習の問題について考える必要があります。
過学習とは学習に用いたデータに対する精度を高くするあまり、それ以外のデータをうまく予測できないような状態のことをいいます。
これはここまでの章の中でも何度か説明されることですが、この章で改めて体系的に扱い、CrossVaridationなど具体的な方法についても説明します。
過学習を防ぎ、精度の良い予測を得るために適切なモデルを選ぶ必要があります。
闇雲に当て勘で調べるのではなく自動化したり、効率よく探索する方法が知られています。
この章ではGridSearch, RandomSearch, ベイズ最適化による方法を説明します。
ブースティングはランダムフォレストと同じアンサンブル学習のひとつです。
勾配降下法のアイディアを関数のなす空間に対して行う勾配ブースティングという手法を紹介します。
非常に難しい数式も登場しますが、なるべく具体的に式の意味を解説します。
第6章では次元削減の手法として主成分分析を紹介しました。
別の次元削減手法であるU-mapについて解説します。
UMAPでは
・距離を保存しないように変換する
・t-sneなどにも見られるt分布の確率密度関数を用いる工夫を施す
・次元の呪いへの対策
のような様々な仕組みを通して元のデータをより低次元のデータに変換しています。
これらがどのような意味を持つのか一つずつ解説していきます。
現在、Webサイト上の様々なところにWeb広告が掲載されています。
どのような人がWeb広告をクリックするかに関する分類問題を考えてみましょう。
「10回に1回はWeb広告をクリックし広告先のページを閲覧しています」という人はなかなかいないのではないでしょうか。
たいていの人はもっと低頻度であると考えられます。
このような状況でデータを収集すると、広告をクリックした人のデータはごく少数で、大半はクリックしない人のデータになることが予想されます。
このように予測したいラベルの割合が偏っているデータを不均衡データといいます。
不均衡データを扱う際の注意点と、対策の方法として重みづけ、UnderSampling, Oversampling(SMOTE)を紹介します。
次のような問題を考えてみましょう。
・健康診断の結果のデータから病気の有無を判定する
・クレジットカードの利用データから不正利用かどうか判定する
このようなタスクでは集めたデータのほとんどが健康、正規の利用で占められていると考えられます。
一般に、予測の対象が正常(健康、正規の利用など)か異常(病気、不正利用など)であるようなタスクを異常検知タスクといい、
得られるデータはほとんどが正常データであるような不均衡データであることが想定されます。
前章の内容を利用して問題に取り組むこともできますが、異常検知タスクに特化した手法が知られています。
この章では異常検知の手法の中からアイソレーションフォレストを紹介します。
この講座ではここまでで様々な予測の手法を紹介してきました。線形回帰や決定木のように予測のプロセスがシンプルなものもあれば、カーネルSVMやランダムフォレストのように複雑な計算によって予測を返すものもあります。
一般に複雑な予測器であるほど「この説明変数の値が高いから予測が高くなった」のような解釈を与えることが難しくなり「高い汎化性能が得られたのでok」という結論になりがちです。
しかし、とにかく当てているようだからといってそのまま信用するのは危険です。このような問題に対してアプローチする方法としてLIME, SHAPを紹介します。
物体検出とは、画像に映る物体のラベルを予測するほか、その位置をbounding boxとよばれる矩形で囲うタスクです。
昨今はニューラルネットワークをベースにした物体検出器がたくさん提案されていますが、
かつてはSVMを使ったものやAdaBoostを用いたものが提案されてきました。
ここでは、そのような古典的な手法であるHOG Detectorを紹介します。
講座名 | Pythonで学ぶ機械学習 |
---|---|
担当講師 | |
開講スケジュール |
土曜クラス : 13:00-15:00
2022年4月9日~2022年8月27日
4月30日、8月13日土曜日は休講です。 |
受講方法 |
Zoomによるオンライン講座 |
教科書 | すうがくぶんかのオリジナルテキスト |
受講料 | 税込24,500円/月 |
お支払い方法 |
クレジットカード決済
お手続き方法は「ご利用ガイド」をご確認ください。
|
準備物 | ・筆記用具 |
下記のボタンを押すと該当する集団講座のチケットをご購入いただけます。
※ボタンを押すと、stripeの決済ページへ遷移します。
1ヶ月 | 2ヶ月 | 5ヶ月一括 |
---|---|---|
2020年前期分よりオンライン授業を録画し、授業の録画販売(アーカイブ販売)を行っております。
アーカイブ講座の動画購入をご検討いただく場合は、下記についてご確認をお願いいたします。
開講中の講座でも、参加時までに終了した講義はアーカイブ動画(講義の録画)にてご受講いただけます。
講義内で直接講師にご質問いただけますので、特にお急ぎでなければ、開講中の講座がおすすめです。
開講中の講座をご希望の方はこちらからお申し込みください。
講座名 | 動画内容 | 講師名 | 受講料 | |
---|---|---|---|---|
Pythonで学ぶ機械学習 2022年前期 土曜クラス |
全19回 (各120分) |
伊集院 拓真 | 122,500円 (24,500円/月) | |
Pythonで学ぶ機械学習 2021年後期 土曜クラス |
全19回 (各120分) |
伊集院 拓真 | 122,500円 (24,500円/月) | |
Pythonで学ぶ機械学習 2021年前期 土曜クラス |
全19回 (各120分) |
佐藤 秋彦 | 122,500円 (24,500円/月) | |
Pythonで学ぶ機械学習 2020年前期 土曜クラス |
全19回 (各120分) |
佐藤 秋彦 | 122,500円 (24,500円/月) |
年度別 講座情報
年度 | 講座情報 |
---|---|
全年度共通 | 本講座はカリキュラム等について全年度共通です。 |
講座のお申し込み・ご相談は
気軽にお問い合わせください。