Pythonで学ぶ機械学習入門

2022年度前期(04月-08月)のご受講、および、録画販売についてお申し込み受付中です。録画視聴による参加、途中参加も可能。こちらからお申込みいただけます。

2020年4月開講講座 お申込み受付中です。

講座の概要

機械学習が活用されたサービスは需要予測やコンピュータビジョン、レコメンドシステムなど着実に社会に浸透しつつあります。私たちは機械学習を理解することで、これまでは困難とされるようなビジネス課題にも、クリエイティブに挑戦できる可能性があります。

この講座では、機械学習に興味があって自分でエンジニアリングしてみたい、また機械学習を実際にエンジニアリングしているが数学や統計学による理解には自信がないという方を対象に、
1. 機械学習の各手法の理解
2. 前処理や特徴抽出、モデル評価の理解
を数学や統計学による解釈をしっかり踏まえながらサポートし、初歩的な機械学習エンジニアリングが適切に出来るようになることを目指します。

受講にあたって

受講にあたって役に立つ知識
・高校数学IA, IIB (大人のための高校数学IIB)
・Pythonに関する初歩的な知識(基礎から学ぶPython講座)

授業の目標

・機械学習を数学的な表現を通して理解できるようになること。
・機械学習の各手法を実践的な課題に対して適切に応用できるようになること。

カリキュラム

第0章 機械学習の概要
この講座の導入として機械学習によってどのようなことができるのかについて紹介します。
機械学習の手法は目的や数学的な仕組みなどによって分類されています。
たとえば次のような分類が有名です。
教師あり学習:家賃や商品を買う買わないのようなデータを正確に予測することを目的とする
教師なし学習:データの構造についての知見を抽出することを目的とする
機械学習にはこの2つに収まらないような手法もあります。強化学習などがその例です。
この講座では教師あり学習、教師なし学習を主に扱います。
以上のような概要について例を挙げながら説明します。

第1章 Pythonの基礎
この講座ではPython言語を用いて機械学習の様々な計算を行います。
回を重ねるごとに徐々に慣れていけるよう、重要なものは何度も登場するカリキュラムになっていますが、
最初に知っておくとよいPython言語の基礎についてここで説明します。

第2章 線形回帰と教師あり学習の基礎
あなたは引っ越しを検討していて、物件情報を分析しているとしましょう。気になるのは家賃です
部屋面積、築年数のようなデータから家賃を予測することを考えてみます。
このような問題は教師あり学習の、特に回帰問題と呼ばれるものの一つです。
この章では回帰問題の手法の中でも最も基本的な線形回帰分析について紹介します。
線形回帰分析の仕組みについての解説に加えて、教師あり学習の実装全般で基本となることを解説します。

第3章 ロジスティック回帰
前章の線形回帰分析は家賃のような数量で表されるデータに関する分析です。
教師あり学習では「この商品を買うか買わないか」のような所属ラベルを予測する問題もあります。このような問題を分類問題といいます。
ロジスティック回帰は分類問題に対する手法の一つです。
シグモイド関数という関数を用いることがポイントになっています。何故このようなものを用いる必要があるのか、といったような基本的なことから解説します。

第4章 k-means法
クラスタリングの基本的な手法であるk-means法を紹介します。
あなたは居酒屋店を経営しているとします。お店には様々なお客さんが訪れますが大きく分けると
若者グループ:飲み放題でカクテル系をたくさん注文し、揚げ物などもたくさん食べる。
仕事帰り:ビールや日本酒を注文することが多い。重たいものはたくさんは食べられない。
デート:あまり量は注文しない。デザートとか頼む。
のように捉えられるとしましょう。
このような結果を得るための手法をクラスタリングといいます。

第5章 行列とベクトルの基礎
機械学習の数学的な理論を深く学ぶためにはベクトルや行列の扱い方に慣れておくことが重要です。
この講座で扱う部分に絞って基本的な内容を解説します。

第6章 主成分分析
たくさんの変数を持つデータの分析は様々な困難を伴います。
そこで手元のデータをより変数の少ないデータに変換できないかということを考えたくなります。
単に変数を消してしまうことは最も単純な解決策のように思えるかもしれません。
しかし、せっかく集めたデータをみすみす捨ててしまうのも勿体無いので、上手に変換するようなアイディアが必要です。
このような問題を次元削減といいます。
次元削減の基本的な手法である主成分分析を解説します。

第7章 距離学習
類似しているデータ点の間では値が小さく、類似していないデータ点の間では値が大きいような距離の測り方をデータから見つける手法を距離学習といいます。
統計学の入門で扱われる重要なもののひとつとして標準化得点があります。
標準化得点とは各データから平均値を引き、標準偏差で割った値のことで、
平均からの離れ具合を標準偏差を基準に測るようなものです。これはデータの距離の測り方の一種であると考えられます。
単に散布図上の2点を結んだ線分の長さ以外にも、距離と考えられるものはたくさんあります。
標準化得点の多変数への拡張としてマハラノビス距離を紹介し、マハラノビス距離学習を解説します。

第8章 決定木回帰
第2章で物件データの分析をテーマに線形回帰分析を説明しました。
他の回帰問題の手法として決定木回帰分析を紹介します。
決定木回帰で家賃の予測をする場合、築年数は20年より長いか?、面積は10平米より大きいか?と判定をくり返すことで予測値を求めていきます。
線形回帰分析ではできなかった非線形な予測を行うことができます。
決定木はデータロバストでないという欠点を紹介します。
この欠点は次章で説明するランダムフォレストに代表されるアンサンブル学習によって克服されます。

第9章 ランダムフォレスト回帰
複数の学習器の合議制により予測を決めるような手法を一般にアンサンブル学習といいます。
複数の学習器をどのように作るかにはいろいろな方法があり、その中からランダムフォレストを紹介します。
ランダムフォレストは決定木を複数作るアンサンブル学習の方法です。
前章で説明したデータロバストにより決定木がアンサンブル学習に適していることを説明します。

第10章 サポートベクトルマシン
第3章のロジスティック回帰で紹介した分類問題を扱う別の方法として、サポートベクトルマシンを解説します。
サポートベクトルマシンはカーネル法という工夫によって非線形の予測を行うことができる手法です。
線形のカサポートベクトルマシンを通して基本的な考え方を説明した後、カーネル法による発展の説明を行います。

第11章 階層クラスタリング
この章で扱う階層クラスタリングは第4章で扱ったk-means法と同じクラスタリングの手法です。
デンドログラムという図を出力するような手法で結果が目で見てわかりやすいという利点があります。
計算にはウォード法と呼ばれる方法が用いられるます。
最初はこのような方法が用いられる意味が分かりにくいかもしれませんが、式の意味についても解説します。

第12章 クラスタリングの評価
クラスタリングは教師なし学習のひとつであるため、正解・不正解という基準が存在しません。
このような状況でもクラスタリングがうまくいっているかどうかを定量的に測る方法があります。
望ましいクラスタリングとはどういうものか?ということに立ち返りながらクラスタリングの評価方法について説明します。

第13章 モデル評価とモデル選択
教師あり学習における評価は、予測したいものが正しく予測されているかを測ることによって行われます。
教師あり学習の評価をする際は、過学習の問題について考える必要があります。
過学習とは学習に用いたデータに対する精度を高くするあまり、それ以外のデータをうまく予測できないような状態のことをいいます。
これはここまでの章の中でも何度か説明されることですが、この章で改めて体系的に扱い、CrossVaridationなど具体的な方法についても説明します。
過学習を防ぎ、精度の良い予測を得るために適切なモデルを選ぶ必要があります。
闇雲に当て勘で調べるのではなく自動化したり、効率よく探索する方法が知られています。
この章ではGridSearch, RandomSearch, ベイズ最適化による方法を説明します。

第14章 ブースティング
ブースティングはランダムフォレストと同じアンサンブル学習のひとつです。
勾配降下法のアイディアを関数のなす空間に対して行う勾配ブースティングという手法を紹介します。
非常に難しい数式も登場しますが、なるべく具体的に式の意味を解説します。

第15章 UMAP
第6章では次元削減の手法として主成分分析を紹介しました。
別の次元削減手法であるU-mapについて解説します。
UMAPでは
・距離を保存しないように変換する
・t-sneなどにも見られるt分布の確率密度関数を用いる工夫を施す
・次元の呪いへの対策
のような様々な仕組みを通して元のデータをより低次元のデータに変換しています。
これらがどのような意味を持つのか一つずつ解説していきます。

第16章 不均衡データの扱い
現在、Webサイト上の様々なところにWeb広告が掲載されています。
どのような人がWeb広告をクリックするかに関する分類問題を考えてみましょう。
「10回に1回はWeb広告をクリックし広告先のページを閲覧しています」という人はなかなかいないのではないでしょうか。
たいていの人はもっと低頻度であると考えられます。
このような状況でデータを収集すると、広告をクリックした人のデータはごく少数で、大半はクリックしない人のデータになることが予想されます。
このように予測したいラベルの割合が偏っているデータを不均衡データといいます。
不均衡データを扱う際の注意点と、対策の方法として重みづけ、UnderSampling, Oversampling(SMOTE)を紹介します。

第17章 異常検知
次のような問題を考えてみましょう。
・健康診断の結果のデータから病気の有無を判定する
・クレジットカードの利用データから不正利用かどうか判定する
このようなタスクでは集めたデータのほとんどが健康、正規の利用で占められていると考えられます。
一般に、予測の対象が正常(健康、正規の利用など)か異常(病気、不正利用など)であるようなタスクを異常検知タスクといい、
得られるデータはほとんどが正常データであるような不均衡データであることが想定されます。
前章の内容を利用して問題に取り組むこともできますが、異常検知タスクに特化した手法が知られています。
この章では異常検知の手法の中からアイソレーションフォレストを紹介します。

第18章 予測の説明
この講座ではここまでで様々な予測の手法を紹介してきました。線形回帰や決定木のように予測のプロセスがシンプルなものもあれば、カーネルSVMやランダムフォレストのように複雑な計算によって予測を返すものもあります。
一般に複雑な予測器であるほど「この説明変数の値が高いから予測が高くなった」のような解釈を与えることが難しくなり「高い汎化性能が得られたのでok」という結論になりがちです。
しかし、とにかく当てているようだからといってそのまま信用するのは危険です。このような問題に対してアプローチする方法としてLIME, SHAPを紹介します。

第19章 物体検出
物体検出とは、画像に映る物体のラベルを予測するほか、その位置をbounding boxとよばれる矩形で囲うタスクです。
昨今はニューラルネットワークをベースにした物体検出器がたくさん提案されていますが、
かつてはSVMを使ったものやAdaBoostを用いたものが提案されてきました。
ここでは、そのような古典的な手法であるHOG Detectorを紹介します。

お申込み

受講のお申し込みは、お申込フォームからお願いします。

名称Pythonで学ぶ機械学習入門
講師伊集院拓真
日程・土曜クラス : 13:00-15:00, 04/09-08/27, (04/30, 08/13は休講)
* 詳細は下記の開講スケジュールをご参照ください。
場所Zoomによるオンライン講座
※会場が変更となる場合があります。その際には、事前にご連絡をさしあげます。
教科書講師オリジナルテキスト
※ テキスト代は受講料に含まれています。
受講料24,500円/月
クレジットカード支払いはこちらのページから。
持ち物筆記用具, anaconda3がインストールされたPC(コチラからダウンロードください)
その他・体験受講は無料です。1回のみのご参加で辞退された場合、受講料は頂いておりません。
・授業は毎回録画されます。受講月の録画は授業終了から2年間オンラインにて見放題となります(ダウンロード不可)。
・動画視聴のみの受講も可能です。お急ぎの方は、過去講座の録画にてご受講いただけます。

講師からの一言

この講座は様々なバックグラウンドの方々に受講していただきたいと考えています。例えば営業や企画立案の方々は、エンジニアリング出来ることを目指して機械学習を勉強する必要はないと感じるかもしれません。しかし、機械学習が社会に大きく浸透してきている今、機械学習の理解はビジネス課題の解決のヒントになり得ます。また機械学習をソリューションとする場合のビジネスコミュニケーションは、表面的ではない機械学習の理解が必要です。初歩的なエンジニアリングが出来る程度の機械学習の理解は、このようなケースに非常に役に立ちます。また機械学習エンジニアの方々であっても、各手法やモデル評価の数学的・統計学的な理解に自信がない箇所は少なからず存在することもあるでしょう。この講座はそのような痒いところになるべく手が届くような授業を目指していきます。

お申込み

    お名前 (必須)


    講座名(必須)

    お問合せ内容 詳細

    開講スケジュール

    04月30日、08月13日は休講です。

    土曜日クラス
    13:00〜15:00
    第1講4月9日
    第2講4月16日
    第3講4月23日
    第4講5月7日
    第5講5月14日
    第6講5月21日
    第7講5月28日
    第8講6月4日
    第9講6月11日
    第10講6月18日
    第11講6月25日
    第12講7月2日
    第13講7月9日
    第14講7月16日
    第15講7月23日
    第16講7月30日
    第17講8月6日
    第18講8月20日
    第19講8月27日