クラスタリングの発展的な話題(シリーズ機械学習の数理)
2020年度11月開講講座の録画販売についてお申し込み受付中です。
講座の概要
この講座はシリーズ機械学習の数理の11月分です。
多変量解析や機械学習の一手法として、与えられたデータから特徴を取り出して類似のデータたちをまとめるクラスタリングがあります。クラスタリングの入門的な解説でよく扱われる手法として、データが量的変数であるような場合のk-means法・Ward法があります。本講座ではそこから一歩先に進んで、より発展的なクラスタリングの話題について触れていきます。今回は、
- 前半 : 量的変数とカテゴリ変数が混在するようなデータでのクラスタリング
- 後半 : 密度準拠型のクラスタリング
を紹介します。各手法を説明するにあたっては、Python言語によるコーディング例を与え、またアルゴリズムのアイディアを数学の言葉を使いながら説明することで、ある程度のイメージを掴んでもらうことを目標にします。
受講にあたって
受講する上で必要な知識
- k-means法・Ward法(弊社講座Pythonで学ぶ機械学習入門、続・初級統計学程度)
- 基本的なPC操作
身に付けられるスキル
- カテゴリ変数が含まれるデータにおけるクラスタリングの注意点
- 量的変数とカテゴリ変数が混在するデータに対するクラスタリング
- 密度準拠型のクラスタリングのコーディングと仕組みの理解
カリキュラム
前半 : 量的変数とカテゴリ変数が混在するようなデータでのクラスタリング
k-means法やWard法は、データが量的変数だけから出来ていることを想定しています。一方、カテゴリ変数が入った時には、データ点の間の距離の測り方をよく考えないと不自然に見えるという問題点があります。そこで、Gower距離と言うカテゴリ変数を含むデータにおけるデータ点の間の距離を紹介し、これを用いたクラスタリング(例えばk-prototype, Gower距離を用いた階層クラスタリング)を説明します。
後半 : 階層クラスタリングの手法からHDBSCAN
クラスターを作るアイディアの一つに、散布図上のデータ点の密集しているところを一つのクラスターにまとめるというものが考えられます。これは密度準拠型クラスタリングと呼ばれているものです。この手法はk-means法やWard法とは異なったアイディアに基づいているため、k-means法やWard法ではうまくクラスタリングが出来なくても、密度準拠型クラスタリングならうまくクラスタリングできるという場合があります。今回は、密度準拠型クラスタリングの例としてDBSCANとHDBSCANを学んでいきます。
お申込み
お申し込みは、お申込フォームからお願いします。
※お手数ですが、件名について『クラスタリングの発展的な話題』を選択のうえ送信をお願いします。
名称 | クラスタリングの発展的な話題(シリーズ機械学習の数理) |
---|---|
講師 | 内場崇之 |
日程 | 計2回の集中講義になります。 第1回 11月1日(日) 10:00-15:00 第2回 11月8日(日) 10:00-15:00 |
場所 | Zoomによるオンライン講座となります。 |
教科書 | 講師オリジナルテキスト ※ テキスト代は受講料に含まれています。 |
受講料 | 全2回34,500円 クレジットカード支払いはこちらのページから。 |
持ち物 | ・筆記用具 ・Pythonをインストールしたパソコン |