t-SNE・UMAPと次元削減

2021年9月開講分、お申込み受付中です。こちらからお申込みいただけます。

講座の概要

変数が多いデータを理解することは容易ではありません。しかし、実世界のデータセットにはたくさんの変数が含まれています。かつてからベンチマークデータセットとして用いられてきたボストンの住宅価格のデータセットは14個の変数、乳がんのデータセットは31個の変数からなります。

私たちはこのような問題を「次元削減」で解決しようとしてきました。主成分分析(Principal Component Analysis)やその拡張である自己符号化器(AutoEncoder)はその代表的な手法です。

しかし近年、これとは異なる次元削減へのアプローチとして確率的近傍埋め込み(Stochastic Neighbor Embedding, 代表例はt-SNE)やUMAP(Uniform Manifold Approximation and Projection)が提案されました。

主成分分析による手書き数字データ(MNIST)の分布
t-SNEによる手書き数字データ(MNIST)の分布

この講座では、
1. 確率的近傍埋め込みが考え出された経緯の説明
2. t-SNEやUMAPの仕組みの説明
を中心に行います。また、パラメトリックt-SNEやパラメトリックUMAP、densMAPなどについても、何ができるようになったのかを焦点に解説します。

受講にあたって

受講する上で必要な知識

  • 機械学習の基本的な知識(特に主成分分析などの次元削減の考え方)
  • 高校数学で習う確率と微分

目標

  • t-SNEやUMAPの計算の仕組みを理解すること。
  • t-SNEやUMAPで何が出来るのか、何に気をつけて結果を読んだほうがよいのかを知り、その対処法として提案されている話を知ること。

カリキュラム

1日目 : t-SNEやUMAPの基本的な話題
前半ではt-SNEやUMAPを実際にPython言語を用いて動かしてみましょう。これらの手法に不慣れな人もいると思いますが、MNISTとよばれる画像データセットを用いてデモをすることでイメージを掴むことができると思います。後半では、t-SNE・UMAPの仕組みについて説明します。t-SNEやUMAPを考える動機は、データの分布の様子を低次元でも確認できるようにすることです。データが分布する様子をfuzzy位相表現というグラフで表し、これとなるべく似たfuzzy位相表現をもつ点の配置を低次元の空間で実現するというアイディアに基づいています。ここは内容の多い部分なので、2日目の前半に説明がまたがる予定です。

2日目 : t-SNEやUMAPの発展的な話題
前半では1日目に続いて、t-SNEやUMAPの仕組みの解説を行います。さて、新しいデータ点が得られたとき、主成分分析ではその主成分得点を計算することが出来ましたが、t-SNEやUMAPではその点が次元削減した空間のどこに配置されるかを計算することはできません。この問題を解決するために提案されたのが、パラメトリックt-SNE・パラメトリックUMAPです。また、t-SNEやUMAPは点の周辺の密度の情報を破壊してしまうことが知られています。この問題に対処するために提案されたのがdensVisとよばれる考え方で、この考え方をt-SNEやUMAPに導入したものをdenSNE・densMAPといいます。後半では、これらパラメトリックt-SNE・パラメトリックUMAP・densVisの概要を説明し、Python言語によるデモを与えます。

受講詳細

受講のお申し込みは、お申込フォームからお願いします。

名称t-SNE・UMAPと次元削減
講師内場崇之
日程計2回の集中講義になります。
第1回 9月4日(土) 10:00-15:00
第2回 9月5日(日) 10:00-15:00
場所

Zoomによるオンライン講座となります。

教科書講師オリジナルテキスト
※ テキスト代は受講料に含まれています。
受講料

全2回34,500円

クレジットカード支払いはこちらのページから。

持ち物・筆記用具

お申込み

お申し込みは、以下のお申込フォームからお願いします。

※お手数ですが、講座名について『t-SNE・UMAPと次元削減』を選択のうえ送信をお願いします。

お名前 (必須)


件名(必須)

お問合せ内容 詳細