【カリキュラム】2021年前期 t-SNE・UMAPと次元削減:機械学習の数理シリーズ

講義の目標

・t-SNEやUMAPの計算の仕組みを理解すること。
・t-SNEやUMAPで何が出来るのか、何に気をつけて結果を読んだほうがよいのかを知り、その対処法として提案されている話を知ること。

前提とする知識

・機械学習の基本的な知識(特に主成分分析などの次元削減の考え方)
・高校数学で習う確率と微分

教科書

すうがくぶんかのオリジナルテキスト(jupyter形式)

カリキュラム

1日目 : t-SNEやUMAPの基本的な話題

前半ではt-SNEやUMAPを実際にPython言語を用いて動かしてみましょう。これらの手法に不慣れな人もいると思いますが、MNISTとよばれる画像データセットを用いてデモをすることでイメージを掴むことができると思います。後半では、t-SNE・UMAPの仕組みについて説明します。t-SNEやUMAPを考える動機は、データの分布の様子を低次元でも確認できるようにすることです。データが分布する様子をfuzzy位相表現というグラフで表し、これとなるべく似たfuzzy位相表現をもつ点の配置を低次元の空間で実現するというアイディアに基づいています。ここは内容の多い部分なので、2日目の前半に説明がまたがる予定です。

2日目 : t-SNEやUMAPの発展的な話題

前半では1日目に続いて、t-SNEやUMAPの仕組みの解説を行います。さて、新しいデータ点が得られたとき、主成分分析ではその主成分得点を計算することが出来ましたが、t-SNEやUMAPではその点が次元削減した空間のどこに配置されるかを計算することはできません。この問題を解決するために提案されたのが、パラメトリックt-SNE・パラメトリックUMAPです。また、t-SNEやUMAPは点の周辺の密度の情報を破壊してしまうことが知られています。この問題に対処するために提案されたのがdensVisとよばれる考え方で、この考え方をt-SNEやUMAPに導入したものをdenSNE・densMAPといいます。後半では、これらパラメトリックt-SNE・パラメトリックUMAP・densVisの概要を説明し、Python言語によるデモを与えます。

ご質問等がございましたら、何なりとお問合わせください。

お問合わせ・お申込みはこちらのフォームよりお願いいたします。