【これならわかる深層学習入門】Chapter2を読みました 1

ちょっと忙しかったので久しぶりの更新。

www.kspub.co.jp

Chapter2 機械学習と深層学習

2.1 なぜ深層学習か？

[p.6]

[参考 2.1 ] ノーフリーランチ定理

→ 特化してチューニングしたアルゴリズムには勝てない。汎用アルゴリズムは存在しないが、我々が解きたい問題をだいたい良い性能で解けるものはあるかも。証明は結構難しい。矢吹先生、伊庭先生のこのpdfが証明の概要について書かれている。

2.2 機械学習とは何か

[p.7]　

学習とは、あるタスク $T$ について、そのパフォーマンス評価尺度 $P$ で測られたタスクの実行能力が経験 $E$ を通じて向上していくこと。

2.2.1 代表的なタスク

[p. 7,8]

(1) クラス分類

$\mathrm{x} \longrightarrow y(\mathrm{x}) \in \{0, 1\}$

(2) 回帰

$\mathrm{x} \longrightarrow \mathrm{y} (\mathrm{x}) \in \mathbb{R}$

2.2.2 さまざまななデータセット

[p.9,10]

(1)MNIST

MNISTを使ったtensorflowの初心者向けチュートリアル

http://tensorflow.classcat.com/2016/03/09/tensorflow-cc-mnist-for-ml-beginners/

MNIST

http://yann.lecun.com/exdb/mnist/

(2)ImageNet(重くて開かないかも)

http://www.image-net.org/

2.3 統計入門

2.3.1 標本と推定

[p.11]

母集団の性質はデータ生成分布 $P_{data} (x)$ に特徴付けられているとする。

→ 普通統計ではこれを母集団分布と言うけど、確かにこの呼び方の方がイメージがわきやすいかも。

[p.12]

$P_{data} (x)$ をよく近似出来る分布をモデル分布といい $P(x; \mathrm{\theta})$ で表す。

2.3.2 点推定

[p.13] 推定量の満たすべき性質

(1) バイアスが小さい

$b(\hat{\mathrm{\theta}}) = E[\hat{\mathrm{\theta}} ] - \mathrm{\theta^{*}}$

バイアスが0なら不偏推定量。 $\lim_{N \to \infty} b(\hat{\mathrm{\theta}}) = 0$ なら漸近不偏推定量。

→ ここ教科書は $b(\mathrm{\theta})$ になってるけど間違いだと思う。

(2) 分散が小さい

(3) 一致性

[p.14]

ここからはガウス分布とベルヌーイで具体的に計算。

2.3.3 最尤推定

[p. 18]

本来は尤度 $L(\mathrm{\theta})$ を最大化するのだが、機械学習では最小化問題を扱うことが多いので、負の対数尤度 $- \log L(\mathrm{\theta})$ を最小化すると表現することが多い。

2.4 機械学習の基礎

→ ここ長いので次回。

本のメモ

読んだ本の内容をメモしていきます。たまに数式が読み込めないことがあるので、その時にはリロードしてみてください。