本のメモ

読んだ本の内容をメモしていきます。たまに数式が読み込めないことがあるので、その時にはリロードしてみてください。

【これならわかる深層学習入門】Chapter2を読みました 1

ちょっと忙しかったので久しぶりの更新。

www.kspub.co.jp

Chapter2 機械学習と深層学習

2.1 なぜ深層学習か?

[p.6]

[参考 2.1 ] ノーフリーランチ定理

特化してチューニングしたアルゴリズムには勝てない。汎用アルゴリズムは存在しないが、我々が解きたい問題をだいたい良い性能で解けるものはあるかも。証明は結構難しい。矢吹先生、伊庭先生のこのpdfが証明の概要について書かれている。

2.2 機械学習とは何か

[p.7] 

学習とは、あるタスク T について、そのパフォーマンス評価尺度  P で測られたタスクの実行能力が経験  E を通じて向上していくこと。

2.2.1 代表的なタスク

[p. 7,8]

(1) クラス分類

 \mathrm{x} \longrightarrow y(\mathrm{x}) \in \{0, 1\}

(2) 回帰

 \mathrm{x} \longrightarrow \mathrm{y} (\mathrm{x}) \in \mathbb{R}

2.2.2 さまざまななデータセット

[p.9,10]

(1)MNIST

MNISTを使ったtensorflowの初心者向けチュートリアル

http://tensorflow.classcat.com/2016/03/09/tensorflow-cc-mnist-for-ml-beginners/

MNIST

http://yann.lecun.com/exdb/mnist/

(2)ImageNet(重くて開かないかも)

http://www.image-net.org/

2.3 統計入門

2.3.1 標本と推定

[p.11]

母集団の性質はデータ生成分布 P_{data} (x) に特徴付けられているとする。

普通統計ではこれを母集団分布と言うけど、確かにこの呼び方の方がイメージがわきやすいかも。

[p.12]

 P_{data} (x) をよく近似出来る分布をモデル分布といい P(x; \mathrm{\theta}) で表す。

2.3.2 点推定

[p.13] 推定量の満たすべき性質

(1) バイアスが小さい

 b(\hat{\mathrm{\theta}}) = E[\hat{\mathrm{\theta}} ] - \mathrm{\theta^{*}}

バイアスが0なら不偏推定量 \lim_{N \to \infty} b(\hat{\mathrm{\theta}}) = 0 なら漸近不偏推定量

ここ教科書は b(\mathrm{\theta}) になってるけど間違いだと思う。

(2) 分散が小さい

(3) 一致性

[p.14]

ここからはガウス分布とベルヌーイで具体的に計算。

2.3.3 最尤推定

[p. 18]

本来は尤度 L(\mathrm{\theta}) を最大化するのだが、機械学習では最小化問題を扱うことが多いので、負の対数尤度 - \log L(\mathrm{\theta}) を最小化すると表現することが多い。

2.4 機械学習の基礎

ここ長いので次回。