本のメモ

読んだ本の内容をメモしていきます。たまに数式が読み込めないことがあるので、その時にはリロードしてみてください。

【これならわかる深層学習入門】Appendix Aを読みました

www.kspub.co.jp

Appendix A 確率の基礎

[A.1] 確率変数と確率分布

[p.318]

確率と確率分布のはなし。離散確率変数と連続確率変数は区別しない。

[p.319]

[例A.1カプセルの中のコインの例]で同時確率分布(joint probability distribution)を定義。

周辺化

 P(X = x) = \displaystyle \sum_{y} P(X = x, Y = Y) \
[p.320]

[A1.1] 独立性

 P(x, y) = P(x) P(y)

[A1.2]ベルヌーイ分布

 P(X= x) = p^{x} (1-p)^{1-x} xは0か1
[p.321]

[A.2] 連続確率変数と確率質量関数

確率分布に対応するものは確率密度(probability density)

やっぱりこの辺りが曖昧なのは、なんかモヤモヤする。

[A2.1]ガウス分布

ガウス分布は代表的な確率質量関数

本当は確率密度関数。そもそも確率質量関数の定義ってどこかでしてあるのかな?

[p.322]

[命題A.6]多変数の条件付き確率

 P(x | y, z_{1}, z_{2}, \cdots ) = \displaystyle \frac{ P(x, y | z_{1}, z_{2}, \cdots )} {P(y | z_{1}, z_{2}, \cdots) }
[p.324]

[A.2.4]確率の連鎖律

 P(x_{1}, x_{2}, \cdots, x_{M} ) = P(x_{1})  \displaystyle \prod_{m=2}^{M} P(x_{m} | x_{1} \cdots x_{m-1})

例えば3変数の時は

 P(x_{1}, x_{2}, x_{3}) = P(x_{1}, x_{2}) P(x_{3} | x_{1}, x_{2})  = P(x_{1})P(x_{2}|x_{1})P(x_{3} | x_{1}, x_{2})

[A.3] 期待値と分散

[p.324]

[A.3.1]期待値

正規分布の期待値・分散計算 →途中の式変形なんか追えてない。もっと簡単にできると思う。ガウス積分を仮定するなら、 x = x-\mu + \muとして素直に積分するのがいい気がする。

[p.326]

一様分布の期待値計算 →間違えてる。正しくは (a + b)/2

[A.4] 情報量とダイバージェンス

[p.326]

[定義A.9] 自己情報量

 I(x) = - \log P(x)

[定義A.10] シャノンエントロピー(平均情報量)

 H(P) = E_{P} [ I(X) ] = - \displaystyle \sum_{x} P(x) \log P(x)
[p.327]

[定義A.11] 交差エントロピー

 H(P, Q) = E_{P} [ - \log Q(x) ] = -\displaystyle\sum_{x \sim P(x)} P(x) \log Q(x)

[定義A.12] カルバックライブラーダイバージェンス

 D_{KL}(P||Q) = E_{P} \log \displaystyle \frac{P(x)}{Q(x)} = \sum_{x \sim P(x)} P(x)( \log P(x) - \log Q(x))

初心者がこの辺りの定義をこの本の説明だけで納得するのは厳しいかも。甘利先生の情報理論とかがおすすめ。

感想

  1. いくつか誤りや手筋が悪いものもある。一様分布の期待値・分散・・・。

  2. 情報量については、先に何かの本で学んでおく方がいいかも。例えば簡単に読めるものなら甘利先生の情報理論