連立方程式は行基本変形で解ける。
行列を使った表記ができ、行基本変形は行列の変形と言える。
\(A\)に対して右からかけても左からかけても単位行列\(I\)になる行列\(A^{-1}\)をAの逆行列という。
$$AA^{-1}=A^{-1}A=I$$
以下のような式が成り立つようなベクトル\(\vec{x}\)とλがある。このとき\(\vec{x}\)と係数λをベクトル行列\(A\)に対する固有値、固有ベクトルという。 $$A\vec{x} = λ\vec{x}$$
ある実数を正方形に並べて作られた行列\(A\)が固有値\(λ_1\), \(λ_2\)…とそれに相当する固有ベクトル\(\vec{v}_1\), \(\vec{v}_2\)を持っているとする。
\begin{align} Λ=\begin{pmatrix} \lambda_1 & & \ & \lambda_2 & \ & & \ddots \ \end{pmatrix} \end{align}
\begin{align} V=\begin{pmatrix} \vec{v}_1 & \vec{v}_2 & \ldots \end{pmatrix} \end{align}
それらの関係は以下となり、行列の累乗の計算が容易になる。 $$AV=VΛ$$ $$A=VΛV^{-1}$$
正方行列以外も固有値分解みたいなことができる。
$$M\vec{v}=σ\vec{u}$$ $$M^⊤\vec{u}=σ\vec{v}$$
このような特殊な単位ベクトルがあるならば特異値分解ができる。 $$M = USV^\top$$
\(MV = US\) -> \(M = USV^{\top}\)
\(M^{\top}U = VS^{\top}\) -> \(M^{\top} = VS^{\top}U^{\top}\) これらの積は
\(MM^{\top} = USV^{\top}VS^{\top}U^{\top} = USS^{\top}U^{\top}\)
\(MM^{\top}\)は正方行列になっている。\(SS^{\top}\)は固有値に見える。 \(MM^{\top}\)を固有値分解すれば、その左特異ベクトルと特異値の2乗が求められる。
2種類の確率がある。
$$\displaystyle P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数}$$
$$P(\overline{A}) = 1 - P(A)$$
ある事象Bが与えらえれた下で、Aとなる確率
$$\displaystyle P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{n(A \cap B)}{n(B)} $$
AとBの事象が独立な場合、同時確立は以下となる。
$$P(A \cap B) = P(A)P(B|A) = P(A)P(B)$$
$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$
((P(A \cap B)\)の部分は、2回数えてしまった共通部分を引いている。
$$P(A)P(B|A) = P(A)P(B|A)$$
事象 | 裏が0枚 表が4枚 | 裏が1枚 表が3枚 | 裏が2枚 表が2枚 | 裏が3枚 表が1枚 | 裏が4枚 表が0枚 |
---|---|---|---|---|---|
確率変数 (裏が0、表が1と対応させた和とした) | 4 | 3 | 2 | 1 | 0 |
事象が発生した回数 | 75 | 300 | 450 | 300 | 75 |
事象と対応する確率 | 1/16 | 4/16 | 6/16 | 4/16 | 1/16 |
その分布における、確率変数の「ありえそう」な値
$$\displaystyle \sum_{k=1}^{n}P(X = x_k)f(X = x_k)$$
$$\displaystyle \int P(X = x)f(X = x)dx$$
$$分散Var(f) \ = E\left( (f_{(X=x)} - E_{(f)})^2 \right) \ = E\left( f^2_{(X=x)} \right) - \left(E_{(f)}\right)^2 \ $$
$$共分散Cov(f, g) \ = E \left( \left( f_{(X=x)} - E(f) \right) \left( g_{(Y=y)} - E(g) \right) \right) \ = E(fg) - E(f)E(g) $$
分散は2乗してるので元のデータと単位が変わってしまう。ルートをとれば元の単位に戻る。
$$ σ = \sqrt {Var(f)} \ = \sqrt { E\left( (f_{(X=x)} - E_{(f)})^2 \right) }$$
コイントスのイメージ。表と裏の出る割合が等しくなくても使える。
$$P(x|μ) = μ^x(1-μ)^{1-x}$$
xは0(裏)か1(表)として、表が出る確率μ=1/3としたら、裏が出る確率はx=0として計算できる。
サイコロを転がすイメージ。名前だけ覚えておこう。
ベルヌーイ分布の多試行版。
$$\displaystyle P(x|λ, n) \ = \frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x} $$
釣鐘型の連続分布。真の分布がわからなくてもサンプルが多ければ正規分布に従う。
母集団を特徴づける母数(パラメーター:平均など)を統計学的に推測すること。
真の値を\(θ\)とすると推定量または推定値は\(̂\hatθ\)のように表す
母集団から取り出した標本の平均値。点推定の代表的なもの。
$$\displaystyle \hatσ^2= \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2$$
標本分散の補正。
標本分散は、一致性は満たすが、不偏性を満たさない。たくさんのデータのばらつき具合と小数のデータのばらつき具合だと、小数の方がばらつく。そのため補正する。
$$\displaystyle s^2 = \frac{n}{n-1} \times \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline x)^2 $$
情報の変化は比率で捉えている。ΔW
$$I(x) = - \log(P(x)) = \log(W(x))$$
自己情報量の期待値。
$$H(x) = E(I(x)) \ = -E(\log(P(x)) \ = -\sum(P(x)\log(P(x)) $$
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。 \(D_{KL}(P||Q)\)はPからみたときのQはどれくらい情報が違うのかという情報利得。
$$D_{KL}(P||Q) \ = E_{x〜P}\left[\log{\frac{P(x)}{Q(x)}}\right] \ = E_{x〜P}\left( \log(P(x)) - \log(Q(x)) \right) = E_{x〜P}\left( I(Q(x) - I(P(x)\right) \ $$
カルバック・ライブラー ダイバージェンスの一部を取り出したもの