最小二乗法メモ

2021-04-30 (最終更新: 2022-01-23)

この記事の目的

最小二乗法はとても広く使われていて解説も多数存在しますが、線形空間のみなど簡単な場合についてしか書かれていないことが多いです。より一般化した問題（例えば、3次元回転をパラメーターにもつとき）に適用しようとすると資料が少ないです。この記事では自分の整理用に、より一般化した最小二乗法について記述します。また、なるべく違う文脈で同じ変数を使わないようにし、変数がどんな集合の元なのか、写像の定義域と値域を明記することを心がけます。

なお、私は数学の専門家ではないので、用語や記号の使い方が間違っていたり主張に必要な条件を見落としている可能性があります。

数式の表記

ベクトルは列ベクトルとして行列とともにbold italicで表記します。Lie群またはその元はカリグラフィーフォントで表記します。微分は分子レイアウト（numerator-layout）とします。

Lie群に関連する表記はSola2018にならいます。この文書では $\oplus$ を $right- \oplus$ 、 $⊖$ を $right- ⊖$ として説明しますが、leftに読み替えることもできます。

最小二乗法とは

誤差を含む互いに独立な観測値 ${\overset{―}{Z_{i}} ∣ \overset{―}{Z_{i}} \in N_{i}}$ が得られたとき、パラメーター $X \in M$ をもつ観測に対応する予測モデル $f_{i} : M \to N_{i}$ を考えます。ここで、 ${N_{i}}$ と $M$ はLie群とします。 $N_{i}$ の接ベクトル空間の基底の数を $n_{i}$ 、 $M$ の接ベクトル空間の基底の数を $m$ とします。

最小二乗法では、モデルを使った予測値と観測値 $\overset{―}{Z_{i}}$ の間に以下のノイズモデルを仮定します。 $\begin{matrix} (1) & \overset{―}{Z_{i}} = f_{i} (X) \oplus ϵ_{i}, ϵ_{i} \sim N (0, Σ_{i}) \end{matrix}$ $Σ_{i}$ は既知とし、 $ϵ_{i}$ は互いに独立とします。 $ϵ_{i}$ は残差（residual）とも呼ばれます。 $ϵ_{i}$ を $X$ の関数として書くと次のようになります。 $\begin{matrix} (2) & ϵ_{i} : M \to T_{Z_{i} (X)} N_{i} = R^{n_{i}}, ϵ_{i} (X) := \overset{―}{Z_{i}} ⊖ f_{i} (X) \end{matrix}$ この残差の重み付き二乗和を最小化するパラメーターを求めるのが最小二乗法です。 $\begin{matrix} (3) & \hat{X} = \underset{X}{argmin} \sum_{i} \frac{1}{2} {ϵ_{i} (X)}^{T} {Σ_{i}}^{- 1} ϵ_{i} (X) \end{matrix}$

ここで、各観測の直積で新たなLie群 $N := \prod_{i} N_{i}$ を定義し、 $\overset{―}{Z}$ も定義します。 $\begin{matrix} (4) & \overset{―}{Z} := (\dots, \overset{―}{Z_{i}}, \dots) \in N \end{matrix}$ 同様にモデルも定義します。 $\begin{matrix} (5) & f : M \to N, f (X) := (\dots, f_{i} (X), \dots) \end{matrix}$ $\overset{―}{Z}$ と $f$ の関係は残差 $ϵ$ を使って以下のようになります。 $\begin{matrix} (6) & \overset{―}{Z} = f (X) \oplus ϵ \end{matrix}$ $\begin{matrix} (7) & ϵ \sim N (0, Σ) \end{matrix}$ $\begin{matrix} (8) & Σ := [\begin{matrix} ⋱ & 0 \\ Σ_{i} \\ 0 & ⋱ \end{matrix}] \in R^{n \times n} \end{matrix}$ $\begin{matrix} (9) & n := \sum_{i} n_{i} \end{matrix}$ 以上の新たに定義した残差を使った最小二乗法は $\begin{matrix} (10) & ϵ : M \to T_{Z (X)} N = R^{n}, ϵ (X) = \overset{―}{Z} ⊖ Z (X) \end{matrix}$ $\begin{matrix} (11) & \hat{X} = \underset{X}{argmin} \frac{1}{2} {ϵ (X)}^{T} Σ^{- 1} ϵ (X) \end{matrix}$ と簡潔に書けます。 $Σ$ はブロック対角行列なので、その逆行列は各ブロックの逆行列を並べたブロック対角行列になります。 $\begin{matrix} (12) & Σ^{- 1} = [\begin{matrix} ⋱ & 0 \\ {Σ_{i}}^{- 1} \\ 0 & ⋱ \end{matrix}] \in R^{n \times n} \end{matrix}$

重みなし最小二乗法は $Σ$ を単位行列とした特殊な場合として扱うことができます。

係数の $\frac{1}{2}$ は便宜上つけているだけで、本質的な意味はないです（最小化する目的関数に任意の正の定数をかけても結果は変わりません）。目的関数を微分したとき、出てくる係数2と打ち消しあって式が簡潔になるといった効果があります。

また、 ${ϵ (X)}^{T} Σ^{- 1} ϵ (X)$ の部分に注目すると、これは $ϵ$ のマハラノビス距離の二乗になっています。つまり、最小二乗法はマハラノビス距離の二乗和の最小化ととらえることもできます。

最尤推定との関係

$(11)$ の式の形になる理論的背景には最尤推定（MLE）があります。あるパラメーターが与えられたときの残差の確率密度関数は $(7)$ から次のようになります。 $\begin{matrix} (13) & p (ϵ ∣ X) = N (0, Σ) = (2 π)^{- \frac{n}{2}} | Σ |^{- \frac{1}{2}} \exp (- \frac{1}{2} {ϵ (X)}^{T} Σ^{- 1} ϵ (X)) \end{matrix}$ 残差が得られたときのパラメーターの尤度は次のようになります。 $\begin{matrix} (14) & L (X ∣ ϵ) = p (ϵ ∣ X) \end{matrix}$ さらに対数尤度を考える次のようになります。 $\begin{aligned} (15) & l (X ∣ ϵ) & = \log L (X ∣ ϵ) \\ (16) & = - \frac{n}{2} \log 2 π - \frac{1}{2} \log | Σ | - \frac{1}{2} {ϵ (X)}^{T} Σ^{- 1} ϵ (X) \end{aligned}$ 尤度を最大化するパラメーターを考えます。 $\begin{aligned} (17) & \hat{X} & = \underset{X}{argmax} L (X ∣ ϵ) \\ (18) & = \underset{X}{argmax} l (X ∣ ϵ) \\ (19) & = \underset{X}{argmin} - l (X ∣ ϵ) \\ (20) & = \underset{X}{argmin} (\frac{n}{2} \log 2 π + \frac{1}{2} \log | Σ | + \frac{1}{2} ϵ (X)^{T} Σ^{- 1} ϵ (X)) \\ (21) & = \underset{X}{argmin} \frac{1}{2} {ϵ (X)}^{T} Σ^{- 1} ϵ (X) \end{aligned}$ 以上のように $(11)$ と $(21)$ が一致し、最小二乗法は残差が平均0の多変量正規分布に従うと仮定した最尤推定量に一致することが確認できました。

実用上の話

以上の議論で最小二乗法が置いている仮定がいくつか出てきました。

各観測は独立
残差の分散が既知
残差が平均0の正規分布に従う

実際は残差の分布や分散を正確に知ることは困難な場合がほとんどなので、正規分布で近似できるとしてしまって分散は適当に決めた正定値行列にすることが多いです。もっと簡単にして適当な正の定数を並べた対角行列もよく使われます。また、最小化する関数に正の定数をかけてもパラメーターの推定値は変わらないため、分散の全体のスケールは不定でもよいです（相対比がわかっていれば十分）。

ただし注意点は、残差が正規分布からあまりにもかけ離れた分布をしている場合や分散を適切に設定しない場合、求めた推定量は最尤推定量でもなんでもないので、ほぼ意味のない値になります。ノイズの特性がわかっていない問題に対しては、データから残差を計算してプロットした上で分布や分散の異方性を確認し、正規分布で近似できるのか確認してから適用したほうがいいでしょう。とりあえずなんでも最小二乗法を使えばいいというわけではありません。

また、あくまでも最尤推定量なので、そもそも最尤推定が適さない問題に対してはベイズ推定などほかの枠組みを用いる必要があります。

最小二乗法の解法

モデルが線形関数の場合は多くの解説があるので、ここでは非線形の場合について記します。非線形最小二乗法に対する閉じた形で書ける解は一般にはなく、ほとんどの場合反復法で数値的に解きます¹。具体的にはガウス・ニュートン法とその派生のレベンバーグ・マーカート法（修正ガウス・ニュートン法）がよく使われます²。ここでは詳細は他の文献に譲り、Lie群に拡張した上で概要を記述します。

ガウス・ニュートン法

$\begin{matrix} (22) & E (X) := \frac{1}{2} {ϵ (X)}^{T} Σ^{- 1} ϵ (X) \in R \end{matrix}$ とおきます。さらに、滑らかであるとします。パラメーターを現在の推定値 $X_{k} \in M$ で固定し、その接ベクトル空間にそってステップ幅 $^{X_{k}} τ \in T_{X_{k}} M = R^{m}$ だけ動かして $E (\cdot)$ を最小化するステップ幅 $^{X_{k}} \hat{τ}$ を考えます。 $\begin{matrix} (23) & ^{X_{k}} \hat{τ} = \underset{^{X_{k}} τ}{argmin} E (X_{k} \oplus^{X_{k}} τ) \end{matrix}$ ガウス・ニュートン法では $ϵ (\cdot)$ を次のように近似します（Sola2018 式43を参照）。 $\begin{array}{r} (24) & ϵ (X \oplus^{X} τ) ≃ ϵ (X) + J (X)^{X} τ \\ (25) & J (X) := \frac{^{X} D ϵ (X)}{D X} \in R^{n \times m} \end{array}$ $(24)$ を $(22)$ に代入して $^{X} τ$ の関数として定義し直します。 $\begin{matrix} (26) & E_{X} (^{X} τ) := \frac{1}{2} (ϵ (X) + J (X)^{X} τ)^{T} Σ^{- 1} (ϵ (X) + J (X)^{X} τ) \in R \end{matrix}$ ステップ幅は次のようになります。 $\begin{matrix} (27) & ^{X_{k}} \hat{τ} = \underset{^{X_{k}} τ}{argmin} E_{X_{k}} (^{X_{k}} τ) \end{matrix}$

$Σ^{- 1}$ は分散共分散行列の逆行列なので、対称行列かつ半正定値行列です。したがって $E_{X} (^{X} τ)$ は凸関数なので、最小値は極小値と一致し、極小値をとるのは1階微分が0になるときです。つまり $(27)$ は次の問題に置き換えられます。 $\begin{matrix} (28) & {\frac{\partial E_{X_{k}} (^{X_{k}} τ)}{\partial^{X_{k}} τ} |}_{^{X_{k}} τ =^{X_{k}} \hat{τ}} = 0 \end{matrix}$ 展開して整理すると次の線形方程式を得ます。 $\begin{matrix} (29) & {J (X_{k})}^{T} Σ^{- 1} J (X_{k})^{X_{k}} \hat{τ} = - {J (X_{k})}^{T} Σ^{- 1} ϵ (X_{k}) \end{matrix}$ 正規方程式と呼ばれるもので、コレスキー分解・QR分解・特異値分解などの行列分解を用いて解くことができます。そして、得られたステップ幅でパラメーターを更新します。 $\begin{matrix} (30) & X_{k + 1} = X_{k} \oplus^{X_{k}} \hat{τ} \end{matrix}$ これを適当な収束条件を満たすまで繰り返すのがガウス・ニュートン法です。

実際は解から遠いときに数値的に不安定になったり収束性が悪い、収束が保証されていないなど実用的ではないので、これに改良を加えたレベンバーグ・マーカート法を用いることが多いです。

次の記事「ガウス・ニュートン法の実装」では、具体例としてパラメーターが線形空間と $S O (3)$ の場合をPythonで実装して説明しています。

特定の問題では反復法以外の解法があります。例えば、点群間の剛体変換を求める問題の場合はUmeyama algorithmと呼ばれる特異値分解を用いた有名な解法があります。 ↩︎
これらは解の近くで2次収束（1反復で有効桁数が2倍になるということ）が期待でき高速に解くことができるのでよく用いられます。問題によっては（例えば深層学習では）勾配降下法など1次収束の手法も使われます。 ↩︎