FIG-051

勾配降下法 — 坂を下って誤差の谷を探す

AI 2026.06.25 公開読了約11分

ニューラルネットの「学習」とは、つまるところ「予測のズレ（誤差）を、できるだけ小さくするパラメータを探すこと」です。でも、パラメータの取りうる値は無数にあります。総当たりで試すわけにはいきません。どうやって最小値にたどり着くのでしょう?

答えはとても素朴で、「今いる場所の坂の傾きを調べ、下り坂の方向へ少しだけ進む」。これを繰り返すだけです。霧で谷底が見えなくても、足元の傾きさえわかれば下っていける——これが勾配降下法（Gradient Descent）。下の図1で、ボールを1歩ずつ転がしてみてください。

LOSS LANDSCAPE — 横軸=パラメータ w / 縦軸=誤差。低いほど良い

ステップ数

いまの w

0.70

いまの誤差

6.55

LEARNING RATE — 一歩の大きさ（学習率） 0.80

小さい（慎重・遅い）大きい（大胆・危険）

いまボールは坂の途中にいます。「1歩下る」を押すと、その場の傾きに学習率をかけた分だけ下ります。

図1 — 傾き×学習率の分だけ下る。学習率を上げすぎると谷を飛び越えて発散する

「一歩の大きさ」がすべてを決める

進む向きは傾きが教えてくれます。問題は一歩の大きさ＝学習率です。図1のスライダーで試すと、性格がはっきり分かれます。小さすぎると、なかなか谷底に着かず延々と歩き続けます。逆に大きすぎると、谷を一気に飛び越えて反対側の壁へ。そこでまた大きく跳ね返り、振動しながら、最悪の場合どんどん遠ざかって発散します。

ちょうどよい学習率なら、数歩で谷底にスッと収まります。傾きは谷底に近づくほど緩やかになるので、歩幅も自然と小さくなり、行き過ぎずに止まれるのがポイントです。ニューラルネットの訓練で「学習率」が最重要のつまみと呼ばれるのは、まさにこの図のためです。なお、この坂の傾きを各パラメータについて効率よく計算する手続きが誤差逆伝播（バックプロパゲーション）で、勾配降下法と二人三脚で学習を回しています。

用語ミニ辞書

損失（誤差）: 予測と正解のズレの大きさ。これを最小にするのが学習のゴール。図の縦軸。
勾配（傾き）: その地点で誤差がどちら向きに増えるかを示す坂の傾き。逆向きが「下り」。
学習率: 1ステップで進む歩幅。小さいと遅く、大きいと行き過ぎて発散しやすい。
逆伝播: 各パラメータの勾配（傾き）を出力側から遡って効率よく計算する手続き。

まとめ

勾配降下法は、「足元の傾きを見て、下り坂へ少し進む」のひたすら繰り返しです。霧の中でも谷底を目指せるこの単純な作戦が、巨大なニューラルネットの学習を支えています。図1で学習率を変えると、慎重すぎても大胆すぎても谷底に着けない——ちょうどよい歩幅を選ぶことが、賢くて速い学習の鍵なのです。