はじめに

機械学習や信号処理の分野では，モデルから重要な特徴だけを抽出し，シンプルで解釈しやすいモデルを構築するために「スパース性」（多くのパラメータがゼロになる性質）が非常に重視されています．

従来，スパース性を実現する代表的な手法として $ℓ_{1}$ ノルム正則化（Lasso） が広く使われてきました． $ℓ_{1}$ ノルムは強力な手法ですが，原点で「尖っている」ため 微分不可能 である，という大きな課題を抱えています．このため，深層学習で標準的に使われる最急降下法（SGD）やAdamといった勾配ベースの最適化アルゴリズムをそのまま適用できず，近接勾配法やADMMなど，少し複雑な専用のアルゴリズムを必要としていました．

「もっとシンプルに，普段使っているSGDやAdamで $ℓ_{1}$ ノルム正則化を実現できないだろうか？」

この素朴な問いに答えるのが，本記事で紹介する微分可能なスパース正則化です．このアプローチは，微分不可能な正則化項を，等価な微分可能な問題に変換するエレガントな枠組みを提供します．これにより，どんなモデルであっても，使い慣れた最適化手法で簡単にスパース性を導入できるようになります．

この記事では，その基本的な考え方から，具体的な設計方法，そして深層学習への応用までを分かりやすく解説していきます．

スパース正則化の課題：なぜ微分可能性が必要か？

まず，なぜ微分可能な設計が必要なのかを理解するために，スパース正則化の代表である $ℓ_{1}$ ノルムとその課題を振り返ってみましょう．

$ℓ_{1}$ ノルムは，パラメータベクトル $x$ の各成分の絶対値の和で定義されます．

R (x) = ∥ x ∥_{1} = i \sum ∣ x_{i} ∣

この正則化項は，最適化の過程で多くのパラメータを厳密にゼロにできるため，不要な特徴量を自動的に削減し，モデルをシンプルにする効果があります．

しかし，この式の $∣ x_{i} ∣$ の項は， $x_{i} = 0$ の点で微分係数が定義できません．これが，SGDのような勾配を必要とするアルゴリズムを直接使えない根本的な原因です．そのため，近接写像（proximal mapping）という特殊な演算を用いた近接勾配法などの専用アルゴリズムが必要となり，実装がやや煩雑になるという課題がありました．

微分可能なスパース正則化：重み分解という発想

この「微分不可能」という壁を，驚くほどシンプルなアイデアで乗り越える方法が 重み分解（Weight Factorization） です．これは，一つの重みを複数の因子の積で表現し直し（過剰パラメータ化），新しい因子に対して単純な $ℓ_{2}$ 正則化（Ridge）を課すというアプローチです．

基本的なアイデア：2つの因子への分解

最もシンプルなケースとして，元の重みベクトル $w$ を2つの新しいパラメータベクトル $u$ と $v$ の アダマール積（要素ごとの積） で表現し直します．

w = u ⊙ v

そして，元の $ℓ_{1}$ 正則化 $∥ w ∥_{1}$ の代わりに，新しいパラメータ $u, v$ に対して単純な $ℓ_{2}$ 正則化を課した，以下の目的関数を最小化します．

u, v min L (u ⊙ v) + \frac{λ}{2} (∥ u ∥_{2}^{2} + ∥ v ∥_{2}^{2})

なぜこれでうまくいくのでしょうか？AM-GM（相加相乗平均）の不等式を使うと，この変換の仕組みが解き明かせます．各成分 $w_{i} = u_{i} v_{i}$ について考えてみましょう．

u_{i}^{2} + v_{i}^{2} \geq 2 u_{i}^{2} v_{i}^{2} = 2∣ u_{i} v_{i} ∣ = 2∣ w_{i} ∣

この不等式から，新しい正則化項 $∥ u ∥_{2}^{2} + ∥ v ∥_{2}^{2}$ は，常に元の正則化項の2倍（ $2∥ w ∥_{1}$ ）以上になることがわかります．そして，等号が成立するのは $u_{i}^{2} = v_{i}^{2}$ のとき，つまり $∣ u_{i} ∣ = ∣ v_{i} ∣$ となるときだけです．

最適化の過程で $ℓ_{2}$ 正則化項が最小化されると，パラメータは自然とこの等号が成立する点（ $∣ u_{i} ∣ = ∣ v_{i} ∣$ ）に引き寄せられます．その結果， $ℓ_{2}$ 正則化項は $u_{i}^{2} + v_{i}^{2} = 2∣ w_{i} ∣$ となり，全体として元の重み $w$ に $2∥ w ∥_{1}$ のペナルティを課すのと等価になるのです．

このトリックの素晴らしい点は，目的関数全体が $u$ と $v$ について微分可能になることです．

Lpノルムへの一般化：より深い分解へ

この重み分解のアイデアは，さらに一般化できます．Kolbらの論文では，重みをさらに深く， $D$ 個の因子に分解する方法「Deep Weight Factorization (DWF)」が提案されています．

w = w_{1} ⊙ w_{2} ⊙ \dots ⊙ w_{D}

そして，各因子 $w_{d}$ に $ℓ_{2}$ 正則化を課すと，同様の仕組みで，元の重み $w$ には $ℓ_{2/ D}$ ノルム に基づく正則化（ $∥ w ∥_{2/ D}^{2/ D} = \sum_{i} ∣ w_{i} ∣^{2/ D}$ ）が誘導されます．

$D > 2$ の場合， $2/ D < 1$ となり，これは $ℓ_{1}$ ノルムよりも強力なスパース性を誘導する非凸正則化に相当します．非凸正則化は，大きな値を持つ重要なパラメータへの縮小バイアスが少なく，よりスパースな解を得られる傾向があります．つまり，分解を深くするだけで，より高性能な非凸正則化を，微分可能な枠組みで実現できるのです．非凸スパース正則化の重要性に関する解説は非凸スパース正則化入門：Beyond the L1 Norm をご覧ください．

最急降下法による学習アルゴリズム

微分可能なスパース正則化を用いると，学習アルゴリズムは非常にシンプルになります．
元の目的関数 $J (w) = L (w) + λ R (w)$ は，重み分解によって新しい変数（例えば $u, v$ ）に関する微分可能な目的関数 $Q (u, v)$ に変換されます．

Q (u, v) = L (u ⊙ v) + \frac{λ}{2} (∥ u ∥_{2}^{2} + ∥ v ∥_{2}^{2})

この関数 $Q$ は微分可能なので，最急降下法による更新式は単純にその勾配を使って書けます．

u^{(k + 1)} v^{(k + 1)} = u^{(k)} - η \nabla_{u} Q (u^{(k)}, v^{(k)}) = v^{(k)} - η \nabla_{v} Q (u^{(k)}, v^{(k)})

勾配 $\nabla_{u} Q, \nabla_{v} Q$ は，PyTorchやJAXといった自動微分フレームワークがこれを自動的に計算してくれるため，我々は近接写像のような複雑な計算を自前で実装する必要は一切ありません．

応用と利点

この微分可能な正則化の最大の利点は，あらゆる微分可能な学習モデル（特に深層学習モデル）に簡単に組み込めることです．

例えば，深層学習モデルの 枝刈り（プルーニング） に応用できます．学習を通じて多くの重みがゼロに近づくため，学習後には値がゼロに近い重みを削除することで，モデルを軽量化・高速化できます．DWFの元論文では，この手法が従来の枝刈り手法と比較して，同等以上の精度を保ちながら，はるかに高い圧縮率（スパース性）を達成できることが実験的に示されています．

従来手法との比較

微分可能スパース正則化の利点を，従来の $ℓ_{1}$ 正則化と比較して整理してみましょう．

手法	最適化アルゴリズム	実装の容易さ	深層学習との親和性	誘導される正則化
$ℓ_{1}$ 正則化	近接勾配法など	やや複雑	ライブラリ依存	$ℓ_{1}$
微分可能正則化	SGD / Adam	容易	高い	$ℓ_{1}$ , 非凸 ( $ℓ_{p}$ など)

この比較から，微分可能なアプローチが，特に実装の容易さと深層学習フレームワークとの親和性において圧倒的に優れていることがわかります．さらに，分解の深さを変えるだけで，より高度な非凸正則化を扱えるという柔軟性も兼ね備えています．

まとめ

本記事では，微分不可能なスパース正則化を，重み分解と単純な $ℓ_{2}$ 正則化 を組み合わせることで，微分可能で，かつSGDなどの標準的なアルゴリズムで解ける問題に変換するという強力な枠組みを紹介しました．

キーポイント:

重み分解という統一的な発想: 重みを複数の因子の積に分解し，各因子に $ℓ_{2}$ ノルムを課すだけで，元の重みにスパース性を誘導できる．
分解の深さで性質が変わる: 分解の深さ $D$ を調整するだけで， $ℓ_{1}$ 正則化から，より強力な非凸正則化までをシームレスに実現できる．
実装がとにかく簡単: 自動微分フレームワークと非常に相性が良く，既存のモデルに簡単に組み込める．

このアプローチは，単にスパース性を実現するだけでなく，構造化スパース性（グループLassoなど）など，より高度な正則化手法にも拡張可能です[2]．

理論と実践のギャップを埋めるこのエレガントな手法は，今後の機械学習・信号処理の研究と応用において，重要な役割を果たしていくでしょう．

（補足）他の微分可能アプローチ

本記事では，重みを複数の因子に分解する「重み分解」というアプローチを中心に解説しましたが，この「微分不可能性」という課題に立ち向かう研究は，実に様々な角度から活発に行われています．ここでは，その一端を担ういくつかの興味深い研究を紹介し，この分野の「ホットさ」を感じていただければと思います（さほど詳しくないので，もし間違っていたらスイマセン）．

1. 確率的ゲートによる $ℓ_{0}$ 正則化 [3]

スパース性を語る上で究極の目標ともいえるのが $ℓ_{0}$ 正則化です．これは非ゼロのパラメータの「個数」そのものをペナルティとするため，最も直接的にスパース性を促しますが，その組み合わせ的な性質から最適化は極めて困難でした．

Louizosらの研究では，この $ℓ_{0}$ 正則化を確率的な枠組みで微分可能にする独創的な方法が提案されました．

アイデア: 各重みに確率的に開閉する「ゲート」 $z_{j} \in {0, 1}$ を導入し，実際の重みを $\tilde{θ_{j}} = θ_{j} \cdot z_{j}$ と考えます．そして， $ℓ_{0}$ ノルムそのものではなく，その期待値 $E [∥ \tilde{θ} ∥_{0}] = \sum_{j} P (z_{j} = 1)$ を最小化することを考えます．
技術: ゲート $z_{j}$ が従うベルヌーイ分布を，Hard Concrete 分布という連続的な分布で近似します．これにより，再パラメータ化トリック（Reparameterization Trick）が適用可能になり，期待値の勾配を計算できるようになります．

結果として， $ℓ_{0}$ 正則化という離散的な問題を，勾配降下法で学習可能な連続的な最適化問題へと近似することに成功しました．

2. Top-k演算子の微分可能化 [4]

スパース化は，正則化だけでなく，「上位k個の入力パラメータだけを残す」といったTop-k演算子の形でも現れます．これはモデルの枝刈りや，Mixture of Experts (MoE) のルーティング機構などで中心的な役割を果たしますが，これもまた不連続で微分不可能な演算子です．

Sanderらの研究では，凸解析のツールを用いて，このTop-k演算子自体を微分可能にする枠組みを提案しました．

アイデア: Top-k演算を，数学的にはパーミュタヘドロン（Permutahedron） と呼ばれる多面体上の線形計画問題として再定式化します．これは，並べ替え（ソート）のすべての可能性を幾何学的に表現したものです．
技術: この線形計画問題に，例えば $ℓ_{p}$ ノルムのような正則化項を加えて「平滑化」します．この緩和された問題は，Isotonic Optimization（単調性制約付き最適化） という別の問題に帰着でき，高速なアルゴリズムで解くことができます．

このアプローチは，単にペナルティ項を工夫するだけでなく，ネットワーク内で使われる「操作」そのものを微分可能にするという，より汎用的な視点を提供してくれます．

これらの研究が示すように，「微分可能スパース正則化」は，一つの手法を指す言葉ではなく，確率論，凸解析といった多彩な数学的知見を背景に持つ，非常に豊かで活発な研究分野です．これにより，私たちは使い慣れたツール（SGD, Adamなど）を手に，これまで以上に洗練されたモデルの学習に挑むことができるのです．

参考文献

技術的な詳細や実装に関心のある方は，以下の文献を参照してください：

■ 重み分解による微分可能スパース正則化
[1] C. Kolb, T. Weber, B. Bischl, & D. Rügamer. (2025). “Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries,” Published as a conference paper at ICLR 2025.

↓ 微分可能ブロックスパース正則化への拡張
[2] C. Kolb, C. L. Müller, B. Bischl, & D. Rügamer. (2024). “Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization,” arXiv:2307.03571.

■ 確率的ゲートによる微分可能 $ℓ_{0}$ 正則化
[3] C. Louizos, M. Welling, and D. P. Kingma, “Learning sparse neural networks through L0 regularization,” in Proceedings of International Conference on learning representations, 2018. [Online]. Available: https://openreview.net/forum?id=H1Y8hhg0b

■ Top-k演算子の微分可能化
[4] M. E. Sander, J. Puigcerver, J. Djolonga, G. Peyré, and M. Blondel, “Fast, Differentiable and Sparse Top-k: a Convex Analysis Perspective,” arXiv, 2023. doi: 10.48550/ARXIV.2302.01425.

Takanobu Furuhashi

Explorer

微分可能スパース正則化入門：最急降下法で学習する

はじめに

スパース正則化の課題：なぜ微分可能性が必要か？

微分可能なスパース正則化：重み分解という発想

基本的なアイデア：2つの因子への分解

Lpノルムへの一般化：より深い分解へ

最急降下法による学習アルゴリズム

応用と利点

従来手法との比較

まとめ

（補足）他の微分可能アプローチ

1. 確率的ゲートによる $ℓ_{0}$ 正則化 [3]

2. Top-k演算子の微分可能化 [4]

参考文献

Table of Contents

Recent Notes

About Me

非凸スパース正則化入門：Beyond the L1 Norm

微分可能スパース正則化入門：最急降下法で学習する

Takanobu Furuhashi

Explorer

微分可能スパース正則化入門：最急降下法で学習する

はじめに

スパース正則化の課題：なぜ微分可能性が必要か？

微分可能なスパース正則化：重み分解という発想

基本的なアイデア：2つの因子への分解

Lpノルムへの一般化：より深い分解へ

最急降下法による学習アルゴリズム

応用と利点

従来手法との比較

まとめ

（補足）他の微分可能アプローチ

1. 確率的ゲートによるℓ0​正則化 [3]

2. Top-k演算子の微分可能化 [4]

参考文献

Table of Contents

Recent Notes

About Me

非凸スパース正則化入門：Beyond the L1 Norm

微分可能スパース正則化入門：最急降下法で学習する

1. 確率的ゲートによる $ℓ_{0}$ 正則化 [3]