線形回帰のモデル選択

機械学習モデルを構築する場合は常に、 p 次元の入力のセットから始めることができます。ただし、最良の予測モデルを取得するために、これらの入力のすべてが必要なわけではありません。さらに、すべての p 予測子を使用すると、特に観測数 n p よりも大きくない場合、過剰適合の問題が発生する可能性があります。

では、モデルに含める入力をどのように決定できますか?このタスクは、変数選択を介して解決できます。一般的に、変数選択は、過剰適合を回避し、タスクの次元を減らすために機械学習で使用される方法の1つです。他の方法は、すなわち、元の変数の線形結合として取得された低次元変数を入力として使用する主成分分析、および一部の係数をゼロに近づける(リッジ)またはゼロに等しくする(ラッソ)収縮メソッドです。 。

ただし、この記事では、線形回帰の変数選択にのみ焦点を当て、使用できる3つのアプローチについて説明します。

では、それぞれの調査を始めましょう。それぞれの方法について、予測子が4つしかない非常に簡単な環境を検討します。

最適なサブセットの選択

このアプローチでは、次のアイデアを使用して、可能な2 ^ pの入力の組み合わせをすべて試します。切片のみを含むヌルモデルから始まります:

次に、予測子が1つしかない4つのモデルをトレーニングします。

最後に、RSSが最も低いかR²が最も高いものを選択して保存します。

次に、変数のカップルの可能なすべての組み合わせを使用して他の6つのモデルをトレーニングし、RSSが最も低いモデルまたはR²が最も高いモデルを選択します。

同じ方法で、k = 1、…、4の場合、(p k) ’(二項係数)モデルを毎回トレーニングし、(以前と同じ基準で)最適なモデルを選択します。

次に、それぞれ1、2、3、および4つの変数を持つ4つの選択されたモデルが残ります。最後のステップは、偏りと分散のトレードオフを考慮に入れるために、相互検証または調整済みエラーメトリック(調整済みR²、AIC、BIC…)としてメトリックを使用して最適なものを選択することです。

前述のように、この手順は2 ^ pの異なるモデルの推定を意味します。私たちの場合、変数が4つしかないため、16のモデルの推定になりますが、数百の変数があると、簡単に実現できなくなります。

順方向の段階的選択

前方選択では、以前と同様の手順に従いますが、重要な違いが1つあります。各ステップで選択したモデルを追跡し、新しい1つを推定するのではなく、選択したモデルに変数を1つずつ追加するだけです。毎回モデル化します。

つまり、nullモデルからやり直して、上記の最初のステップを繰り返します。つまり、それぞれ1つの変数を使用して4つのモデルをトレーニングし、最適なモデルを選択します。

これで、6つのモデルをトレーニングする代わりに、選択したモデルを保持し、さらに3つのモデルをトレーニングして、RSSが最小またはR²が最大になる1つの追加変数を探します。

繰り返しになりますが、プロセスの最後に4つのモデルから選択できますが、違いは、今回は10のモデルしかトレーニングしなかったことです。一般に、p個の予測子がある場合、前方選択では、2 ^ pではなくp(p + 1)/ 2モデルをトレーニングする必要があります。

逆ステップワイズ選択

このアプローチの考え方は、順方向選択に似ていますが、順序が逆です。実際、nullモデルから開始するのではなく、完全なモデルから開始し、以前に選択したモデルのトレースを保持しながら、一度に1つの変数を削除します。

つまり、フルモデルからの移行:

4つの異なるモデルをトレーニングします。各モデルは、4つの予測子の1つを削除することによって取得されます。次に、既知の基準で最適なものを選択します。

ここから、3つのモデルをトレーニングして、一度に1つの予測子を削除しますが、上記で選択したモデルは固定したままにします。

最後に、ここでも4つの異なるモデルから選択できます。この場合も、2 ^ pではなく、前方選択と同じ数のモデルを推定する必要があります。

フォワードアプローチとバックワードアプローチの主な違いは、前者はp> n(p = nの場合に停止ルールを追加するだけ)のタスクを処理できるのに対し、後者は完全なモデルがp> nを意味するため、処理できないことです。

結論

次元削減は、一般に機械学習と統計において極めて重要です。正しく実行されれば、問題の複雑さを軽減しながら、ほとんどの情報を保持します。特に今日、大きなpを特徴とするビッグデータが提供されることが多いため、入力から関連する要約情報を推定するために、これらの手法に依存する必要があります。

2020年4月5日に http://datasciencechalktalk.com で最初に公開されました。