Zufälliger Wald für Datenwissenschaftler im Jahr 2021

Die Ensemble-Technik, Absacken und Einfügen, Bootstrapping, Hard-Voting, Soft-Voting, Bootstrapping und mehr

Vollständige Roadmap:

Zufallswald:

Angenommen, Sie stellen Tausenden von zufälligen Personen eine komplexe Frage und aggregieren dann ihre Antworten. In vielen Fällen werden Sie feststellen, dass diese aggregierte Antwort besser ist als die Antwort eines Experten. Dies wird als Weisheit der Menge bezeichnet. Wenn Sie die Vorhersagen einer Gruppe von Prädiktoren (z. B. Klassifikatoren oder Regressoren) aggregieren, erhalten Sie häufig bessere Vorhersagen als mit dem besten einzelnen Prädiktor. Eine Gruppe von Prädiktoren wird als Ensemble bezeichnet. Daher wird diese Technik als Ensemble-Lernen bezeichnet, und ein Ensemble-Lernalgorithmus wird als Ensemble-Methode bezeichnet.

Random-Forest wird auch als Absacktechnik bezeichnet. Durch Bootstrapping und Bagging wird ein Wald von Entscheidungsbäumen erstellt. Jeder Baum im Wald verhält sich wie ein schwacher Lernender, den dieser schwache Lernende mit dem ML-Modell vergleichen kann, der auf einem schwachen Lernenden jeden schwachen Lernenden anhand von Bootstrap-Beispieldaten (train_X, train_y) vorhersagen und auf test_X vorhersagen kann, was Random-Forest alles zusammensetzt Ergebnisse und gibt Ihnen die genauesten Ergebnisse. Dies bedeutet, dass alle einzelnen schwachen Lernenden in starke Lernende umgewandelt werden. Dies geschah hier durch Bootstrapping des Datensatzes und aufgrund des Ensembles aller Entscheidungsbäume überwunden sie das Problem der geringen Verzerrung und der hohen Varianz, das den Entscheidungsbaum zuvor überanpasst. Ein gutes Beispiel für Random-Forest im wirklichen Leben ist, wer Milliardär oder Kaun Banega Crorepati werden möchte. Die klassische Lebensader dieser beliebten Show ist die Zielgruppe, in der das Publikum nach der Frage gefragt wurde und die vier verfügbaren Optionen ihre Stimmen geben Bei dieser Option sind die meisten Stimmen (in Prozent%) ausgewählt.

Alle Terminologie umfasst den Random-Forest-Algorithmus.

1. Ensemble-Technik.

Die Ensemble-Technik führt das Absacken durch und das Bootstrapping (mit dem Ersetzen des Features) generiert eine n-Nummer des Entscheidungsbaums, wobei jeder Baum oder schwache Lernende aus dem Wald anhand von Testdaten (Klassifizierung oder Regression) Vorhersagen trifft. Random-Forest kombiniert alle Vorhersagen und Ergebnisse in einer einzigen Vorhersage durch den Abstimmungsklassifikator (harte Abstimmung oder weiche Abstimmung) oder ein Durchschnitt der Vorhersage (Regression) wird als Ensemble-Technik bezeichnet.

2. Hard-Voting und Soft-Voting.

Der Klassifikator für die Mehrheitsentscheidung wird als Klassifikator für harte Abstimmungen bezeichnet. Zum Beispiel sehen Sie dreimal 1 und einmal 0, indem Sie hart abstimmen. 1 wird ausgewählt, um das Ergebnis vorherzusagen. In sci-kit-learn wird die Klasse mit der höchsten Wahrscheinlichkeit vorhergesagt, gemittelt über alle einzelnen Klassifikatoren , die als Soft-Voting bezeichnet werden . man hat 0,75 im Gegensatz dazu hat Null eine Wahrscheinlichkeit von 0,25, indem diese 1 als weicher Abstimmungsklassifikator ausgewählt wird.

3.Bootstrapping:

In der Statistik wird Resampling mit Ersetzung als Bootstrapping bezeichnet. Lassen Sie uns verstehen, was dieser Satz zu sagen versucht, wenn Daten an einen Algorithmus übergeben werden und eine n-Anzahl von Stichproben generiert, um die Entscheidungsbäume zu erstellen und zu trainieren. Diese n-Stichproben durch Auswahl einiger bestimmter Datensätze, Merkmale (x, y) des Datensatzes, durch Stichproben des Datensatzes mit einem Ersatz, was bedeutet, dass eine oder mehrere Datensatzinstanzen wiederholt werden können. Laut Statistikern können von Daten nur 63% der Daten erneut abgetastet werden.

4. Zufällige Patches und zufällige Unterräume:

Der BaggingClassifier () von sklearn.ensemble unterstützt die Funktion dieser Art der Abtastung, die durch vier Hyperparameter gesteuert wird: 1. max_features 2. bootstap_features 3.max_samples 4. bootstrap. Diese Technik ist nützlich, wenn Sie mit hochdimensionalen Dateneingaben wie der Bildklassifizierung arbeiten. Das Abtasten mit Datensätzen und Merkmalen (x, y) wird als zufällige Patches bezeichnet. Dieser Parameter wird durch Bootstrap = True, Bootstrap_Features = True und max_samples = 1.0

eingestellt

Einen Hyperparameter = False und max_samples kleiner als 1,0 zu halten, wird als zufällige Unterräume bezeichnet.

5. Absacken und Einfügen:

Beim maschinellen Lernen steht Bagging für Bootstrapping und Aggregieren. Resampling von Daten durch Ersetzen dieser als Bagging bezeichneten Methode. Aus dem Datensatz werden alle Datenpunkte gebootet und durchlaufen die Entscheidungsbäume und generieren n-Vorhersagen, wobei alle Vorhersagen dieses gesamten Prozesses zusammengefasst werden, der als Bagging bezeichnet wird.

Wenn die ersatzlose Abtastung als Pasting bezeichnet wird.

Nehmen wir an, wir nehmen fünfhundert Entscheidungsbäume, um die Vorhersagen aller Bäume zu trainieren und zu überprüfen, wie in der folgenden Grafik dargestellt. Vergleichen Sie gemäß der Grafik einen mit fünfhundert Bäumen, bei denen die Baumaggregation eine bessere Leistung erbringt als das Individuum.

6. Out-Of-Bag-Bewertung.

Beim Absacken werden einige Instanzen für einen bestimmten Prädiktor mehrmals abgetastet, während andere nicht abgetastet werden. Der Standardwert für RandomForestClassifier () ist ein Beispiel für ein Trainingsdatensatz mit Ersatz (Bootstrap = True). Dies bedeutet durchschnittlich nur etwa 63% der Trainingsstichprobe für jeden Prädiktor. Die verbleibenden 37% der Trainingsinstanzen, für die keine Stichprobe erstellt wurde, werden als OOB-Instanzen (Out-Of-Bag) bezeichnet.

Da der Prädiktor oder Entscheidungsbaum die OOB-Instanzen während nie sieht, kann er diese Instanzen auswerten, die als OOB-Score bezeichnet werden. In Scikit-learn können Sie oob_score = True in RandomForestClassifier () festlegen, um eine automatische OOB-Bewertung anzufordern. OOB-Score nützlich, um neue Instanzen seiner Leistung zu überprüfen.

Ein weiterer beliebter Begriff heißt Out-Of-Bag-Fehler . In jedem Prädiktor gibt es eine Instanz, die vorhersagt. Diese Vorhersage und der tatsächliche Datenpunkt unterscheiden sich geringfügig voneinander, wenn wir die tatsächlichen Minusvorhersagen subtrahieren. Dies wird als OOB-Fehler bezeichnet.

Implementierung des Random Forest Classifier in Scikit-Learn.

Daten sehen wie im folgenden Bild aus.

Zeichnen Sie den Entscheidungsbaum von Random-Forest:

Sie können beliebig viele Bäume aus dem Wald zeichnen, in denen ich nur 7 Bäume als Referenz verwende.







Referenz:

Praktisches maschinelles Lernen mit Scikit-Learn, Keras & amp; TensorFlow: