LINEARE REGRESSION BEIM MASCHINELLEN LERNEN

Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz, der sich auf die Entwicklung von Algorithmen und statistischen Modellen konzentriert, die aus Daten lernen und Vorhersagen treffen können. Lineare Regression ist auch eine Art maschineller Lernalgorithmus, genauer gesagt a überwachter Algorithmus für maschinelles Lernen das aus den beschrifteten Datensätzen lernt und die Datenpunkte den am besten optimierten linearen Funktionen zuordnet. die zur Vorhersage neuer Datensätze verwendet werden kann.

Zunächst sollten wir wissen, was überwachte Algorithmen für maschinelles Lernen sind. Es handelt sich um eine Art maschinelles Lernen, bei dem der Algorithmus aus gekennzeichneten Daten lernt. Mit gekennzeichneten Daten ist der Datensatz gemeint, dessen jeweiliger Zielwert bereits bekannt ist. Es gibt zwei Arten von überwachtem Lernen:

Einstufung : Es sagt die Klasse des Datensatzes basierend auf der unabhängigen Eingabevariablen voraus. Klasse sind die kategorialen oder diskreten Werte. Wie ist das Bild eines Tieres eine Katze oder ein Hund?
Rückschritt : Es sagt die kontinuierlichen Ausgabevariablen basierend auf der unabhängigen Eingabevariablen voraus. wie die Vorhersage von Immobilienpreisen basierend auf verschiedenen Parametern wie Hausalter, Entfernung von der Hauptstraße, Lage, Fläche usw.

Hier werden wir eine der einfachsten Arten der Regression diskutieren, nämlich Lineare Regression.

Inhaltsverzeichnis

Was ist lineare Regression?
Arten der linearen Regression
Was ist die beste Fit-Linie?
Kostenfunktion für lineare Regression
Annahmen der einfachen linearen Regression
Annahmen der multiplen linearen Regression
Bewertungsmetriken für die lineare Regression
Python-Implementierung der linearen Regression
Regularisierungstechniken für lineare Modelle
Anwendungen der linearen Regression
Vor- und Nachteile der linearen Regression
Lineare Regression – Häufig gestellte Fragen (FAQs)

Was ist lineare Regression?

Die lineare Regression ist eine Art von überwachtes maschinelles Lernen Algorithmus, der die lineare Beziehung zwischen der abhängigen Variablen und einem oder mehreren unabhängigen Merkmalen berechnet, indem er eine lineare Gleichung an beobachtete Daten anpasst.

Wenn es nur ein unabhängiges Merkmal gibt, wird es als bezeichnet Einfache lineare Regression , und wenn es mehr als eine Funktion gibt, wird sie als bezeichnet Multiple lineare Regression .

Wenn es nur eine abhängige Variable gibt, wird diese ebenfalls berücksichtigt Univariate lineare Regression , während es bei mehr als einer abhängigen Variablen als bekannt ist Multivariate Regression .

Warum ist lineare Regression wichtig?

Die Interpretierbarkeit der linearen Regression ist eine bemerkenswerte Stärke. Die Gleichung des Modells liefert klare Koeffizienten, die den Einfluss jeder unabhängigen Variablen auf die abhängige Variable verdeutlichen und so ein tieferes Verständnis der zugrunde liegenden Dynamik ermöglichen. Ihre Einfachheit ist ein Vorteil, da die lineare Regression transparent und einfach zu implementieren ist und als Grundkonzept für komplexere Algorithmen dient.

Die lineare Regression ist nicht nur ein Vorhersageinstrument; Es bildet die Grundlage für verschiedene fortgeschrittene Modelle. Techniken wie Regularisierung und Support-Vektor-Maschinen lassen sich von der linearen Regression inspirieren und erweitern deren Nutzen. Darüber hinaus ist die lineare Regression ein Eckpfeiler beim Testen von Annahmen und ermöglicht es Forschern, wichtige Annahmen über die Daten zu validieren.

Arten der linearen Regression

Es gibt zwei Haupttypen der linearen Regression:

Einfache lineare Regression

Dies ist die einfachste Form der linearen Regression und umfasst nur eine unabhängige Variable und eine abhängige Variable. Die Gleichung für die einfache lineare Regression lautet:
y=eta_{0}+eta_{1}X
Wo:

Y ist die abhängige Variable
X ist die unabhängige Variable
β0 ist der Achsenabschnitt
β1 ist die Steigung

Multiple lineare Regression

Dabei handelt es sich um mehr als eine unabhängige Variable und eine abhängige Variable. Die Gleichung für die multiple lineare Regression lautet:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
Wo:

Y ist die abhängige Variable
X1, X2, …, Xp sind die unabhängigen Variablen
β0 ist der Achsenabschnitt
β1, β2, …, βn sind die Steigungen

Das Ziel des Algorithmus ist es, das zu finden beste Fit-Linie Gleichung, die die Werte basierend auf den unabhängigen Variablen vorhersagen kann.

In der Regression sind Datensätze mit X- und Y-Werten vorhanden, und diese Werte werden zum Erlernen einer Funktion verwendet. Wenn Sie also Y aus einem unbekannten X vorhersagen möchten, kann diese erlernte Funktion verwendet werden. Bei der Regression müssen wir den Wert von Y ermitteln. Daher ist eine Funktion erforderlich, die im Falle einer Regression bei gegebenen X als unabhängigen Merkmalen ein kontinuierliches Y vorhersagt.

Was ist die beste Fit-Linie?

Unser Hauptziel bei der Verwendung der linearen Regression besteht darin, die am besten geeignete Linie zu finden, was bedeutet, dass der Fehler zwischen den vorhergesagten und den tatsächlichen Werten auf ein Minimum beschränkt werden sollte. In der am besten passenden Linie wird es den geringsten Fehler geben.

Die beste Fit-Line-Gleichung liefert eine gerade Linie, die die Beziehung zwischen den abhängigen und unabhängigen Variablen darstellt. Die Steigung der Linie gibt an, um wie viel sich die abhängige Variable ändert, wenn sich die unabhängige(n) Variable(n) um eine Einheit ändert.

Lineare Regression

Hier wird Y als abhängige Variable oder Zielvariable und X als unabhängige Variable bezeichnet, die auch als Prädiktor von Y bezeichnet wird. Es gibt viele Arten von Funktionen oder Modulen, die für die Regression verwendet werden können. Eine lineare Funktion ist die einfachste Art von Funktion. Hier kann X ein einzelnes Feature oder mehrere Features sein, die das Problem darstellen.

Die lineare Regression hat die Aufgabe, einen abhängigen Variablenwert (y) basierend auf einer gegebenen unabhängigen Variablen (x) vorherzusagen. Daher lautet der Name Lineare Regression. In der Abbildung oben ist X (Input) die Berufserfahrung und Y (Output) das Gehalt einer Person. Die Regressionsgerade ist die am besten geeignete Linie für unser Modell.

Wir verwenden die Kostenfunktion, um die besten Werte zu berechnen, um die beste Anpassungslinie zu erhalten, da unterschiedliche Werte für Gewichte oder Linienkoeffizienten zu unterschiedlichen Regressionslinien führen.

Hypothesenfunktion in der linearen Regression

Wie wir zuvor angenommen haben, ist unser unabhängiges Merkmal die Erfahrung, also X, und das jeweilige Gehalt Y ist die abhängige Variable. Nehmen wir an, dass es eine lineare Beziehung zwischen X und Y gibt, dann kann das Gehalt wie folgt vorhergesagt werden:

hat{Y} = heta_1 + heta_2X

ODER

hat{y}_i = heta_1 + heta_2x_i

Hier,

y_i epsilon Y ;; (i= 1,2, cdots , n) sind Etiketten für Daten (überwachtes Lernen)
x_i epsilon X ;; (i= 1,2, cdots , n) sind die eingabeunabhängigen Trainingsdaten (univariat – eine Eingabevariable (Parameter))
hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) sind die vorhergesagten Werte.

Das Modell erhält die beste Regressionsanpassungslinie, indem es den besten θ findet₁und θ₂Werte.

ich ₁ : abfangen
ich ₂ : Koeffizient von x

Sobald wir das beste θ gefunden haben₁und θ₂Werte erhalten wir die am besten geeignete Linie. Wenn wir also endlich unser Modell zur Vorhersage verwenden, wird es den Wert von y für den Eingabewert von x vorhersagen.

So aktualisieren Sie θ ₁ und θ ₂ Werte, um die am besten geeignete Linie zu erhalten?

Um die am besten geeignete Regressionslinie zu erreichen, zielt das Modell darauf ab, den Zielwert vorherzusagenhat{Y} so dass die Fehlerdifferenz zwischen dem vorhergesagten Werthat{Y} und der wahre Wert Y ist minimal. Daher ist es sehr wichtig, θ zu aktualisieren₁und θ₂Werte, um den besten Wert zu erreichen, der den Fehler zwischen dem vorhergesagten y-Wert (pred) und dem wahren y-Wert (y) minimiert.

String als int Java umwandeln

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Kostenfunktion für lineare Regression

Der Kostenfunktion oder der verlustfunktion ist nichts anderes als der Fehler oder die Differenz zwischen dem vorhergesagten Werthat{Y} und der wahre Wert Y.

In der linearen Regression ist die Mittlerer quadratischer Fehler (MSE) Es wird eine Kostenfunktion verwendet, die den Durchschnitt der quadratischen Fehler zwischen den vorhergesagten Werten berechnethat{y}_i und die tatsächlichen Werte{y}_i . Der Zweck besteht darin, die optimalen Werte für den Schnittpunkt zu bestimmen heta_1 und der Koeffizient des Eingabemerkmals heta_2 Bereitstellung der am besten passenden Linie für die gegebenen Datenpunkte. Die lineare Gleichung, die diese Beziehung ausdrückt, lautethat{y}_i = heta_1 + heta_2x_i .

Die MSE-Funktion kann wie folgt berechnet werden:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Mithilfe der MSE-Funktion wird der iterative Prozess des Gradientenabstiegs angewendet, um die Werte von zu aktualisieren. heta_1 & heta_2 . Dadurch wird sichergestellt, dass der MSE-Wert zu den globalen Minima konvergiert, was die genaueste Anpassung der linearen Regressionslinie an den Datensatz bedeutet.

Dieser Prozess beinhaltet die kontinuierliche Anpassung der Parameter ( heta_1) und ( heta_2) basierend auf den aus dem MSE berechneten Gradienten. Das Endergebnis ist eine lineare Regressionslinie, die die gesamten quadratischen Unterschiede zwischen den vorhergesagten und den tatsächlichen Werten minimiert und so eine optimale Darstellung der zugrunde liegenden Beziehung in den Daten liefert.

Gradientenabstieg für lineare Regression

Mithilfe des Optimierungsalgorithmus kann ein lineares Regressionsmodell trainiert werden Gradientenabstieg durch iteratives Ändern der Modellparameter, um die zu reduzieren mittlerer quadratischer Fehler (MSE) des Modells auf einem Trainingsdatensatz. Um θ zu aktualisieren₁und θ₂Werte, um die Kostenfunktion zu reduzieren (Minimierung des RMSE-Werts) und die beste Anpassungslinie zu erreichen, verwendet das Modell Gradient Descent. Die Idee ist, mit zufälligem θ zu beginnen₁und θ₂Werte und aktualisieren Sie die Werte dann iterativ, um minimale Kosten zu erreichen.

Ein Gradient ist nichts anderes als eine Ableitung, die die Auswirkungen auf die Ausgaben der Funktion mit ein wenig Variation der Eingaben definiert.

Lassen Sie uns die Kostenfunktion (J) nach differenzieren heta_1

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Lassen Sie uns die Kostenfunktion (J) nach differenzieren heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Das Ziel der linearen Regression besteht darin, die Koeffizienten einer linearen Gleichung zu finden, die am besten zu den Trainingsdaten passt. Durch Bewegen in Richtung des negativen Gradienten des mittleren quadratischen Fehlers in Bezug auf die Koeffizienten können die Koeffizienten geändert werden. Und der entsprechende Achsenabschnitt und Koeffizient von X ist ifalpha ist die Lernrate.

Gradientenabstieg

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Annahmen der einfachen linearen Regression

Die lineare Regression ist ein leistungsstarkes Werkzeug zum Verständnis und zur Vorhersage des Verhaltens einer Variablen. Sie muss jedoch einige Bedingungen erfüllen, um genaue und zuverlässige Lösungen zu erhalten.

Linearität : Die unabhängigen und abhängigen Variablen stehen in einem linearen Zusammenhang zueinander. Dies impliziert, dass Änderungen der abhängigen Variablen denen der unabhängigen Variablen linear folgen. Das bedeutet, dass es eine gerade Linie geben sollte, die durch die Datenpunkte gezogen werden kann. Wenn die Beziehung nicht linear ist, ist die lineare Regression kein genaues Modell.
Unabhängigkeit : Die Beobachtungen im Datensatz sind unabhängig voneinander. Dies bedeutet, dass der Wert der abhängigen Variablen für eine Beobachtung nicht vom Wert der abhängigen Variablen für eine andere Beobachtung abhängt. Wenn die Beobachtungen nicht unabhängig sind, ist die lineare Regression kein genaues Modell.
Homoskedastizität : Über alle Ebenen der unabhängigen Variablen ist die Varianz der Fehler konstant. Dies weist darauf hin, dass die Menge der unabhängigen Variablen keinen Einfluss auf die Varianz der Fehler hat. Wenn die Varianz der Residuen nicht konstant ist, ist die lineare Regression kein genaues Modell.

Homoskedastizität in der linearen Regression
Normalität : Die Residuen sollten normalverteilt sein. Das bedeutet, dass die Residuen einer glockenförmigen Kurve folgen sollten. Wenn die Residuen nicht normalverteilt sind, ist die lineare Regression kein genaues Modell.

Annahmen der multiplen linearen Regression

Für die multiple lineare Regression gelten alle vier Annahmen der einfachen linearen Regression. Darüber hinaus finden Sie im Folgenden noch einige weitere:

Keine Multikollinearität : Es besteht keine hohe Korrelation zwischen den unabhängigen Variablen. Dies weist darauf hin, dass zwischen den unabhängigen Variablen nur eine geringe oder keine Korrelation besteht. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korrelieren, was es schwierig machen kann, den individuellen Effekt jeder Variablen auf die abhängige Variable zu bestimmen. Wenn Multikollinearität vorliegt, ist die multiple lineare Regression kein genaues Modell.
Additivität: Das Modell geht davon aus, dass die Auswirkung von Änderungen einer Prädiktorvariablen auf die Antwortvariable unabhängig von den Werten der anderen Variablen konsistent ist. Diese Annahme impliziert, dass es keine Wechselwirkung zwischen Variablen in ihren Auswirkungen auf die abhängige Variable gibt.
Merkmalsauswahl: Bei der multiplen linearen Regression ist es wichtig, die unabhängigen Variablen, die in das Modell einbezogen werden, sorgfältig auszuwählen. Das Einbeziehen irrelevanter oder redundanter Variablen kann zu einer Überanpassung führen und die Interpretation des Modells erschweren.
Überanpassung: Überanpassung tritt auf, wenn das Modell die Trainingsdaten zu genau anpasst und Rauschen oder zufällige Schwankungen erfasst, die nicht die wahre zugrunde liegende Beziehung zwischen Variablen darstellen. Dies kann zu einer schlechten Generalisierungsleistung bei neuen, unsichtbaren Daten führen.

Multikollinearität

Multikollinearität ist ein statistisches Phänomen, das auftritt, wenn zwei oder mehr unabhängige Variablen in einem multiplen Regressionsmodell stark korrelieren, was es schwierig macht, die individuellen Auswirkungen jeder Variablen auf die abhängige Variable zu beurteilen.

Die Erkennung von Multikollinearität umfasst zwei Techniken:

Korrelationsmatrix: Die Untersuchung der Korrelationsmatrix zwischen den unabhängigen Variablen ist eine gängige Methode zur Erkennung von Multikollinearität. Hohe Korrelationen (nahe 1 oder -1) weisen auf eine mögliche Multikollinearität hin.
VIF (Varianz-Inflationsfaktor): VIF ist ein Maß, das quantifiziert, um wie viel die Varianz eines geschätzten Regressionskoeffizienten zunimmt, wenn Ihre Prädiktoren korrelieren. Ein hoher VIF (typischerweise über 10) deutet auf Multikollinearität hin.

Bewertungsmetriken für die lineare Regression

Eine Vielzahl von Bewertungsmaßnahmen kann verwendet werden, um die Stärke jedes linearen Regressionsmodells zu bestimmen. Diese Bewertungsmetriken geben häufig einen Hinweis darauf, wie gut das Modell die beobachteten Ergebnisse liefert.

Die häufigsten Messungen sind:

Mittlerer quadratischer Fehler (MSE)

Mittlerer quadratischer Fehler (MSE) ist eine Bewertungsmetrik, die den Durchschnitt der quadrierten Differenzen zwischen den tatsächlichen und den vorhergesagten Werten für alle Datenpunkte berechnet. Die Differenz wird quadriert, um sicherzustellen, dass sich negative und positive Differenzen nicht gegenseitig aufheben.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Hier,

n ist die Anzahl der Datenpunkte.
Und_ichist der tatsächliche oder beobachtete Wert für i^ThDatenpunkt.
widehat{y_{i}} ist der vorhergesagte Wert für i^ThDatenpunkt.

MSE ist eine Möglichkeit, die Genauigkeit der Vorhersagen eines Modells zu quantifizieren. MSE reagiert empfindlich auf Ausreißer, da große Fehler erheblich zur Gesamtpunktzahl beitragen.

Mittlerer absoluter Fehler (MAE)

Mittlerer absoluter Fehler ist eine Bewertungsmetrik, die zur Berechnung der Genauigkeit eines Regressionsmodells verwendet wird. MAE misst die durchschnittliche absolute Differenz zwischen den vorhergesagten Werten und den tatsächlichen Werten.

Mathematisch ausgedrückt wird MAE wie folgt ausgedrückt:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Hier,

n ist die Anzahl der Beobachtungen
UND_ichstellt die tatsächlichen Werte dar.
widehat{Y_i} stellt die vorhergesagten Werte dar

Ein niedrigerer MAE-Wert weist auf eine bessere Modellleistung hin. Es reagiert nicht auf Ausreißer, da wir absolute Unterschiede berücksichtigen.

Root Mean Squared Error (RMSE)

Die Quadratwurzel der Varianz der Residuen ist Mittlerer quadratischer Fehler . Es beschreibt, wie gut die beobachteten Datenpunkte mit den erwarteten Werten übereinstimmen oder wie gut das Modell absolut zu den Daten passt.

In mathematischer Notation kann es ausgedrückt werden als:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
Anstatt die gesamte Anzahl der Datenpunkte im Modell durch die Anzahl der Freiheitsgrade zu dividieren, muss man die Summe der quadrierten Residuen dividieren, um eine unverzerrte Schätzung zu erhalten. Diese Zahl wird dann als Residual Standard Error (RSE) bezeichnet.

In mathematischer Notation kann es ausgedrückt werden als:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME ist keine so gute Metrik wie das R-Quadrat. Der quadratische Mittelwertfehler kann schwanken, wenn die Einheiten der Variablen variieren, da sein Wert von den Einheiten der Variablen abhängt (es handelt sich nicht um ein normalisiertes Maß).

Bestimmtheitskoeffizient (R-Quadrat)

R-Quadrat ist eine Statistik, die angibt, wie viel Variation das entwickelte Modell erklären oder erfassen kann. Er liegt immer im Bereich von 0 bis 1. Im Allgemeinen gilt: Je besser das Modell mit den Daten übereinstimmt, desto größer ist die R-Quadrat-Zahl.
In mathematischer Notation kann es ausgedrückt werden als:
R^{2}=1-(^{frac{RSS}{TSS}})

Restquadratsumme (RSS): Die Die Summe der Quadrate des Residuums für jeden Datenpunkt im Diagramm oder in den Daten wird als Residualsumme der Quadrate oder RSS bezeichnet. Es ist ein Maß für die Differenz zwischen der beobachteten Leistung und der erwarteten Leistung.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
Gesamtquadratsumme (TSS): Die Summe der Fehler der Datenpunkte vom Mittelwert der Antwortvariablen wird als Gesamtquadratsumme oder TSS bezeichnet.
TSS= sum_{}^{}(y-overline{y_{i}})^2

Die R-Quadrat-Metrik ist ein Maß für den Anteil der Varianz in der abhängigen Variablen, der durch die unabhängigen Variablen im Modell erklärt wird.

Bereinigter R-Quadrat-Fehler

Angepasstes R²misst den Anteil der Varianz in der abhängigen Variablen, der durch unabhängige Variablen in einem Regressionsmodell erklärt wird. Angepasstes R-Quadrat Berücksichtigt die Anzahl der Prädiktoren im Modell und bestraft das Modell für die Einbeziehung irrelevanter Prädiktoren, die keinen wesentlichen Beitrag zur Erklärung der Varianz der abhängigen Variablen leisten.

Mathematisch angepasstes R²wird ausgedrückt als:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Strings in ganze Zahlen umwandeln

Hier,

n ist die Anzahl der Beobachtungen
k ist die Anzahl der Prädiktoren im Modell
R²ist ein Bestimmungskoeffizient

Ein angepasstes R-Quadrat hilft, eine Überanpassung zu verhindern. Dadurch wird das Modell mit zusätzlichen Prädiktoren bestraft, die keinen wesentlichen Beitrag zur Erklärung der Varianz der abhängigen Variablen leisten.

Python-Implementierung der linearen Regression

Importieren Sie die erforderlichen Bibliotheken:

Python3

 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Laden Sie den Datensatz und trennen Sie Eingabe- und Zielvariablen

Hier ist der Link zum Datensatz: Datensatz-Link

Python3

 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Erstellen Sie das lineare Regressionsmodell und zeichnen Sie die Regressionslinie

Schritte:

Bei der Vorwärtsausbreitung wird die lineare Regressionsfunktion Y=mx+c angewendet, indem zunächst ein zufälliger Wert des Parameters (m und c) zugewiesen wird.
Wir haben die Funktion geschrieben, um die Kostenfunktion, also den Mittelwert, zu ermitteln

Python3

 class LinearRegression: def __init__(self): self.parameters = {} def forward_propagation(self, train_input): m = self.parameters['m'] c = self.parameters['c'] predictions = np.multiply(m, train_input) + c return predictions def cost_function(self, predictions, train_output): cost = np.mean((train_output - predictions) ** 2) return cost def backward_propagation(self, train_input, train_output, predictions): derivatives = {} df = (predictions-train_output) # dm= 2/n * mean of (predictions-actual) * input  dm = 2 * np.mean(np.multiply(train_input, df)) # dc = 2/n * mean of (predictions-actual)  dc = 2 * np.mean(df) derivatives['dm'] = dm derivatives['dc'] = dc return derivatives def update_parameters(self, derivatives, learning_rate): self.parameters['m'] = self.parameters['m'] - learning_rate * derivatives['dm'] self.parameters['c'] = self.parameters['c'] - learning_rate * derivatives['dc'] def train(self, train_input, train_output, learning_rate, iters): # Initialize random parameters  self.parameters['m'] = np.random.uniform(0, 1) * -1 self.parameters['c'] = np.random.uniform(0, 1) * -1 # Initialize loss  self.loss = [] # Initialize figure and axis for animation  fig, ax = plt.subplots() x_vals = np.linspace(min(train_input), max(train_input), 100) line, = ax.plot(x_vals, self.parameters['m'] * x_vals + self.parameters['c'], color='red', label='Regression Line') ax.scatter(train_input, train_output, marker='o', color='green', label='Training Data') # Set y-axis limits to exclude negative values  ax.set_ylim(0, max(train_output) + 1) def update(frame): # Forward propagation  predictions = self.forward_propagation(train_input) # Cost function  cost = self.cost_function(predictions, train_output) # Back propagation  derivatives = self.backward_propagation( train_input, train_output, predictions) # Update parameters  self.update_parameters(derivatives, learning_rate) # Update the regression line  line.set_ydata(self.parameters['m'] * x_vals + self.parameters['c']) # Append loss and print  self.loss.append(cost) print('Iteration = {}, Loss = {}'.format(frame + 1, cost)) return line, # Create animation  ani = FuncAnimation(fig, update, frames=iters, interval=200, blit=True) # Save the animation as a video file (e.g., MP4)  ani.save('linear_regression_A.webp'false'>Python3 #Beispielverwendung linear_reg = LinearRegression()-Parameter, Verlust = linear_reg.train(train_input, train_output, 0,0001, 20) Ausgabe: Iteration = 1, Verlust = 9130,407560462196 Iteration = 1, Verlust = 1107,1996742908998 Iteration = 1, Verlust = 580932842422 Iteration = 1, Verlust = 23,795780526084116 Iteration = 2, Verlust = 9,753848205147605 Iteration = 3, Verlust = 8,061641745006835 Iteration = 4, Verlust = 7,8577116490914864 Iteration = 5, Verlust = 1350515579015 Iteration = 6, Verlust = 7,830172502503967 Iteration = 7, Verlust = 7,829814681591015 Iteration = 8 , Verlust = 7,829770758846183 Iteration = 9, Verlust = 7,829764664327399 Iteration = 10, Verlust = 7,829763128602258 Iteration = 11, Verlust = 7,829762142342088 Iteration = 12, Verlust = 7,829 761222379141 Iteration = 13, Verlust = 7,829760310486438 Iteration = 14, Verlust = 7,829759399646989 Iteration = 15, Verlust = 7,829758489015161 Iteration = 16, Verlust = 7,829757578489033 Iteration = 17, Verlust = 7,829756668056319 Iteration = 18, Verlust = 7,829755757715535 Iteration = 19, Verlust = 7,8297 54847466484 Iteration = 20, Verlust = 7,829753937309139 Lineare RegressionslinieDie lineare Regressionslinie bietet wertvolle Einblicke in die Beziehung zwischen den beiden Variablen. Sie stellt die am besten passende Linie dar, die den Gesamttrend erfasst, wie sich eine abhängige Variable (Y) als Reaktion auf Variationen in einer unabhängigen Variablen (X) ändert.   Positive lineare Regressionslinie: Eine positive lineare Regressionslinie zeigt eine direkte Beziehung zwischen der unabhängigen Variablen (X) und der abhängigen Variablen (Y) an. Das bedeutet, dass mit zunehmendem Wert von X auch der Wert von Y zunimmt. Die Steigung einer positiven linearen Regressionsgeraden ist positiv, was bedeutet, dass die Linie von links nach rechts ansteigt.  Negative lineare Regressionslinie: Eine negative lineare Regressionslinie zeigt eine umgekehrte Beziehung zwischen der unabhängigen Variablen (X) und der abhängigen Variablen (Y) an. Das bedeutet, dass mit zunehmendem Wert von X der Wert von Y abnimmt. Die Steigung einer negativen linearen Regressionslinie ist negativ, was bedeutet, dass die Linie von links nach rechts nach unten geneigt ist.Regularisierungstechniken für lineare Modelle Lasso-Regression (L1-Regularisierung) Die Lasso-Regression ist eine Technik zur Regularisierung eines linearen Regressionsmodells, die einen Nachteil hinzufügt Term zur Zielfunktion der linearen Regression, um eine Überanpassung zu verhindern. Die Zielfunktion nach Anwendung der Lasso-Regression lautet: Der erste Term ist der Verlust der kleinsten Quadrate, der die quadrierte Differenz zwischen vorhergesagten und tatsächlichen Werten darstellt. Der zweite Term ist der L1-Regularisierungsterm. Er bestraft die Summe der Absolutwerte des Regressionskoeffizienten θj. Ridge-Regression (L2-Regularisierung) Ridge-Regression ist eine lineare Regressionstechnik, die dem standardmäßigen linearen Ziel einen Regularisierungsterm hinzufügt. Auch hier besteht das Ziel darin, eine Überanpassung zu verhindern, indem große Koeffizienten in der linearen Regressionsgleichung bestraft werden. Dies ist nützlich, wenn der Datensatz Multikollinearität aufweist und die Prädiktorvariablen stark korrelieren.  Die Zielfunktion nach Anwendung der Ridge-Regression lautet: Der erste Term ist der Verlust der kleinsten Quadrate, der die quadrierte Differenz zwischen vorhergesagten und tatsächlichen Werten darstellt. Der zweite Term ist der L1-Regularisierungsterm. Er bestraft die Summe der Quadratwerte des Regressionskoeffizienten θj. Elastic Net Regression Elastic Net Regression ist eine hybride Regularisierungstechnik, die die Leistungsfähigkeit der L1- und L2-Regularisierung in einem linearen Regressionsziel kombiniert.   Der erste Term ist der kleinste Quadratverlust. Der zweite Term ist die L1-Regularisierung und der dritte ist die Ridge-Regression.???? ist die Gesamtstärke der Regularisierung. α steuert die Mischung zwischen L1- und L2-Regularisierung. Anwendungen der linearen Regression Die lineare Regression wird in vielen verschiedenen Bereichen, einschließlich Finanzen, Wirtschaft und Psychologie, verwendet, um das Verhalten einer bestimmten Variablen zu verstehen und vorherzusagen. Im Finanzwesen könnte die lineare Regression beispielsweise verwendet werden, um die Beziehung zwischen dem Aktienkurs eines Unternehmens und seinen Erträgen zu verstehen oder den zukünftigen Wert einer Währung auf der Grundlage ihrer bisherigen Wertentwicklung vorherzusagen. Vorteile und Nachteile der linearen Regression Vorteile der linearen Regression Die lineare Regression ist ein relativ einfacher Algorithmus, der leicht zu verstehen und zu implementieren ist. Die Koeffizienten des linearen Regressionsmodells können als Änderung der abhängigen Variablen bei einer Änderung der unabhängigen Variablen um eine Einheit interpretiert werden und liefern Einblicke in die Beziehungen zwischen Variablen. Die lineare Regression ist rechnerisch effizient und kann große Datensätze effektiv verarbeiten. Es kann schnell an großen Datensätzen trainiert werden und eignet sich daher für Echtzeitanwendungen. Die lineare Regression ist im Vergleich zu anderen Algorithmen für maschinelles Lernen relativ robust gegenüber Ausreißern. Ausreißer haben möglicherweise einen geringeren Einfluss auf die Gesamtleistung des Modells. Die lineare Regression dient oft als gutes Basismodell für den Vergleich mit komplexeren Algorithmen für maschinelles Lernen. Die lineare Regression ist ein gut etablierter Algorithmus mit einer reichen Geschichte und ist in verschiedenen maschinellen Lernverfahren weit verbreitet Bibliotheken und Softwarepakete. Nachteile der linearen Regression Die lineare Regression geht von einer linearen Beziehung zwischen den abhängigen und unabhängigen Variablen aus. Wenn die Beziehung nicht linear ist, funktioniert das Modell möglicherweise nicht gut. Die lineare Regression reagiert empfindlich auf Multikollinearität, die auftritt, wenn eine hohe Korrelation zwischen unabhängigen Variablen besteht. Multikollinearität kann die Varianz der Koeffizienten erhöhen und zu instabilen Modellvorhersagen führen. Bei der linearen Regression wird davon ausgegangen, dass die Merkmale bereits in einer für das Modell geeigneten Form vorliegen. Möglicherweise ist Feature-Engineering erforderlich, um Features in ein Format umzuwandeln, das vom Modell effektiv genutzt werden kann. Bei der linearen Regression kann es sowohl zu einer Überanpassung als auch zu einer Unteranpassung kommen. Überanpassung tritt auf, wenn das Modell die Trainingsdaten zu gut lernt und nicht auf nicht sichtbare Daten verallgemeinern kann. Eine Unteranpassung tritt auf, wenn das Modell zu einfach ist, um die zugrunde liegenden Beziehungen in den Daten zu erfassen. Die lineare Regression bietet eine begrenzte Erklärungskraft für komplexe Beziehungen zwischen Variablen. Für tiefere Einblicke sind möglicherweise fortgeschrittenere Techniken des maschinellen Lernens erforderlich. Fazit: Die lineare Regression ist ein grundlegender Algorithmus für maschinelles Lernen, der aufgrund seiner Einfachheit, Interpretierbarkeit und Effizienz seit vielen Jahren weit verbreitet ist. Es ist ein wertvolles Werkzeug zum Verständnis der Beziehungen zwischen Variablen und zum Treffen von Vorhersagen in einer Vielzahl von Anwendungen.  Es ist jedoch wichtig, sich seiner Einschränkungen bewusst zu sein, wie etwa der Annahme von Linearität und der Empfindlichkeit gegenüber Multikollinearität. Wenn diese Einschränkungen sorgfältig berücksichtigt werden, kann die lineare Regression ein leistungsstarkes Werkzeug für die Datenanalyse und -vorhersage sein. Lineare Regression – Häufig gestellte Fragen (FAQs)Was bedeutet lineare Regression im Einfachen? Lineare Regression ist ein überwachter Algorithmus für maschinelles Lernen, der eine kontinuierliche Zielvariable auf der Grundlage einer oder mehrerer unabhängiger Variablen vorhersagt. Es geht von einer linearen Beziehung zwischen den abhängigen und unabhängigen Variablen aus und verwendet eine lineare Gleichung, um diese Beziehung zu modellieren.   Warum verwenden wir die lineare Regression?  Lineare Regression wird häufig verwendet für: Vorhersage numerischer Werte auf der Grundlage von Eingabemerkmalen, Vorhersage zukünftiger Trends auf der Grundlage historischer Daten, Identifizierung von Korrelationen zwischen Variablen, Verständnis der Auswirkungen verschiedener Faktoren auf ein bestimmtes Ergebnis, Wie verwendet man lineare Regression? Verwenden Sie lineare Regression, indem Sie eine Linie anpassen, um die Beziehung zwischen Variablen vorherzusagen , Koeffizienten verstehen und Vorhersagen auf der Grundlage von Eingabewerten für eine fundierte Entscheidungsfindung treffen. Warum wird sie lineare Regression genannt? Die lineare Regression wird nach der Verwendung einer linearen Gleichung zur Modellierung der Beziehung zwischen Variablen benannt, die eine gerade Linienanpassung an die Datenpunkte darstellt. Was sind Beispiele für eine lineare Regression? Beispiele für lineare Regressionsanwendungen sind die Vorhersage von Immobilienpreisen auf der Grundlage der Quadratmeterzahl, die Schätzung von Prüfungsergebnissen anhand von Studienstunden und die Prognose von Umsätzen anhand von Werbeausgaben.>

TechCodeview

Was ist lineare Regression?

Warum ist lineare Regression wichtig?

Arten der linearen Regression

Einfache lineare Regression

Multiple lineare Regression

Das Ziel des Algorithmus ist es, das zu finden beste Fit-Linie Gleichung, die die Werte basierend auf den unabhängigen Variablen vorhersagen kann.

Was ist die beste Fit-Linie?

Hypothesenfunktion in der linearen Regression

So aktualisieren Sie θ ₁ und θ ₂ Werte, um die am besten geeignete Linie zu erhalten?

Kostenfunktion für lineare Regression

Gradientenabstieg für lineare Regression

Annahmen der einfachen linearen Regression

Annahmen der multiplen linearen Regression

Multikollinearität

Bewertungsmetriken für die lineare Regression

Mittlerer quadratischer Fehler (MSE)

Mittlerer absoluter Fehler (MAE)

Root Mean Squared Error (RMSE)

Bestimmtheitskoeffizient (R-Quadrat)

Bereinigter R-Quadrat-Fehler

Python-Implementierung der linearen Regression

Importieren Sie die erforderlichen Bibliotheken:

Laden Sie den Datensatz und trennen Sie Eingabe- und Zielvariablen

Erstellen Sie das lineare Regressionsmodell und zeichnen Sie die Regressionslinie

Schritte:

Lineare Regression beim maschinellen Lernen

Was ist lineare Regression?

Warum ist lineare Regression wichtig?

Arten der linearen Regression

Einfache lineare Regression

Multiple lineare Regression

Das Ziel des Algorithmus ist es, das zu finden beste Fit-Linie Gleichung, die die Werte basierend auf den unabhängigen Variablen vorhersagen kann.

Was ist die beste Fit-Linie?

Hypothesenfunktion in der linearen Regression

So aktualisieren Sie θ 1 und θ 2 Werte, um die am besten geeignete Linie zu erhalten?

Kostenfunktion für lineare Regression

Gradientenabstieg für lineare Regression

Annahmen der einfachen linearen Regression

Annahmen der multiplen linearen Regression

Multikollinearität

Bewertungsmetriken für die lineare Regression

Mittlerer quadratischer Fehler (MSE)

Mittlerer absoluter Fehler (MAE)

Root Mean Squared Error (RMSE)

Bestimmtheitskoeffizient (R-Quadrat)

Bereinigter R-Quadrat-Fehler

Python-Implementierung der linearen Regression

Importieren Sie die erforderlichen Bibliotheken:

Laden Sie den Datensatz und trennen Sie Eingabe- und Zielvariablen

Erstellen Sie das lineare Regressionsmodell und zeichnen Sie die Regressionslinie

Schritte:

So aktualisieren Sie θ ₁ und θ ₂ Werte, um die am besten geeignete Linie zu erhalten?