logo

So kombinieren Sie zwei Datenrahmen in Python – Pandas

Pandas

Pandas ist eine in Python integrierte Bibliothek, die zum Arbeiten mit relationalen Daten in der Programmiersprache Python verwendet wird. Es verfügt über viele Funktionen und Datenstrukturen, die bei der Verarbeitung relationaler Daten hilfreich sind.

Wenn die Daten in Form von Zeilen und Spalten oder zweidimensional gespeichert werden, werden Daten in Pandas im Allgemeinen als Datenrahmen bezeichnet.

Wenn wir zwei Datenrahmen haben, können wir sie mit Hilfe von Pandas kombinieren oder zu einem einzigen Datenrahmen zusammenführen. Pandas bieten die festgelegte Logik zum Kombinieren der Daten zweier verschiedener Datenrahmen sowie die Logik zum Vergleichen dieser Daten.

1. Verwenden der Funktion concat()

In Python können wir die beiden Datenrahmen mit Hilfe der concat()-Funktion von Pandas verketten. Wir können die Daten entweder zeilenweise oder spaltenweise verketten. Diese Funktion führt die Daten auf einer Achse (Zeile oder Spalte) zusammen und führt die festgelegte Logik auf einer anderen Achse (einem anderen Index) aus.

Beispiel:

 import pandas as pd from IPython.display import display # First DataFrame dataFrame1 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'], 'Name': ['ABC', 'PQR', 'DEF', 'GHI'], 'Marks':[65,69,96,89]}) # Second DataFrame dataFrame2 = pd.DataFrame({'id': ['B1', 'B2', 'B3', 'B4'], 'Name': ['XYZ', 'TUV', 'MNO', 'JKL'], 'Marks':[56,96,69,98]}) frames = [dataFrame1, dataFrame2] result = pd.concat(frames) display(result) 

Ausgabe:

So kombinieren Sie zwei Datenrahmen in Python – Pandas

Erläuterung:

Im obigen Code haben wir zunächst die Pandas-Bibliothek in die Datei importiert. Dann haben wir die beiden Datenrahmen erstellt, wobei jeder Datenrahmen drei Spalten und vier Zeilen enthält. Dann haben wir die concat-Funktion verwendet, die diese beiden Datenrahmen zeilenweise verkettet, und mit der display-Funktion haben wir dies auf dem Bildschirm gedruckt.

2. Verwendung von Joins in Pandas

Wir haben das Konzept von Verknüpfungen in der Datenbank verstanden, bei denen wir die beiden Tabellen auf der Grundlage eines gemeinsamen Attributs verknüpfen. Die gleiche Methode gilt für die Verkettung von Datenrahmen. In der einfachen concat()-Methode haben wir alle Zeilen miteinander zusammengeführt und den neuen Datenrahmen erstellt. Im Join legen wir fest, welche Art von Join wir auf der Tabelle durchführen wollen, ob es sich um einen Inner-Join oder einen Outer-Join handelt. Welcher Join-Typ, innerer Join (Schnittpunkt) oder äußerer Join (Vereinigung), wird im Join-Attribut definiert.

Beispiel:

angepasste Ausnahme in Java
 import pandas as pd from IPython.display import display dataFrame1 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'], 'Name': ['ABC', 'PQR', 'TUV', 'JKL']}) dataFrame2 = pd.DataFrame({'City': ['NOIDA', 'JAIPUR', 'MANALI', 'DELHI'], 'Age': ['11', '10', '12', '17']}) # the default behaviour is join='outer' # inner join result = pd.concat([dataFrame1, dataFrame2], axis=1, join='inner') display(result) 

Ausgabe:

So kombinieren Sie zwei Datenrahmen in Python – Pandas

Erläuterung:

Im obigen Code haben wir zwei Daraframes, die beide zwei Spalten und vier Zeilen enthalten. Beide Datenrahmen haben unterschiedliche Spaltennamen, und in der Funktion concat() haben wir den inneren Join verwendet, der den Schnittpunkt übernimmt.

Im Achsenattribut haben wir den Wert eins initialisiert, sodass wir die gesamten Daten erhalten.

Beispiel:

 import pandas as pd from IPython.display import display dataFrame1 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'], 'Name': ['ABC', 'PQR', 'TUV', 'JKL']}) dataFrame2 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'],'City': ['NOIDA', 'JAIPUR', 'MANALI', 'DELHI'], 'Age': ['11', '10', '12', '17']}) # the default behaviour is join='outer' # inner join result = pd.concat([dataFrame1, dataFrame2], axis=0, join='inner') display(result) 

Ausgabe:

B-Baum und B-Baum
So kombinieren Sie zwei Datenrahmen in Python – Pandas

Da es kein gemeinsames Attribut gibt und der innere Join angewendet wurde, erhielten wir als Ausgabe einen leeren Datenrahmen. Wenn in beiden Datenrahmen ein gemeinsames Attribut vorhanden ist:

Beispiel:

 import pandas as pd from IPython.display import display dataFrame1 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'], 'Name': ['ABC', 'PQR', 'TUV', 'JKL']}) dataFrame2 = pd.DataFrame({'id': ['B1', 'B2', 'B3', 'B4'], 'City': ['NOIDA', 'JAIPUR', 'MANALI', 'DELHI'], 'Age': ['11', '10', '12', '17']}) # the default behaviour is join='outer' # inner join result = pd.concat([dataFrame1, dataFrame2], axis=0, join='inner') display(result) 

Ausgabe:

So kombinieren Sie zwei Datenrahmen in Python – Pandas

Erläuterung:

Im obigen Code haben wir ein gemeinsames Attribut, „id“, sodass der Datenrahmen nur auf der Grundlage gemeinsamer Attribute erstellt wird.

3. Verwendung der append()-Methode

Anstelle der concat()-Methode können wir die append()-Methode verwenden. Diese append()-Methode wird auf einen der Datenrahmen angewendet.

Beispiel:

 import pandas as pd from IPython.display import display # First DataFrame dataFrame1 = pd.DataFrame({'id': ['A1', 'A2', 'A3', 'A4'], 'City': ['JAIPUR', 'MANALI', 'NOIDA', 'LUCKNOW']}) # Second DataFrame dataFrame2 = pd.DataFrame({'id': ['B1', 'B2', 'B3', 'B4'], 'City': ['MUMBAI', 'UDAIPUR', 'RISHIKESH', 'KASHMIR']}) # append method result = dataFrame1.append(dataFrame2) display(result) 

Ausgabe:

So kombinieren Sie zwei Datenrahmen in Python – Pandas

Erläuterung:

Im obigen Code haben wir zwei Datenrahmen mithilfe der Append-Methode zusammengeführt.