Das SSIS-Tutorial bietet grundlegende und erweiterte Konzepte von SQL Server Integration Services. Unser SSIS-Tutorial richtet sich an Anfänger und Profis.
SQL Server-Integrationsdienst ist ein schnelles und flexibles Data-Warehousing-Tool zur Datenextraktion, -transformation und zum Laden von Daten. Es erleichtert das Laden der Daten von einer Datenbank in eine andere Datenbank wie SQL Server, Oracle, Excel-Datei usw.
In diesem Tutorial werden wir die folgenden Themen besprechen:
- Was ist SSIS?
- Was ist Datenintegration?
- Warum SSIS
- So funktioniert SSIS
- Anforderungen für den SQL Server-Integrationsdienst
- Was ist das SSIS-Paket?
- SSIS-Aufgaben
- Beispiel einer Datenflussaufgabe
- Beispiel für die Aufgabe „SQL ausführen“.
Was ist SSIS?
- SSIS steht für SQL Server Integration Services.
- Dabei handelt es sich um eine in der Microsoft SQL Server-Datenbanksoftware verfügbare Komponente, mit der eine Vielzahl von Integrationsaufgaben ausgeführt werden.
- Es handelt sich um ein Data-Warehousing-Tool, das für die Datenextraktion, das Laden der Daten in eine andere Datenbank, Transformationen wie Bereinigen, Aggregieren, Zusammenführen von Daten usw. verwendet wird.
- Das SSIS-Tool enthält außerdem grafische Tools und Workflow-Funktionen für Fensterassistenten wie das Senden von E-Mail-Nachrichten, FTP-Vorgänge und Datenquellen.
- Mit SSIS werden vielfältige Transformations- und Integrationsaufgaben durchgeführt. Insgesamt kommt bei der Datenmigration das SSIS-Tool zum Einsatz.
SSIS ist ein Tool, das hauptsächlich zur Ausführung von zwei Funktionen verwendet wird:
SSIS führt die Datenintegration durch, indem es die Daten aus mehreren Quellen kombiniert und den Benutzern einheitliche Daten bereitstellt.
Mit einem Workflow können mehrere Dinge erledigt werden. Manchmal müssen wir bestimmte Schritte oder einen bestimmten Pfad ausführen, der entweder auf dem Zeitraum oder dem an das Paket übergebenen Parameter oder den von der Datenbank abgefragten Daten basiert. Es kann zur Automatisierung der Wartung von SQL Server-Datenbanken verwendet werden und sorgt für die Aktualisierung der mehrdimensionalen Analysedaten.
Was ist Datenintegration?
Datenintegration ist ein Prozess, dem Sie folgen, um Daten aus mehreren Quellen zu integrieren. Die Daten können entweder heterogene Daten oder homogene Daten sein. Die Daten können strukturiert, halbstrukturiert oder unstrukturiert sein. Bei der Datenintegration werden die Daten aus verschiedenen unterschiedlichen Datenquellen integriert, um aussagekräftige Daten zu bilden.
Zur Datenintegration werden einige Methoden verwendet:
Vorteile der Datenintegration:
Es reduziert die Datenkomplexität, was bedeutet, dass die Daten an jedes System übermittelt werden können. Die Datenintegration behält die Komplexität bei, optimiert die Verbindungen und erleichtert die Bereitstellung der Daten an jedes System.
Bei der Datenintegration spielt die Datenintegrität eine große Rolle. Es befasst sich mit der Bereinigung und Validierung der Daten. Jeder möchte qualitativ hochwertige und robuste Daten. Um dies zu erreichen, wird dieses Datenintegrationskonzept verwendet. Die Datenintegration ist hilfreich bei der Beseitigung von Fehlern, Inkonsistenzen und Duplikaten.
Barrierefreiheit fällt unter die Datenzusammenarbeit. Zugänglichkeit bedeutet, dass die Daten leicht transformiert werden können und dass Menschen die Daten problemlos in Projekte integrieren, ihre Ergebnisse teilen und die Daten auf dem neuesten Stand halten können.
Es bietet Ihnen auch die Möglichkeit, intelligentere Entscheidungen zu treffen. Integrierte Daten beziehen sich auf den Übermittlungsprozess innerhalb eines Unternehmens, damit wir die Informationen leichter verstehen können. Eine integrierte Datenerfassung ist viel einfacher und aussagekräftiger.
Warum SSIS?
SSIS wird aus folgenden Gründen verwendet:
SSIS wird verwendet, um die Daten aus mehreren Datenquellen zu kombinieren, um eine einzelne Struktur in einer einheitlichen Ansicht zu generieren. Im Wesentlichen ist es für das Sammeln der Daten, das Extrahieren der Daten aus mehreren Datenquellen und das Zusammenführen in einer einzigen Datenquelle verantwortlich.
SSSIS ist eine Plattform, die große Datenmengen aus Excel in eine SQL Server-Datenbank laden kann.
Das SSSIS-Tool bietet eine enge Integration mit anderen Produkten von Microsoft.
Das SSSIS-Tool ist günstiger als die meisten anderen Tools. Es kann mit anderen Basisprodukten, deren Verwaltbarkeit, Business Intelligence usw. mithalten.
SSSIS ermöglicht Ihnen die Behandlung komplexer Fehler innerhalb eines Datenflusses. Sie können den Datenfluss basierend auf der Schwere des Fehlers starten und stoppen. Sie können sogar eine E-Mail an den Administrator senden, wenn ein Fehler auftritt. Wenn ein Fehler behoben ist, können Sie den Pfad zwischen dem Workflow auswählen.
Wie funktioniert SSIS?
Wir wissen, dass SSIS eine Plattform für zwei Funktionen ist, nämlich Datenintegration und Workflow. Sowohl die Aufgaben Datentransformationen als auch die Workflow-Erstellung werden mithilfe des SSIS-Pakets durchgeführt. Das SSIS-Paket besteht aus drei Komponenten:
Betriebsdaten
Bei Betriebsdaten handelt es sich um eine Datenbank, die zur Integration der Daten aus mehreren Datenquellen verwendet wird, um zusätzliche Operationen an den Daten durchzuführen. Es ist der Ort, an dem die Daten für den laufenden Betrieb gespeichert werden, bevor sie zur Speicherung, Berichterstellung oder Archivierung an das Data Warehouse gesendet werden.
chown-Befehl
ETL
- ETL ist der wichtigste Prozess im SSIS-Tool. ETL wird zum Extrahieren, Transformieren und Laden der Daten in ein Data Warehouse verwendet.
- ETL ist ein Prozess, der dafür verantwortlich ist, die Daten aus mehreren Datenquellen abzurufen, die Daten in nützliche Daten umzuwandeln und sie dann in einem Data Warehouse zu speichern. Die Daten können in einem beliebigen XML-Format, einer Flatfile oder einer beliebigen Datenbankdatei vorliegen.
- Es stellt außerdem sicher, dass die im Data Warehouse gespeicherten Daten relevant, genau, von hoher Qualität und für die Geschäftsbenutzer nützlich sind.
- Der Zugriff ist einfach, sodass das Data Warehouse effektiv und effizient genutzt werden kann.
- Darüber hinaus hilft es dem Unternehmen, datengesteuerte Entscheidungen zu treffen, indem es strukturierte und unstrukturierte Daten aus mehreren Datenquellen abruft.
Ein ETL ist ein Drei-Wort-Konzept, das jedoch in vier Phasen unterteilt ist:
Erfassen: Die Capture-Phase wird auch als Extract-Phase bezeichnet. In dieser Phase werden die Quelldaten oder Metadaten ausgewählt. Die Daten können in einem beliebigen Format vorliegen, z. B. als XML-Datei, Flatfile oder beliebige Datenbankdatei.
Schrubben: In dieser Phase werden die Originaldaten überprüft. Es prüft die Daten, ob sie fehlerhaft sind oder nicht. Mithilfe einiger Techniken der künstlichen Intelligenz werden Daten auf Fehler oder Inkonsistenzen überprüft. Kurz gesagt, es wird überprüft, ob die Qualität des Produkts erfüllt ist oder nicht.
Verwandeln: Es ist die dritte Phase in ETL. Unter Transformation versteht man den Prozess, bei dem das Originalformat in ein gewünschtes Format umgewandelt wird. Bei der Transformation werden die Daten entsprechend den Benutzeranforderungen modelliert oder geändert. Die Änderungen können entweder eine Änderung der Spalten- oder Zeilenanzahl sein.
Laden und indizieren: Die vierte Phase ist Laden und Indexieren. Es lädt die Daten und validiert die Anzahl der verarbeiteten Zeilen. Sobald das Laden der Daten abgeschlossen ist, wird die Indizierung verwendet. Durch die Indizierung können Sie die Anzahl der Zeilen verfolgen, die in das Data Warehouse geladen werden. Die Indizierung hilft auch dabei, die Daten zu identifizieren, unabhängig davon, ob sie im richtigen Format vorliegen oder nicht.
Data Warehouse
Data Warehouse ist ein einzelner, vollständiger und konsistenter Datenspeicher, der durch die Kombination der Daten aus mehreren Datenquellen formuliert wird.
Unterschied zwischen Datenbank und Data Warehouse
Die Antwort kann sowohl Ja als auch Nein sein. Sowohl die Datenbank als auch das Data Warehouse verfügen über eine große Dateneinheit und eine ähnliche physische Darstellung, aber die Antwortzeit komplexer Abfragen im Data Warehouse ist schneller als in der Datenbank.
Anforderungen für SQL Server Integration Services
Für die Installation der SQL Server Integration Services gelten folgende Voraussetzungen:
- Installieren Sie den SQL Server
- Installieren Sie die SQL Server-Datentools
Führen Sie die folgenden Schritte aus, um die SQL Server-Datentools zu installieren:
Schritt 1: Klick auf den Link https://docs.microsoft.com/en-us/sql/ssdt/ previous-releases-of-sql-server-data-tools-ssdt-and-ssdt-bi?view=sql-server-2017 um die SQL Server-Datentools herunterzuladen.
Schritt 2: Wenn Sie auf den obigen Link klicken, erscheint der unten abgebildete Bildschirm:
Wählen Sie im obigen Bildschirm die SSDT-Version aus, die Sie installieren möchten.
Schritt 3: Sobald der Download abgeschlossen ist, führen Sie die heruntergeladene Datei aus. Wenn Sie die heruntergeladene Datei ausführen, erscheint der folgende Bildschirm:
Schritt 4: Klicken Sie auf die Schaltfläche Weiter.
Schritt 5: Wählen Sie die Visual Studio-Instanz und die Tools aus, die Sie in Visual Studio 2017 installieren möchten.
Schritt 6: Klick auf das Installieren Taste.
Was ist das SSIS-Paket?
Das Paket ist ein grundlegender Block, in dem Sie in SSIS codieren. Code bedeutet hier nicht, dass Sie in einer Programmiersprache programmieren; es bedeutet die Entwicklung, die Sie machen. Die Entwicklung erfolgt im SSIS-Paket. SSIS wird hauptsächlich für den ETL-Prozess verwendet und der ETL-Prozess wird innerhalb des SSIS-Pakets ausgeführt.
Das SSIS-Paket besteht aus drei Teilen:
Das SSIS-Paket verfügt über einige Verbindungen, und diese Verbindungen werden zum Herstellen einer Verbindung mit verschiedenen Datenquellen verwendet.
Das SSIS-Paket besteht aus zwei Elementen, nämlich Kontrollflusselementen und Datenflusselementen. Kontrollflusselemente regeln Arbeitsabläufe. Workflow bedeutet, dass wir einige Aufgaben schrittweise ausführen, sodass die Reihenfolge durch den Kontrollfluss erfolgt.
Die Datenflusselemente führen Transformationen durch.
SSIS-Aufgaben
Im SSIS-Paket können wir die Aufgaben hinzufügen. Eine Aufgabe ist eine Arbeitseinheit und wir haben verschiedene Arten von Aufgaben, um unterschiedliche Arten von Arbeit auszuführen. Es gibt verschiedene Arten von Aufgaben, wir werden jedoch die am häufigsten in SSIS verwendeten Aufgaben besprechen:
Es wird verwendet, um die SQL-Anweisungen für eine relationale Datenbank auszuführen.
Es wird hauptsächlich zum Lesen der Daten aus einer oder mehreren Datenquellen, zum Transformieren der Daten und zum Laden der Daten an ein oder mehrere Ziele verwendet.
Es wird verwendet, um Objekte eines SSAS-Cubes oder eines tabellarischen Modells zu verarbeiten.
Mit dieser Aufgabe werden die anderen Pakete innerhalb desselben Projekts aufgerufen. Sie können die Variablenwerte sogar an das aufgerufene Paket übergeben.
Es ermöglicht Ihnen, eine Anwendung oder Batch-Skripte als SQL Server Integration Services auszuführen. Es kann zum Öffnen der Standardanwendung wie Microsoft Excel, Microsoft Word usw. verwendet werden. Es wird auch zum Entpacken der komprimierten Datei verwendet.
Es kann verwendet werden, um Manipulationen im Dateisystem durchzuführen, z. B. Dateien zu verschieben, Dateien zu löschen, Dateien umzubenennen, das Verzeichnis zu ändern usw.
IFTP-Aufgaben werden verwendet, um Vorgänge für Dateien und Ordner auszuführen. Wenn Sie beispielsweise die Datei vom FTP-Server an das lokale Verzeichnis senden oder empfangen möchten, wird die SSIS-FTP-Aufgabe verwendet.
Mit dieser Aufgabe können Sie den .Net-Code schreiben, den Sie ausführen möchten.
Diese Aufgabe wird zum Versenden einer E-Mail verwendet. Es wird hauptsächlich verwendet, wenn Sie die Benutzer über den Status der Aufgabe informieren möchten, ob sie ausgeführt wird oder ein Fehler aufgetreten ist.
Sehen wir uns ein funktionierendes Beispiel eines Datenintegrationsdienstes an.
Beispiel einer Datenflussaufgabe
Schritt 1: Zunächst erstellen wir eine Excel-Datei in Microsoft Excel. Angenommen, ich erstelle die Studentendatenbank in Microsoft Excel und die Felder in der Studententabelle lauten student_id, student_name, Noten und Geschlecht.
Schritt 2: Öffnen Sie das Visual Studio (SQL Server Data Tools).
Was ist const in Java?
Schritt 3: Klicken Sie auf die Option Datei und gehen Sie dann zu Neu->Projekt.
Schritt 4: Wenn Sie auf das Projekt klicken, erscheint der folgende Bildschirm:
Klicken Sie im obigen Bildschirm auf die Integration Services, die ganz links im Bedienfeld angezeigt werden, und klicken Sie dann auf das Integration Services-Projekt.
Schritt 5: Nach dem Klicken auf das Integration Services Project Option, der Bildschirm wird wie folgt angezeigt:
Der obige Bildschirm besteht aus fünf Registerkarten wie Kontrollfluss, Datenfluss, Parameter, Ereignishandler und Paket-Explorer. Wir haben den Kontrollfluss und den Datenfluss bereits besprochen. Sowohl der Kontrollfluss als auch der Datenfluss sind im SSIS-Paket vorhanden.
Schritt 6: Um die Daten zu importieren, müssen wir zunächst die Datenbank erstellen, in der wir die Tabelle in der SQL Server-Datenbank erstellen. Da wir wissen, dass Studentendaten in der Excel-Datei verfügbar sind, möchten wir die Daten in die SQL Server-Datenbank importieren. Um dies zu erreichen, müssen wir zunächst die Tabelle in SQL Server erstellen. Öffnen Sie das SQL Server Management Studio.
Schritt 7: Erstellen Sie die Student Datenbank. Klicken Sie mit der rechten Maustaste auf die Datenbank und dann auf Neue Datenbank Möglichkeit.
Schritt 8: Geben Sie im folgenden Screenshot den Datenbanknamen ein:
Als Datenbanknamen habe ich StudentWarehouse angegeben.
Schritt 9: Klick auf das OK Taste.
Schritt 10: Jetzt erstellen wir die Tabelle in a StudentWarehouse Datenbank. Klicken Sie mit der rechten Maustaste auf die Tabellen und dann auf „Neue Tabelle“.
Schritt 11: Jetzt fügen wir die Felder in einer Tabelle hinzu, z. B. student_id, student_name, Noten und Geschlecht. Wir legen die student_id als Primärschlüssel fest, der jede Zeile eindeutig identifiziert.
Der obige Bildschirm zeigt, dass wir einer Tabelle vier Felder hinzufügen. Nachdem wir alle Felder in einer Tabelle hinzugefügt haben, speichern wir die Tabelle, indem wir einen nützlichen Namen angeben. Angenommen, ich habe den Schüler als Tabellennamen angegeben.
Schritt 12: Gehen Sie zurück ins visuelle Studio. Der Kontrollfluss enthält die Datenflussaufgabe. Ziehen Sie die Datenflussaufgabe per Drag & Drop in das Hauptfenster.
Schritt 13: Wenn wir auf die Datenflussaufgabe doppelklicken, wechselt das Steuerelement automatisch vom Kontrollfluss zum Datenfluss, sodass wir sagen können, dass der Kontrollfluss ein Container des Datenflusses ist.
Schritt 14: Jetzt können wir die Transformationen im Datenfluss durchführen. Wir möchten die Daten aus der zuvor erstellten Excel-Datei extrahieren. Ziehen Sie daher die Excel-Quelle per Drag & Drop aus den anderen Quellen, die ganz links im Bedienfeld angezeigt werden.
Auf dem obigen Bildschirm sehen wir, dass das rote Kreuz in der Excel-Quelle erscheint. Dies bedeutet, dass die Komponente mit der Excel-Quelle konfiguriert ist.
Schritt 15: Um die Komponente zu konfigurieren, klicken Sie mit der rechten Maustaste auf die Excel-Quelle und klicken Sie auf die Option Bearbeiten, wie im folgenden Screenshot gezeigt:
Schritt 16: Füllen Sie die im folgenden Screenshot gezeigten Details aus:
Schritt 17: Nachdem Sie alle Details eingegeben haben, erscheint der Bildschirm wie folgt:
Schritt 18: Klicken Sie auf die Excel-Quelle.
Der obige Bildschirm zeigt zwei Pfeile, einen roten und einen blauen Pfeil. Der blaue Pfeil definiert die tatsächlichen Daten, die wir aus der Excel-Datei erhalten, und der rote Pfeil kennzeichnet die Fehler, die wir haben. Jetzt müssen wir die Transformationen durchführen, und bevor wir die Transformationen durchführen, müssen wir die Datenbank laden.
Schritt 19: Um die Datenbank zu laden, klicken Sie auf „Andere Ziele“ und dann auf „Ziel“.
Schritt 20: Nachdem Sie das Ziel hinzugefügt haben, verbinden Sie die Quelle mit dem Ziel.
Schritt 21: Im obigen Schritt ist uns das rote Kreuz im ADO NET-Ziel aufgefallen, was bedeutet, dass es nicht mit einer Komponente konfiguriert ist. Klicken Sie mit der rechten Maustaste auf das ADO NET-Ziel und klicken Sie dann auf die Option Bearbeiten, wie im folgenden Screenshot gezeigt:
Schritt 22: Sie müssen den Konfigurationsmanager angeben.
Schritt 23: Klick auf das Neu Klicken Sie auf die Schaltfläche, um den Verbindungsmanager hinzuzufügen. Wenn Sie auf klicken Neu Klicken Sie auf die Schaltfläche. Der unten dargestellte Bildschirm wird angezeigt:
Schritt 24: Fügen Sie den Servernamen hinzu und wählen Sie den Datenbanknamen vom SQL Server aus.
Schritt 25: Klicken Sie auf die Schaltfläche OK.
Schritt 26: Fügen Sie den Namen der Tabelle hinzu, in die Sie die Daten laden möchten.
Schritt 27: Ordnen Sie im folgenden Bildschirm das Feld der Eingabequelle dem Feld der Zielquelle zu.
enthält Python
Schritt 28: Nach dem Hinzufügen einer Zuordnung wird die Quelle mit dem Ziel verbunden, wie im folgenden Screenshot gezeigt:
Schritt 29: Klick auf das Start Klicken Sie auf die Schaltfläche, um das Integration Services-Projekt auszuführen. Wenn Sie das Projekt ausführen, werden die Daten in das Ziel geladen, d. h. SQL Server .
Beispiel für die Aufgabe „SQL ausführen“.
- Befolgen Sie die Schritte von Schritt 2 bis Schritt 5 des vorherigen Beispiels.
- Ziehen Sie die Datei per Drag-and-Drop SQL-Aufgabe ausführen erscheint im linken Bereich des Hauptfensters.
Im obigen Bildschirm sehen wir, dass das rote Kreuz in der Task „SQL ausführen“ erscheint, was bedeutet, dass die Verbindungsmanager ist nicht mit dem konfiguriert SQL-Aufgabe ausführen . Um es zu konfigurieren, müssen wir den Verbindungsmanager hinzufügen.
- Um den Verbindungsmanager hinzuzufügen, klicken Sie mit der rechten Maustaste auf den Verbindungsmanager und dann auf „Neuer Verbindungsmanager“, wie im folgenden Screenshot gezeigt:
- Wähle aus OLEDB als Verbindungsmanagertyp und klicken Sie dann auf Hinzufügen Klicken Sie auf die Schaltfläche, wie im folgenden Screenshot gezeigt:
- Nach dem Klicken auf Hinzufügen Klicken Sie auf die Schaltfläche. Der Bildschirm wird im folgenden Screenshot angezeigt:
Im obigen Bildschirm sehen wir, dass die Datenverbindung von StudentWarehouse Die Datenbank ist bereits verfügbar, da wir sie im vorherigen Schritt erstellt haben. Klick auf das OK Taste.
- Wenn Sie auf die Schaltfläche „OK“ klicken, erscheint der Bildschirm wie unten dargestellt:
Im obigen Bildschirm müssen Sie Details wie den Namen Ihrer Aufgabe, eine Beschreibung und eine SQL-Anweisung (SQL-Aufgabe, die Sie für die Tabelle ausführen müssen) eingeben.
- Im obigen Screenshot habe ich folgende Details eingegeben:
Im obigen Fall habe ich den Einfügebefehl in SQLStatement bereitgestellt.
- Klick auf das OK Taste.
- Wenn Sie die Komponente mit dem Task „SQL ausführen“ konfigurieren, verschwindet das rote Kreuz, wie im folgenden Screenshot gezeigt:
- Führen Sie das Projekt aus, indem Sie auf klicken Start .
- Wenn Sie auf klicken Start , der Bildschirm erscheint wie folgt:
Im obigen Bildschirm zeigt das Häkchen an, dass Ihre SQL-Aufgabe erfolgreich abgeschlossen wurde. Die Einfügeanweisung, die wir in den vorherigen Schritten hinzugefügt haben, wurde ausgeführt und die Daten werden in die Tabelle eingefügt. d. h. student1.
- Die Ausgabe dieser Aufgabe wird unten angezeigt
Voraussetzung
Bevor Sie SSIS erlernen, müssen Sie über Grundkenntnisse von SQL Server verfügen.
Publikum
Unser SSIS-Tutorial soll Anfängern und Profis helfen.
Problem
Wir versichern, dass Sie in diesem SSIS-Tutorial keine Probleme finden werden. Sollte es jedoch zu Fehlern kommen, posten Sie den Fehler bitte im Kontaktformular.