Integration Services - Dienstarchitektur
Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die Impl e- mentierung Ihrer ETL-Lösungen (Extract, Transform and Load - Extrahieren, Transformieren und Laden) zu planen.
Integration Services-Architektur Wie im folgenden Diagramm gezeigt, besteht Microsoft SQL Server Integration Services aus verschiedenen Komponenten. Von den im vorherigen Diagramm gezeigten Komponenten werden im Folgenden einige wichtige Komponenten erläutert, die zur erfolgreichen Verwendung von Integration Services erforderlich sind: SSIS-Designer Der SSIS-Designer ist ein grafisches Tool, mit dem Sie Integration Services-Pakete erstellen und verwalten können. Der SSIS-Designer ist in Business Intelligence Development Studio im Rahmen eines Integration Services- Projekts verfügbar. Laufzeitmodul Die Integration Services-Laufzeit speichert das Layout von Paketen, führt Pakete aus und unterstützt die Protokollierung, die Konfiguration, Haltepunkte, Verbindungen und Transaktionen. Tasks und andere ausführbare Dateien Bei den ausführbaren Integration Services- Laufzeitdateien handelt es sich um das Paket, die Container, Tasks und Ereignishandler, die in Integration Services enthalten sind. Ausführbare Laufzeitdateien schließen auch von Ihnen entwickelte, benutzerdefinierte Tasks ein.
Datenflussmodul und Datenflusskomponenten Der Datenflusstask kapselt das Datenflussmodul. Das Datenflussmodul stellt die Puffer im Arbeitsspeicher bereit, mit denen Daten von der Quelle zum Ziel verschoben werden, und ruft die Quellen auf, mit denen Daten aus Dateien und relationalen Datenbanken extrahiert werden. Das Datenflussmodul verwaltet außerdem die Transformationen, mit denen Daten geändert werden, und die Ziele, mit denen Daten geladen oder für andere Prozesse verfügbar gemacht werden. Die Datenflusskomponenten von Integration Services sind die Quellen, Transformationen und Ziele, die in Integration Services enthalten sind. Sie können auch benutzerdefinierte Komponenten in einen Datenfluss einschließen. API- oder Objektmodell Das Integration Services-Objektmodell beinhaltet verwaltete Schnittstellen für die Anwendungsprogrammierung (Application Programming Interfaces oder API) zum Erstellen von benutzerdefinierten Komponenten zur Verwendung in Paketen oder benutzerdefinierte Anwendungen, mit denen Pakete erstellt, geladen, ausgeführt und verwaltet werden. Entwickler können benutzerdefinierte Anwendungen oder benutzerdefinierte Tasks oder Transformationen mit einer beliebigen CLR-kompatiblen (Common Language Runtime) Programmiersprache erstellen. SQL Server Integration Services-Dienst Der Integration Services-Dienst ermöglicht Ihnen, SQL Server Management Studio zum Überwachen der Ausführung von Integration Services-Paketen und zur Speicherverwaltung der Pakete zu verwenden. SQL Server-Import/Export-Assistent Mit dem SQL Server-Import/Export- Assistenten können Daten in eine und aus einer Datenquelle kopiert werden, für die ein verwalteter.net Framework-Datenanbieter oder ein systemeigener OLE DB- Datenanbieter verfügbar ist. Dieser Assistent ist die einfachste Methode, um ein Integration Services-Paket zu erstellen, mit dem Daten aus einer Quelle in ein Ziel kopiert werden. Andere Tools, Assistenten und Eingabeaufforderungs-Dienstprogramme Integration Services enthält zusätzliche Tools, Assistenten und Eingabeaufforderungs-Dienstprogramme zum Ausführen und Verwalten von Integration Services-Paketen.
Architektur eines Integration Services-Pakets Die Objekte, aus denen sich ein Integration Services-Paket zusammensetzt, umfassen Folgendes: Das Paket Das Paket als jene Arbeitseinheit, die abgerufen, ausgeführt und gespeichert wird und das wichtigste Integration Services-Objekt darstellt. Ablaufsteuerungselemente Die Ablaufsteuerungselemente (Tasks und Container) zum Erstellen der Ablaufsteuerung in einem Paket. Ablaufsteuerungselemente bereiten Daten vor oder kopieren sie, interagieren mit anderen Prozessen oder implementieren die Wiederholung von Workflow. Rangfolgeneinschränkungen ordnen die Ablaufsteuerungselemente in einer Ablaufsteuerung an und definieren die Bedingungen zum Ausführen von Tasks oder Containern. Datenflusskomponenten Die Datenflusskomponenten (Quellen, Transformationen und Ziele) zum Erstellen von Datenflüssen in einem Paket, die Daten extrahieren, transformieren und laden. Pfade ordnen die Datenflusskomponenten in einem Datenfluss an. Verbindungs-Manager Die Verbindungs-Manager, die Verbindungen mit verschiedenen Arten von Datenquellen herstellen, um Daten zu extrahieren und zu laden. Variablen Die Variablen, die in Ausdrücken für die dynamische Aktualisierung von Spaltenwerten und Eigenschaftsausdrücken verwendet werden können, steuern die Ausführung der Wiederholung von Ablaufsteuerungen und definieren die Bedingungen, die Rangfolgeneinschränkungen anwenden.
Ereignishandler Die Ereignishandler, die als Antwort auf die Laufzeitereignisse ausgeführt werden, die von Paketen, Tasks und Containern ausgelöst werden. Protokollanbieter Die Protokollanbieter, die die Protokollierung von Paketlaufzeitinformationen unterstützen, wie z. B. die Start- und Beendigungszeit des Pakets und dessen Tasks und Containern. Internationale Überlegungen zu Integration Services Microsoft SQL Server Integration Services unterstützt das Analysieren und Bearbeiten von mehrsprachigen Daten, unterstützt alle Windows-Gebietsschemas und bietet spezielle Vergleichsoptionen zum Sortieren und Vergleichen von Zeichenfolgendaten. Die Integration Services-Transformationen für das Text Mining und die Fuzzyübereinstimmung funktionieren jedoch mit der englischen Sprache möglicherweise besser als mit anderen Sprachen. Allerdings können sowohl die Text Mining- als auch die Fuzzyübereinstimmungs- Transformationen nützliche Ergebnisse liefern, wenn Sie mit anderen Sprachen als Englisch verwendet werden. Die Qualität dieser Ergebnisse hängt von der jeweiligen Sprache ab. Vom Gebietsschema unabhängiges Analysieren Integration Services enthält vom Gebietsschema unabhängige Analyseroutinen, die Sie für Daten verwenden können, die in bestimmten Formaten vorliegen. Diese Analyseroutinen unterstützen nur die gängigsten Datumsformatdarstellungen, führt keine gebietsschemaspezifische Analyse aus, erkennt keine Sonderzeichen in Währungsdaten und kann die hexadezimale oder wissenschaftliche Darstellung von ganzen Zahlen nicht konvertieren. Die schnelle Analyse kann eine erhebliche Leistungssteigerung von Integration Services-Paketen bewirken, in denen es keine Gebietsschemaabhängigkeiten gibt.
Gebietsschemaeinstellungen Integration Services unterstützt Gebietsschemas auf der Ebene von Paketen, Containern, Tasks und Datenflusskomponenten. Sie können auch das Gebietsschema von Ereignishandlern festlegen. Ein Paket kann mehrere verschiedene Gebietsschemas verwenden. So kann z. B. das Paket das Gebietsschema Englisch (Vereinigte Staaten) verwenden, während ein Task im Paket das Gebietsschema Deutsch (Deutschland) und ein anderer Task das Gebietsschema Japanisch (Japan) verwendet. Sie können jedes Windows-Gebietsschema in einem Integration Services-Paket verwenden. Sie legen das Gebietsschema fest, wenn Sie das Paket erstellen. Mit Ausnahme des Falls, wenn das Paket Konfigurationen zum Aktualisieren von Gebietsschemaeigenschaften verwendet, verhält sich das Paket dann garantiert genauso, wenn es auf Computern bereitgestellt wird, die von der Entwicklungsumgebung abweichende Regional- und Sprachoptionen verwenden. Wenn ein Paket allerdings beim Bereitstellen auf unterschiedlichen Servern verschiedene Gebietsschemas verwenden muss, können Sie Konfigurationen erstellen, mit denen beim Ausführen des Pakets die zu verwendenden aktualisierten Gebietsschemas bereitgestellt werden. Vergleichsoptionen Das Gebietsschema stellt die grundlegenden Regeln zum Vergleichen von Zeichenfolgendaten in einem Datenstrom bereit. Beispielsweise gibt das Gebietsschema die Sortierposition jedes Buchstabens im Alphabet an. Diese Regeln sind jedoch möglicherweise für die von Ihnen gewünschten Vergleiche nicht ausreichend. Deshalb unterstützt Integration Services erweiterte Vergleichsoptionen, die über die Vergleichsregeln eines Gebietsschemas hinausgehen. Wenn Sie beispielsweise Zeichen ohne Zwischenraum ignorieren, sind "ä" und "Ä" für Vergleichszwecke identisch. Text Mining Die Transformationen für das Text Mining - Ausdrucksextrahierung und Ausdruckssuche - verwenden ihr eigenes Wörterbuch. Dieses Wörterbuch ist nur in englischer Sprache verfügbar, sodass die Ergebnisse beim Verwenden der Text Mining-Transformationen mit anderen Sprachen als Englisch möglicherweise nur beschränkte Qualität besitzen. Microsoft unterstützt die Verwendung dieser Transformationen nur mit Englisch. Allerdings können Sie je nach linguistischer Ähnlichkeit einer Sprache mit der englischen Sprache feststellen, dass die Transformation zur Ausdrucksextrahierung auch Ausdrücke in anderen Sprachen als Englisch extrahieren kann und dass die Transformation zur Ausdrucksextrahierung zum Suchen nach Ausdrücken und zum Berechnen der Ausdruckshäufigkeit verwendet werden kann. Je größer die Ähnlichkeit zwischen den Sprachen
ist, desto erfolgreicher ist das Text Mining. So könnte z. B. das Verwenden der Transformation zur Ausdrucksextrahierung beim Text Mining von schwedischen Zeichenfolgen effektiv sein, weil in der schwedischen Sprache Wort- und Satzbegrenzungszeichen verwendet werden, die denen in der englischen Sprache ähnlich sind. Dagegen wäre die Verwendung der Transformation zur Ausdrucksextrahierung im Zusammenhang mit der japanischen Sprache wahrscheinlich kaum erfolgreich. Fuzzyübereinstimmung Die beiden Transformationen Fuzzygruppierung und Fuzzysuche verwenden die Fuzzyübereinstimmung zum Gruppieren ähnlicher Datensätze in einem Dataset oder zum Durchführen von Suchen in einer Verweistabelle. Beide Transformationen können am effektivsten nach Übereinstimmungen suchen, wenn die Textdaten mehrere lange Wörter enthalten, die durch Leerzeichen oder Begrenzungszeichen getrennt sind. Die Fehlertoleranz der Transformationen ist eventuell in logografischen Sprachen wie Chinesisch geringer, weil die Wörter in solchen Sprachen häufig nur aus wenigen Zeichen bestehen und nicht durch Leerzeichen voneinander getrennt sind. In logografischen Sprachen ist die Erkennung von Rechtschreibfehlern, Wortdopplungen und fehlenden Wörtern durch die Transformationen wahrscheinlich weniger erfolgreich.