CRISP-DM steht für das branchenübergreifende Standardverfahren für Data Mining. Die CRISP-DM-Methodik bietet einen strukturierten Ansatz für die Planung eines Data-Mining-Projekts. Es handelt sich um eine robuste und bewährte Methodik. Wir erheben keinen Anspruch auf Eigentum daran. Wir haben es nicht erfunden. Wir sind ein Konverter der leistungsstarken Praktikabilität, Flexibilität und Nützlichkeit beim Einsatz von Analysen zur Lösung von Geschäftsproblemen. Es ist der rote Faden, der sich durch fast jedes Kundengespräch zieht.
Dieses Modell ist eine idealisierte Abfolge von Ereignissen. In der Praxis können viele Aufgaben in einer anderen Reihenfolge ausgeführt werden, und es wird oft notwendig sein, zu vorherigen Aufgaben zurückzukehren und bestimmte Aktionen zu wiederholen. Das Modell versucht nicht, alle möglichen Routen durch den Data-Mining-Prozess zu erfassen.
Wie hilft CRISP?
CRISP DM stellt eine Roadmap bereit, bietet Ihnen Best Practices und bietet Strukturen für bessere und schnellere Ergebnisse beim Einsatz von Data Mining. Auf diese Weise hilft es dem Unternehmen, bei der Planung und Durchführung eines Data Mining-Projekts zu folgen.
Phasen von CRISP-DM
CRISP-DM bietet einen Überblick über den Data-Mining-Lebenszyklus als Prozessmodell. Das Lebenszyklusmodell umfasst sechs Phasen, wobei Pfeile die wichtigsten und häufigsten Abhängigkeiten zwischen den Phasen markieren. Die Reihenfolge der Phasen ist nicht streng. Und die meisten Projekte bewegen sich je nach Bedarf zwischen den Phasen hin und her. Das CRISP-DM-Modell ist flexibel und kann einfach angepasst werden.
Wenn Ihre Organisation beispielsweise Geldwäsche aufdecken möchte, werden Sie wahrscheinlich große Datenmengen ohne ein bestimmtes Modellierungsziel durchsuchen. Anstelle der Modellierung wird sich Ihre Arbeit auf die Datenexploration und -visualisierung konzentrieren, um verdächtige Muster in Finanzdaten aufzudecken. Mit CRISP-DM können Sie ein Data-Mining-Modell erstellen, das Ihren Anforderungen entspricht.
Es enthält Beschreibungen typischer Phasen eines Projekts, der mit jeder Phase verbundenen Aufgaben und eine Erläuterung der Beziehungen zwischen diesen Aufgaben.
Phase 1: Geschäftsverständnis
Die erste Phase des CRISP-DM-Prozesses besteht darin, zu verstehen, was Sie aus geschäftlicher Sicht erreichen möchten. Möglicherweise gibt es in Ihrer Organisation konkurrierende Ziele und Einschränkungen, die ausgewogen sein müssen. In dieser Prozessphase geht es darum, wichtige Einflussfaktoren auf das Projektergebnis aufzudecken. Das Vernachlässigen dieses Schritts kann dazu führen, dass große Anstrengungen unternommen werden, um die richtigen Antworten auf die falschen Fragen zu finden.
Was sind die gewünschten Ergebnisse des Projekts?
Bewerten Sie die aktuelle Situation
Java-Datenstrukturen
Dazu gehört eine detailliertere Ermittlung der Fakten zu den Ressourcen, Einschränkungen, Annahmen und anderen Faktoren, die Sie bei der Festlegung Ihres Datenanalyseziels und Projektplans berücksichtigen müssen.
- Personal (Geschäftsexperten, Datenexperten, technischer Support, Data-Mining-Experten)
- Daten (feste Extrakte, Zugriff auf Live-, Lager- oder Betriebsdaten)
- Rechenressourcen (Hardwareplattformen)
- Software (Data-Mining-Tools, andere relevante Software)
- Ein Glossar der relevanten Geschäftsterminologie ist Teil des für das Projekt verfügbaren Geschäftsverständnisses. Die Erstellung dieses Glossars ist eine nützliche Übung zur „Wissensgewinnung“ und Bildung.
- Ein Glossar der Data-Mining-Terminologie wird mit Beispielen illustriert, die für das Geschäftsproblem relevant sind.
Bestimmen Sie Data-Mining-Ziele
Ein Geschäftsziel gibt Ziele in der Geschäftsterminologie an. Ein Data-Mining-Ziel gibt die Projektziele in technischer Hinsicht an. Das Geschäftsziel könnte beispielsweise darin bestehen, den Katalogverkauf an bestehende Kunden zu steigern. Ein Data-Mining-Ziel könnte darin bestehen, anhand seiner Einkäufe in den letzten drei Jahren, demografischer Informationen (Alter, Gehalt, Stadt usw.) und dem Preis des Artikels vorherzusagen, wie viele Widgets ein Kunde kaufen wird.
Projektplan erstellen
Beschreiben Sie den geplanten Plan zur Erreichung der Data-Mining-Ziele und Geschäftsziele. Ihr Plan sollte die Schritte festlegen, die im weiteren Verlauf des Projekts durchgeführt werden sollen, einschließlich der anfänglichen Auswahl von Werkzeugen und Techniken.
1. Projektplan: Listen Sie die im Projekt auszuführenden Phasen mit ihrer Dauer, den erforderlichen Ressourcen, Eingaben, Ausgaben und Abhängigkeiten auf. Versuchen Sie nach Möglichkeit, die groß angelegten Iterationen im Data-Mining-Prozess deutlich zu machen, beispielsweise Wiederholungen der Modellierungs- und Bewertungsphasen.
Java-Concat-String
Im Rahmen der Projektplanung ist es wichtig, die Abhängigkeiten zwischen Zeitplänen und Risiken zu analysieren. Markieren Sie die Ergebnisse dieser Analysen explizit im Projektplan, idealerweise mit Maßnahmen und Empfehlungen, wenn sich die Risiken manifestieren. Entscheiden Sie, welche Bewertungsstrategie in der Bewertungsphase verwendet wird.
Ihr Projektplan wird ein dynamisches Dokument sein. Am Ende jeder Phase überprüfen Sie den Fortschritt und die Erfolge und aktualisieren den Projektplan entsprechend. Spezifische Überprüfungspunkte für diese Aktualisierungen sollten Teil des Projektplans sein.
2. Erstbewertung von Werkzeugen und Techniken: Am Ende der ersten Phase sollten Sie eine erste Bewertung der Werkzeuge und Techniken vornehmen. Sie wählen beispielsweise ein Data-Mining-Tool aus, das verschiedene Methoden für verschiedene Phasen des Prozesses unterstützt. Es ist wichtig, Werkzeuge und Techniken frühzeitig im Prozess zu bewerten, da die Auswahl der Werkzeuge und Techniken das gesamte Projekt beeinflussen kann.
Phase 2: Datenverständnis
In der zweiten Phase des CRISP-DM-Prozesses müssen Sie die in den Projektressourcen aufgeführten Daten erwerben. Diese Ersterfassung umfasst das Laden von Daten, sofern dies für das Datenverständnis erforderlich ist. Wenn Sie beispielsweise ein bestimmtes Tool zum Datenverständnis verwenden, ist es durchaus sinnvoll, Ihre Daten in dieses Tool zu laden. Wenn Sie mehrere Datenquellen erwerben, müssen Sie überlegen, wie und wann Sie diese integrieren.
Beschreiben Sie Daten
Untersuchen Sie die „Brutto“- oder „Oberflächen“-Eigenschaften der erfassten Daten und berichten Sie über die Ergebnisse.
Daten erkunden
In dieser Phase werden Sie Data-Mining-Fragen mithilfe von Abfrage-, Datenvisualisierungs- und Berichtstechniken beantworten. Dazu können gehören:
- Verteilung der Schlüsselattribute
- Beziehungen zwischen Paaren oder einer kleinen Anzahl von Attributen
- Ergebnisse einfacher Aggregationen
- Eigenschaften bedeutender Teilpopulationen
- Einfache statistische Analysen
Diese Analysen können direkt auf Ihre Data-Mining-Ziele eingehen. Sie können zur Datenbeschreibung und den Qualitätsberichten beitragen oder diese verfeinern und in die Transformation und andere Datenaufbereitungsschritte einfließen, die für die weitere Analyse erforderlich sind.
Überprüfen Sie die Datenqualität
Untersuchen Sie die Qualität der Daten und gehen Sie dabei auf Fragen ein wie:
- Sind die Daten vollständig oder decken sie alle erforderlichen Fälle ab?
- Ist es korrekt oder enthält es Fehler, und wenn es Fehler gibt, wie häufig sind sie?
- Fehlen Werte in den Daten? Wenn ja, wie werden sie dargestellt, wo kommen sie vor und wie häufig sind sie?
Datenqualitätsbericht
Listen Sie die Ergebnisse der Datenqualitätsprüfung auf. Wenn Qualitätsprobleme bestehen, schlagen Sie mögliche Lösungen vor. Lösungen für Datenqualitätsprobleme hängen im Allgemeinen stark von Daten- und Geschäftskenntnissen ab.
Phase 3: Datenvorbereitung
In dieser Projektphase entscheiden Sie, welche Daten Sie für die Analyse verwenden. Zu den Kriterien, die Sie für diese Entscheidung heranziehen können, gehören die Relevanz der Daten für Ihre Data-Mining-Ziele, die Qualität der Daten und technische Einschränkungen wie Beschränkungen des Datenvolumens oder der Datentypen.
Teelöffel vs. Esslöffel
Bereinigen Sie Ihre Daten
Bei dieser Aufgabe geht es darum, die Datenqualität auf das Niveau zu heben, das für die von Ihnen ausgewählten Analysetechniken erforderlich ist. Dies kann die Auswahl sauberer Teilmengen der Daten, das Einfügen geeigneter Standardwerte oder ehrgeizigere Techniken wie die Schätzung fehlender Daten durch Modellierung umfassen.
Erforderliche Daten erstellen
Diese Aufgabe umfasst konstruktive Datenvorbereitungsvorgänge wie die Erstellung abgeleiteter Attribute, ganz neuer Datensätze oder transformierter Werte für vorhandene Attribute.
Daten integrieren
Diese Methoden kombinieren Informationen aus mehreren Datenbanken, Tabellen oder Datensätzen, um neue Datensätze oder Werte zu erstellen.
Phase 4: Modellierung
Modellierungstechnik auswählen: Im ersten Schritt wählen Sie die grundlegende Modellierungstechnik aus, die Sie verwenden möchten. Auch wenn Sie möglicherweise bereits in der Phase des Geschäftsverständnisses ein Tool ausgewählt haben, wählen Sie in dieser Phase die spezifische Modellierungstechnik aus, z. B. Entscheidungsbaumaufbau mit C5.0 oder neuronale Netzwerkgenerierung mit Backpropagation. Wenn mehrere Techniken angewendet werden, führen Sie diese Aufgabe für jede Technik separat durch.
Testdesign erstellen
Bevor Sie ein Modell erstellen, müssen Sie ein Verfahren oder einen Mechanismus generieren, um die Qualität und Gültigkeit des Modells zu testen. Beispielsweise werden bei überwachten Data-Mining-Aufgaben wie der Klassifizierung häufig Fehlerraten als Qualitätsmaß für Data-Mining-Modelle verwendet. Daher unterteilen Sie den Datensatz normalerweise in Zug- und Testsätze, bauen das Modell auf dem Zugsatz auf und schätzen seine Qualität anhand des separaten Testsatzes.
Modell bauen
Führen Sie das Modellierungstool für den vorbereiteten Datensatz aus, um ein oder mehrere Modelle zu erstellen.
Modell bewerten
Interpretieren Sie die Modelle entsprechend Ihren Fachkenntnissen, Ihren Data-Mining-Erfolgskriterien und dem gewünschten Testdesign. Beurteilen Sie den Erfolg der Anwendung von Modellierungs- und Erkennungstechniken und wenden Sie sich später an Geschäftsanalysten und Fachexperten, um die Data-Mining-Ergebnisse im Geschäftskontext zu besprechen. Bei dieser Aufgabe werden nur Modelle berücksichtigt, während in der Evaluierungsphase auch alle anderen während des Projekts erzielten Ergebnisse berücksichtigt werden.
In dieser Phase sollten Sie die Modelle einordnen und anhand der Bewertungskriterien bewerten. Dabei sollten Sie möglichst die Geschäftsziele und Erfolgskriterien berücksichtigen. In den meisten Data-Mining-Projekten wird eine einzelne Technik mehr als einmal angewendet und Data-Mining-Ergebnisse werden mit mehreren unterschiedlichen Techniken generiert.
switch-Anweisung Java
Phase 5: Bewertung
Bewerten Sie Ihre Ergebnisse: Bisherige Bewertungsschritte befassten sich mit Faktoren wie der Genauigkeit und Allgemeingültigkeit des Modells. In diesem Schritt beurteilen Sie, inwieweit das Modell Ihre Geschäftsziele erfüllt, und versuchen herauszufinden, ob es einen geschäftlichen Grund gibt, warum dieses Modell mangelhaft ist. Eine weitere Möglichkeit besteht darin, das Modell an Testanwendungen in der realen Anwendung zu testen, sofern Zeit- und Budgetbeschränkungen dies zulassen. Die Evaluierungsphase umfasst auch die Bewertung aller anderen von Ihnen generierten Data-Mining-Ergebnisse. Bei den Data-Mining-Ergebnissen handelt es sich um Modelle, die notwendigerweise einen Bezug zu den ursprünglichen Geschäftszielen haben, sowie um alle anderen Erkenntnisse, die nicht unbedingt einen Bezug zu den ursprünglichen Geschäftszielen haben, aber möglicherweise auch zusätzliche Herausforderungen, Informationen oder Hinweise für zukünftige Richtungen aufdecken.
Überprüfungsprozess
Zu diesem Zeitpunkt scheinen die resultierenden Modelle zufriedenstellend zu sein und den Geschäftsanforderungen gerecht zu werden. Jetzt ist es für Sie angebracht, den Data-Mining-Einsatz gründlicher zu prüfen, um festzustellen, ob ein wichtiger Faktor oder eine wichtige Aufgabe irgendwie übersehen wurde. Diese Überprüfung befasst sich auch mit Fragen der Qualitätssicherung. Zum Beispiel: Haben wir das Modell richtig gebaut? Haben wir nur die Attribute verwendet, die wir verwenden dürfen und die für zukünftige Analysen zur Verfügung stehen?
Bestimmen Sie die nächsten Schritte
Abhängig von den Beurteilungsergebnissen und der Prozessüberprüfung entscheiden Sie nun über das weitere Vorgehen. Schließen Sie dieses Projekt ab und fahren Sie mit der Bereitstellung fort, initiieren Sie weitere Iterationen oder richten Sie neue Data-Mining-Projekte ein? Sie sollten auch eine Bestandsaufnahme Ihrer verbleibenden Ressourcen und Ihres Budgets vornehmen, die Ihre Entscheidungen beeinflussen können.
Phase 6: Bereitstellung
Planen Sie die Bereitstellung: In der Bereitstellungsphase legen Sie anhand Ihrer Bewertungsergebnisse eine Strategie für deren Bereitstellung fest. Wenn ein allgemeines Verfahren zum Erstellen der relevanten Modelle identifiziert wurde, wird dieses Verfahren hier für die spätere Bereitstellung dokumentiert. Es ist sinnvoll, die Wege und Mittel der Bereitstellung bereits während der Phase des Geschäftsverständnisses zu berücksichtigen, da die Bereitstellung für den Erfolg des Projekts von entscheidender Bedeutung ist. Hier trägt Predictive Analytics dazu bei, den operativen Betrieb Ihres Unternehmens zu verbessern.
Planen Sie Überwachung und Wartung
Überwachung und Wartung sind wichtige Themen, wenn das Data-Mining-Ergebnis Teil des Tagesgeschäfts und seiner Umgebung wird. Die sorgfältige Ausarbeitung einer Wartungsstrategie hilft, unnötig lange Zeiträume der Fehlnutzung von Data-Mining-Ergebnissen zu vermeiden. Das Projekt benötigt einen detaillierten Überwachungsprozessplan, um die Bereitstellung der Data-Mining-Ergebnisse zu überwachen. Dieser Plan berücksichtigt die spezifische Art der Bereitstellung.
Abschlussbericht erstellen
Am Ende des Projekts verfassen Sie einen Abschlussbericht. Abhängig vom Einsatzplan kann dieser Bericht nur eine Zusammenfassung des Projekts und seiner Erfahrungen sein (sofern diese nicht bereits als laufende Aktivität dokumentiert wurden) oder eine abschließende und umfassende Präsentation des Data-Mining-Ergebnisses sein.
Rezensionsprojekt
Ansichten und Tabellen
Bewerten Sie, was richtig und was falsch gelaufen ist, was gut gemacht wurde und was verbessert werden muss.