Data Mining-Konzepte, Microsoft Docs

In diesem Artikel

Data Mining ist der Prozess der Entdeckung verwertbare Informationen aus großen Datenmengen. Data Mining nutzt mathematische Analyse von Mustern und Trends ableiten, die in Daten existieren. Typischerweise können diese Muster nicht durch traditionelle Datenexploration entdeckt werden, da die Beziehungen zu komplex sind oder weil es zu viele Daten.

Diese Muster und Trends können als Data Mining-Modell gesammelt und definiert werden. Mining-Modelle können auf bestimmte Szenarien angewandt werden, wie zum Beispiel:

Prognose. Abschätzen Verkäufe, die Vorhersage Serverlasten oder Server-Ausfallzeiten

Risiko und Wahrscheinlichkeit. Die Auswahl der besten Kunden für gezielte Mailings, die wahrscheinlichen Break-even für Risikoszenarien zu bestimmen, Wahrscheinlichkeiten zu Diagnosen oder anderen Ergebnisse zuzuweisen

Empfehlungen. Die Bestimmung, welche Produkte sind wahrscheinlich zusammen verkauft werden, Erzeugen von Empfehlungen

Die Suche nach Sequenzen. Analyse von Kundenauswahl in einem Einkaufswagen, die Vorhersage nächste wahrscheinliche Ereignisse

Gruppierung. Die Trennung Kunden oder Ereignisse in Cluster verwandter Elemente, Analyse und Vorhersage von Affinitäten

ein Mining-Modell zu bauen ist Teil eines größeren Prozesses, diese Fragen zu beantworten, um den Einsatz des Modells in einer Arbeitsumgebung alles von Fragen über die Daten und die Erstellung eines Modells enthält. Dieser Prozess kann mit den folgenden sechs grundlegenden Schritte definiert werden:

Das folgende Diagramm beschreibt die Beziehungen zwischen jedem Schritt in dem Prozess, und die Technologien in Microsoft SQL Server, die Sie jeden Schritt zu vollenden können.

Microsoft SQL Server Data Mining bietet eine integrierte Umgebung für die Erstellung und die Arbeit mit Data-Mining-Modellen. Diese Umgebung enthält SQL Server Development Studio, die Daten enthält Mining-Algorithmen und Abfrage-Tools, die es leicht machen, eine umfassende Lösung für eine Vielzahl von Projekten und SQL Server Management Studio, die für das Surfen Modelle und Verwaltung von Data Mining-Objekten enthält Werkzeuge zu bauen. Weitere Informationen finden Sie unter Erstellen Multidimensional Modellen mithilfe von SQL Server-Datentools # 40; # 41 SSDT ;.

Ein Beispiel dafür, wie die SQL Server-Tools zu einem Business-Szenario angewendet werden, die Data Mining-Grund Tutorial sehen.

Definition des Problems

Der erste Schritt in der Data-Mining-Verfahren, wie im folgenden Diagramm verdeutlicht, ist klar, das Problem zu definieren und prüfen, wie die Daten verwendet werden können, eine Antwort auf das Problem zu schaffen.

Dieser Schritt beinhaltet Anforderungen Business Analyse, Festlegung des Umfangs des Problems, die Definition der Kennzahlen, mit denen das Modell bewertet werden, und spezifische Ziele für das Data-Mining-Projekt definieren. Diese Aufgaben übersetzen in Fragen wie die folgenden:

Wonach suchen Sie? Welche Arten von Beziehungen versuchen Sie zu finden?

Hat das Problem, das Sie versuchen, spiegeln die Strategien und Prozesse des Unternehmens zu lösen?

Wollen Sie die Prognosen aus dem Data-Mining-Modell machen, oder suchen Sie einfach nach interessanten Mustern und Verbänden?

Welches Ergebnis oder Attribut wollen Sie versuchen, vorherzusagen?

Welche Daten Sie haben und welche Art von Informationen in jeder Spalte? Wenn es mehrere Tabellen sind, wie geht es aus den Tabellen? Benötigen Sie eine Reinigung, Aggregation oder Verarbeitung durchzuführen, um die Daten nutzbar zu machen?

Wie verteilt sich die Daten? Sind die Daten der Saison? Repräsentiert die Daten genau die Prozesse des Unternehmens?

Um diese Fragen zu beantworten, können Sie eine Datenverfügbarkeit Studie durchführen müssen, um die Bedürfnisse des Business-Anwender im Hinblick auf die verfügbaren Daten zu untersuchen. Wenn die Daten nicht auf die Bedürfnisse der Benutzer nicht unterstützt, können Sie das Projekt neu definieren.

Sie müssen auch die Möglichkeiten prüfen, in denen die Ergebnisse des Modells in Kennzahlen integriert werden können (KPI), die den Geschäftsverlauf werden verwendet, um zu messen.

Vorbereiten von Daten

Der zweite Schritt in dem Data-Mining-Prozess, wie in dem folgenden Diagramm hervorgehoben, werden die Daten zu konsolidieren und reinigen, die in der Definition des Problems Schritt identifiziert wurde.

Datenbereinigung ist nicht nur über schlechte Daten zu entfernen oder fehlende Werte interpoliert, sondern um versteckte Korrelationen in den Daten zu finden, Datenquellen zu identifizieren, die die genaueste sind, und zu bestimmen, welche Spalten die am besten geeignete für die Verwendung bei der Analyse wurden. Zum Beispiel sollten Sie das Versanddatum oder das Bestelldatum verwenden? Ist die beste Verkauf influencer die Menge, Gesamtpreis, oder ein ermäßigter Preis? Unvollständige Daten, falsche Daten und Eingaben, die getrennt erscheinen, aber in der Tat korrelieren stark alle Ergebnisse des Modells in einer Weise beeinflussen können Sie nicht erwarten.

Es ist wichtig zu beachten, dass die Daten, die Sie für das Data Mining verwenden nicht in einer Online Analytical Processing (OLAP) Cube oder sogar in einer relationalen Datenbank gespeichert werden muss, obwohl man diese beide als Datenquellen verwenden kann. Sie können Data Mining führen jede Datenquelle verwenden, die als Analysis Services-Datenquelle definiert wurde. Diese können Textdateien, Excel-Dateien oder Daten von anderen externen Anbietern. Weitere Informationen finden Sie unter Unterstützte Datenquellen # 40; SSAS - Mehrdimensionale # 41 ;.

Explo Daten

Der dritte Schritt in dem Data-Mining-Prozess, wie in dem folgenden Diagramm markiert ist, ist es, die aufbereiteten Daten zu erforschen.

Sie können Tools wie Master Data Services verwenden, um verfügbare Datenquellen zu akquirieren und deren Verfügbarkeit für Data Mining zu bestimmen. Sie können Tools wie SQL Server Data Quality Services verwenden oder die Daten Profiler in Integration Services, um die Verteilung Ihrer Daten und Reparatur Probleme wie falsche oder fehlende Daten zu analysieren.

Nachdem Sie Ihre Quellen definiert haben, kombinieren Sie sie in einer Ansicht Datenquelle von der Datenquelle View Designer in SQL Server-Datentools verwenden. Für weitere Informationen, Datenquellensichten in Mehrdimensionale Modellen sehen. Dieser Designer enthält auch einige verschiedene Tools, mit denen Sie die Daten verwenden können, zu erforschen und zu überprüfen, ob es für die Erstellung eines Modells zu arbeiten. Weitere Informationen finden Sie sich Daten in einer Datenquellensicht # 40; Analysis Services # 41 ;.

Erstellen von Modellen

Der vierte Schritt in dem Data-Mining-Prozess, wie in dem folgende Diagramm markiert ist, ist es, das Bergbaumodell oder Modelle zu bauen. Sie werden die Kenntnisse, die Sie im Explorer-Daten Schritt gewonnen zu definieren und die Modelle erstellen.

Sie definieren die Spalten von Daten, die Sie durch die Schaffung einer Miningstruktur verwenden möchten. Die Bergbau-Struktur ist mit der Datenquelle verknüpft ist, enthält aber eigentlich keine Daten, bis Sie sie verarbeiten. Wenn Sie die Miningstruktur verarbeiten, generiert Analysis Services Aggregate und andere statistische Informationen, die für die Analyse verwendet werden kann. Diese Informationen können von jedem Mining-Modell verwendet werden, die auf der Struktur basieren. Weitere Informationen darüber, wie Bergbau Strukturen Mining-Modelle beziehen, finden Sie unter Logische Architektur # 40; Analysis Services - Data Mining # 41 ;.

Sie können unter Verwendung der Data Mining-Assistenten in SQL Server-Datentool, oder mit der Data Mining-Erweiterungen (DMX) Sprache, ein neues Modell definieren. Weitere Informationen darüber, wie die Data Mining-Assistenten finden Sie unter Data Mining-Assistenten # 40; Analysis Services - Data Mining # 41 ;. Weitere Informationen darüber, wie DMX finden Sie unter Data Mining-Erweiterungen # 40; # 41 DMX; Referenz.

Erforschen und Validieren von Models

Der fünfte Schritt in der Data-Mining-Verfahren, wie im folgenden Diagramm verdeutlicht, ist die Mining-Modelle zu erforschen, die Sie aufgebaut haben, und ihre Wirksamkeit zu testen.

Bevor Sie ein Modell in einer Produktionsumgebung bereitstellen, sollten Sie testen, wie gut das Modell führt. Auch, wenn Sie ein Modell erstellen, erstellen Sie in der Regel mehrere Modelle mit unterschiedlichen Konfigurationen und testen alle Modelle zu sehen, welche die besten Ergebnisse für Ihr Problem und Ihre Daten liefern.

Analysis Services bietet Tools, die Sie trennen Sie Ihre Daten in Trainings- und Testdatensätze helfen, so dass Sie genau die Leistung aller Modelle auf den gleichen Daten beurteilen können. Sie verwenden die Trainingsdatenmenge das Modell, und das Testdatensatz zu testen, um die Genauigkeit des Modells durch die Schaffung von Vorhersageabfragen zu erstellen. Diese Aufteilung kann automatisch erfolgen, während das Mining-Modell zu bauen. Weitere Informationen finden Sie unter Testen und Validierung # 40; Data Mining # 41 ;.

Wenn keines der Modelle, die Sie in den Gebäudemodellen erstellt und führen Sie Schritt, können Sie zu einem vorherigen Schritt in dem Prozess zurückkehren und das Problem neu zu definieren oder die Daten in dem ursprünglichen Datensatz neu untersuchen.

Bereitstellen und Aktualisieren von Models

Der letzte Schritt in der Data-Mining-Verfahren, wie im folgenden Diagramm verdeutlicht, ist die Modelle zu implementieren, die die besten in einer Produktionsumgebung durchgeführt.

Nachdem die Mining-Modelle in einer Produktionsumgebung vorhanden ist, können Sie viele Aufgaben ausführen, je nach Ihren Bedürfnissen. Im Folgenden sind einige der Aufgaben, die Sie ausführen können:

Erstellen Sie Inhaltsabfragen abzurufen Statistiken, Regeln oder Formeln aus dem Modell. Weitere Informationen finden Sie unter Data Mining-Abfragen.

Einbetten von Data-Mining-Funktionalität direkt in eine Anwendung. Sie können Objekte Analysis Management (AMO) enthalten, die eine Reihe von Objekten enthält, die Ihre Anwendung erstellen können, verändern, zu verarbeiten und Miningstrukturen und Miningmodelle löschen. Alternativ können Sie XML for Analysis (XMLA) Nachrichten direkt an eine Instanz von Analysis Services senden. Weitere Informationen finden Sie unter Entwicklung (Analysis Services - Data Mining).

Erstellen Sie einen Bericht, der Benutzer direkt abfragen gegen ein bestehendes Mining-Modell ermöglicht. Weitere Informationen finden Sie Reporting Services in SQL Server-Datentools # 40; # 41 SSDT ;.

Aktualisieren Sie die Modelle nach Überprüfung und Analyse. Jedes Update erfordert, dass Sie die Modelle erneut zu verarbeiten. Weitere Informationen finden Sie unter Verarbeiten von Data Mining-Objekten.

Aktualisieren Sie die Modelle dynamisch, da mehr Daten in die Organisation kommt, und ständige Änderungen der Wirksamkeit der Lösung zu verbessern, sollte ein Teil der Einsatzstrategie sein. Weitere Informationen finden Sie unter Management von Data-Mining-Lösungen und Objekte

In Verbindung stehende Artikel