Einleitung Data Mining & Predictive Analytics Business Intelligence
Für die Bereiche Machine Learning, Deep Learning und Data Mining verwenden wir je nach Zielsetzung Python (z.B. Tensorflow, keras), R, Knime, SAS, MS Azure ML, SPSS, Weka etc.
Information als
Produktionsfaktor gewinnt heute immer mehr an Bedeutung.
Während kleine Unternehmen oftmals noch überschaubare
Datenbestände verwalten müssen, produzieren und
sammeln große internationale Unternehmen mehr Daten innerhalb
einer Woche, als ein Mensch in seinem Leben lesen könnte.
Dieses Datenwachstum führt dazu, dass
Unternehmen „den Wald vor lauter Bäumen nicht mehr
sehen“, da diese Datenmengen selbst für
große Unternehmen ohne maschinelle Unterstützung
einfach nicht mehr handhabbar sind. Immer mehr Daten bedeuten deswegen
immer weniger Information. Aus diesem Grund dürfen Daten nicht
nur gesammelt werden, sondern müssen konsistent und nutzbar
aufbereitet werden. Hier spricht man vom so genannten „data
warehousing“. Data Warehouses
sind integrierte Datenbestände, die eine Schicht zwischen den
analytischen und operativen Informationssystemen eines Unternehmens
bilden. Um schließlich einen Nutzen aus
diesen Daten generieren zu können müssen die Daten
analysiert, verstanden und in entscheidungsunterstützende
Informationen umge-wandelt werden. Dies ist die Aufgabe von
„Data Mining“.
Data Mining & Predictive Analytics Business Intelligence Einleitung
Der Begriff Data Mining ist eine Anlehnung an ein bekanntes
Bild aus dem Bergbau (Mining). Dort werden unter großem
technologische m Aufwand enorme Gesteinsmengen abgebaut und
aufbereitet, um Edelmetalle und -steine zu fördern. Beim Data
Mining wird ähnlich wie beim Bergbau versucht, in
großen Datenmengen unter Mithilfe entsprechender Methoden
neue, nicht-triviale Strukturen, Trends und Zusammenhänge zu
finden. Der Begriff „Data
Mining“ kann dabei ins Deutsche mit
„Datenmustererkennung“ übersetzt werden.
Data Mining vereinigt eine Vielzahl teilweise sehr unterschiedlicher
Ideen und Techniken aus den Fachdisziplinen Statistik und Datenanalyse,
künstliche Intelligenz, Datenbanktheorie und -praxis,
maschinelles Lernen, Muster- und Regelerkennung. Im Idealfall erfolgt
der Prozess des Data Mining zur Erkennung dieser Muster und
Zusammenhänge vollautomatisch. So vermitteln es zumindest
häufig die Medien und Hersteller von Data Mining-Werkzeugen.
Von diesem Idealzustand sind wir heute aber noch weit entfernt, so dass
man besser von teilweise automatisch spricht. Es darf
hier nicht die falsche Vorstellung entstehen, dass Data Mining
gleichzusetzen ist mit „eine Menge an Daten in einen Trichter
werfen, um automatisch relevante Zusammenhänge zu
bekommen“. Der Data Mining-Prozess erfolgt i. d. R. in
mehreren Stufen, interaktiv und vor allem iterativ,
bei dem der Anwender häufig Entscheidungen auf Basis subjektiv
bewerteter Informationen treffen muss. Während
zuvor noch von großen Datenmengen gesprochen wurde auf
die Data Mining angewendet werden kann, so darf hier nicht das
Missverständnis entstehen, dass Data Mining nicht durchaus
auch auf kleine Datenbestände angewendet werden kann, um
bedeutungsvolle Muster zu entdecken.
Häufig werden in der Literatur die Begriffe Data Mining und
Knowledge Discovery in Databases (KDD) synonym verwendet. Auf der
ersten internationalen KDD-Konferenz 1995 in Montreal wurde jedoch
festgelegt, dass der Begriff KDD den gesamten Prozess der
Wissensextraktion aus Datenquellen umschreibt, Data Mining dagegen nur
für den Entdeckungsprozess des KDD-Prozesses verwendet werden
soll.
Konkrete Problemstellungen die man mit Data Mining lösen kann
betreffen typischerweise die Klassifikation (Erkennen von
Zusammenhängen in Daten), die Vorhersage (Prognose von
Verhalten), das Clustering (Auffinden von Strukturen in Daten) und die
Regelgenerierung (Auffinden von Regeln).
Predictive Analytics unterstützt Unternehmen beim
Vorhersehen von Veränderungen und damit beim Planen und
Ausführen von Strategien zur Ergebnisverbesserung. Durch die
Anwendung von Predictive Analytics auf bereits vorhandene Daten kann
das Unternehmen unerwartete Muster und Beziehungen entdecken und
Leitmodelle für die Interaktionen mit den Klienten vor Ort
entwickeln. Das bedeutet, man kann umsatzstarke Kunden besser binden,
bestehenden Kunden zusätzliche Services verkaufen, effizienter
erfolgreiche Produkte entwickeln oder Betrug wie Risiko aufdecken und
minimieren. Predictive Analytics verleiht Unternehmen das Wissen, um
vorauszusehen, und die Kraft, um zu handeln.
Business Intelligence Data Mining & Predictive Analytics Einleitung
Für unsere Business Intelligence Lösungen
nutzen wir die weltweit führende Open Source Data Mining
Software RapidMiner. Laut
einer 2008 durchgeführten Umfrage des bedeutendsten
Web-Portals im Bereich Data Mining und Wissensentdeckung,
KDnuggets.com, unter 347 Data Mining Experten ist RapidMiner das
weltweit am weitesten verbreitetste Open Source Data Mining Tool, die
am zweit-häufigsten eingesetzte Software zur Datenanalyse
insgesamt und die führende deutsche Data Mining
Lösung. Auch gemäß einer Studie der TU
Chemnitz, die beim internationalen Data-Mining-Cup 2007 (DMC-2007)
vorgestellt wurde, ist RapidMiner die führende Open Source
Data Mining Software und schneidet in einer Vergleichsstudie unter den
wichtigsten Open Source Data Mining Tools sowohl hinsichtlich der
Technologie als auch der Anwendbarkeit am besten ab. Im Rahmen des
Innovationspreises 2008 hat die Initiative Mittelstand RapidMiner als
eines der innovativsten Open Source Produkte ausgezeichnet. Die
Entdeckung ungenutzten Firmenwissens aus vorhandenen
Datenbeständen oder aus dem World Wide Web ermöglicht
informierte Entscheidungen, Prozessoptimierungen und Vorhersagen. Das
Anwendungsspektrum der Data-Mining-Software RapidMiner ist breit und
deckt die Bereiche Kundenbeziehungsmanagement (Customer Relationship
Management, CRM), Direktmarketing, Optimierung von Versand- und
Mailing-Aktionen, automatische lernfähige
E-Mail-Weiterleitung, Warenkorbanalysen, Produktempfehlungssysteme, Up-
und Cross-Selling, Transaktionsanalyse, Betrugserkennung und
-vermeidung, Kreditausfallprognose, Wirtschaftsprüfung,
Steuerprüfung, präventive Wartung von Maschinen im
Produktionsbereich, Ausfallprognose und -vermeidung, Last- und
Verbrauchsprognosen, Analyse finanzieller Zeitreihen, Wertpapierkurs-
und Wechselkursprognosen, Informationsextraktion aus Web-Seiten,
automatisches Filtern von Nachrichten und Sortieren elektronischer
Dokumente, automatisierte Online-Marktforschung und Stimmungsanalyse
(Sentiment Analysis, Opinion Mining) in Web-Blogs und
Internet-Diskussionsforen ebenso wie die interaktive explorative
Analyse von Daten mit Hilfe zwei- und dreidimensionaler Visualisierung
ab. RapidMiner kann Daten aus den verschiedensten Datenbanken und
Textdateien ebenso verarbeiten wie Excel-Sheets und unstrukturierte
Daten aus Web-Seiten und Textdokumenten sowie Audiodaten und andere
Zeitreihen.
Erfahren Sie mehr über Angebote zu Business Intelligence und Data Mining»
Die hier erwähnten Fragestellungen, Untersuchungsansätze und Methoden sind nur ein Auszug aus möglichen Forschungsprojekten. Wichtig ist, über jedes Projekt zu sprechen und das Problem zu verstehen. Deshalb: Kontaktieren Sie uns! Mit unserem Forschungsnetzwerk gibt es zu jeder Problemstellung eine günstige Lösung.