Matthias Fuchs, Wolfram Höpken
Data Mining im Tourismus Der Beitrag zeigt theoretische Grundlagen und praktische Anwendungen des Data Mining für die Tourismusbranche auf. Nach einer Einleitung über die Bedeutung des Data Mining im Tourismus werden die wichtigsten Begriffe bestimmt. Abschnitt 2 liefert gängige Definitionen und skizziert das Konzept der Wissensexploration in Datenbanken. Anhand touristischer Beispiele wird auf den Begriff Web Mining eingegangen. Abschnitt 3 beschreibt die wichtigsten Aufgaben und Werkzeuge des Data Mining und streift Methoden zur Klassifikation, Schätzung, Vorhersage, Clusterbildung und Assoziation. Abschnitt 4 stellt praktische Anwendungen des Data Mining für die Tourismusbranche vor. Unter besonderer Berücksichtigung von künstlichen neuronalen Netzen, der Entscheidungsbaum- und Warenkorbanalyse wird Data Mining zur Ermittlung der Determinanten von Gästeloyalität, zur Kundensegmentierung und Klassifikation von Erstbesuchern sowie zur Optimierung der Reiseempfehlung für Reisebürokunden eingesetzt. Die Bedeutung von Data Mining im Tourismus wird durch die breite Verfügbarkeit von Werkzeugen, die enorm wachsenden Mengen an Content und das zunehmende – auch kurzfristige – Interesse an Analysen steigen.
Inhaltsübersicht 1 2 3 4
Tourismusmarketing Grundlagen des Data Mining Data-Mining-Aufgaben und -Werkzeuge Praktische Anwendungen des Data Mining im Tourismus 4.1 KNN im Tourismus 4.2 Entscheidungsbaum- und Warenkorbanalyse im Tourismus 5 Ausblick 6 Literatur
HMD 270
1
Tourismarketing
Das Marketing von Tourismusprodukten ist mit internationalem Wettbewerbsdruck bei sich rasch änderndem Kundenverhalten konfrontiert. Daraus leitet sich der Bedarf eines zielgenauen und effektiven Marketings ab. Gleichzeitig ist die Tourismusindustrie der größte Anwender von Informations- und Kommunikationstechnologien (IKT) und wickelt Transaktionen zwischen Anbietern und Intermediären, aber auch hin zum Kunden überwiegend elektronisch ab. Egal um welchen Tourismusbetrieb es sich handelt (z.B. Hotel, Airline, Reiseintermediär, Destinationsmanagement-Organisation), es liegen meist riesige Mengen gespeicherter Daten über wesentliche Transaktionen (z.B. Kundenanfragen, Buchungsdaten, Zahlungsabwicklung) vor. Sofern es – ähnlich einem Goldgräber – gelingt, das in diesen Daten verborgene Wissen (z.B. Zusammenhang zwischen Kundenmerkmalen und Produktpräferenzen) zu »bergen« (to mine), lassen sich Vermarktungsstrategien optimieren und Wettbewerbsvorteile erzielen.
2
Grundlagen des Data Mining
Gemäß enger Definition befasst sich Data Mining mit der automatischen Exploration versteckter und interessanter Muster in (meist großen) Datensätzen mittels Methoden des Maschinenlernens und der künstlichen Intelligenz [Hastie et al. 2009]. Algorithmen künstlicher Intelligenz (z.B. künstliche neuronale Netze, Entscheidungsbaumanalyse, Assoziationsregeln) besitzen die Fähigkeit zum Selbstlernen und zum eigenständigen Lösen nicht linearer komplexer Probleme ohne Einschränkung durch Verteilungsvoraussetzungen der Daten. Die ver-
73
Data Mining im Tourismus wendeten Daten sind vielmehr unvollständig, redundant, fehlerhaft, dynamisch und sehr groß in der Anzahl. Als »interessant« werden jene Zusammenhänge bezeichnet, die einen potenziellen Beitrag zur Geschäftsstrategie leisten und damit die Erreichung des Unternehmensziels unterstützen. Als Teildisziplin des Data Mining stellt Business Analytics insbesondere Vorausschauen betrieblicher Vorgänge (predictive task) zur strategischen Unternehmenssteuerung bereit (z.B. Wenn-dann-Analysen). Eine breitere Definition umfasst ebenso das Testen vermuteter Zusammenhänge und schließt Methoden der Statistik mit ein. Die umfassendste Definition rechnet Data Mining dem Prozess der Wissensexploration in Datenbasen zu (knowledge discovery in databases). Letztere umfasst den nicht trivialen Prozess der Identifikation gültiger und vorher unbekannter sowie potenziell nützlicher Muster aus Datensätzen. Hier knüpft Data Mining an, um durch Einsatz spezieller Algorithmen Zusammenhänge und Trends aus Datenbeständen abzuleiten. Da 93 % der Internetnutzer bei der Reiseplanung Tourismuswebsites besuchen [Wolk & Wöber 2008], steht im Tourismus das Web Mining, also die Übertragung von Techniken des Data Mining zur Extraktion von Informationen aus dem World Wide Web, im Vordergrund. Web Mining zerfällt auf folgende Anwendungsbereiche: 1. Web Usage Mining: Das Nutzungsverhalten der Webnutzer wird mittels auf Webservern aufgezeichneten Logfiles analysiert. Die Vorteile liegen auf der Hand: Erstens liegen LogDaten meist für eine große Nutzerzahl vor. Zweitens ist die Datensammlung besonders günstig, da nur Speicherkosten anfallen. Drittens geschieht die Datensammlung völlig unaufdringlich, weshalb unverfälschtes Wissen über Webnutzer generiert werden kann. [Schegg et al. 2005] ermittelten beispielsweise für vergleichbare Websites von 15 Schweizer Hotels der 4-Sterne-Kategorie
74
eine durchschnittliche Besuchsdauer von 2 Minuten bei 4,7 Seitenaufrufen. Des Weiteren erbrachte eine Suchwortanalyse auf dem Städteportal www.visiteurope.info 5.550 verschiedene Suchworte [Wolk & Wöber 2008]. Diese trugen zur Definition von Städteprofilen als Grundlage der strategischen Positionierung bei. 2. Web Structure Mining: Dabei wird die einer Website oder Domäne zugrunde liegende Verweisstruktur (d.h. Hyperlinks innerhalb einer Website sowie solche von und zu anderen Webdokumenten) analysiert [Liu 2008]. Innerhalb bestimmter Themenbereiche können dadurch Kategorien ähnlicher Websites gebildet werden, wie etwa besonders inhaltsreiche Sites (authorities) oder überblicksartige Sites (hubs). Für Hotelwebsites stellten [Schegg et al. 2005] eine generell flache Architektur fest: Zimmer- und Preisinformationen sind im Schnitt nur zwei Klicks von der Einstiegsseite entfernt. 3. Web Content Mining befasst sich mit der Erkennung von Regelmäßigkeiten in den Inhalten von Webdokumenten mittels Text Mining. Inhalte im Web bestehen größtenteils aus unstrukturierten Datentypen (z.B. Text, Bilder, Audio-, Video-, Metadaten, Hyperlinks) sowie semistrukturierten Daten (z.B. HTML-Dokument) und nur zu einem relativ kleinen Teil aus strukturierten Daten (z.B. Tabellen). Eine umfassende Recherche der Tourismusliteratur erbrachte äußerst dürftige Ergebnisse, weshalb abschließend festzuhalten ist, dass die touristische Online-Marktforschung mittels Web Mining bis auf wenige Ausnahmen in den Kinderschuhen steckt.
3
Data-Mining-Aufgaben und -Werkzeuge
Bei der Datenbeschreibung steht die Beschreibung einfacher Muster und Zusammenhänge in den Daten im Vordergrund. Wenngleich das
HMD 270
Data Mining im Tourismus »Big Picture« oft bereits abgeleitet werden kann, sind Details in den Daten nicht erkennbar. Als Werkzeuge kommen Datenbankabfragen (SQL), OLAP (Online Analytical Processing) sowie Techniken der explorativen Statistik zum Einsatz. Insbesondere unterstützen Techniken zur Visualisierung (z.B. 3D-Flächendiagramm) die Interpretation von Datenmustern. Data-Mining-Verfahren als Verfahren des maschinellen Lernens lassen sich zunächst unterscheiden in überwachtes (supervised) und unüberwachtes Lernen (unsupervised learning). Verfahren des überwachten Lernens erlernen aus Trainingsdaten ein Modell z.B. zur Klassifikation oder Vorhersage. Die Trainingsdaten beinhalten hierbei bereits das Ergebnis der Klassifikation bzw. Vorhersage, und das Modell kann dann auf neue Daten angewendet werden. Verfahren des nicht überwachten Lernens erlernen auf Basis vorliegender Daten ohne Anleitung ein Modell, z.B. für die Datensegmentierung (clustering) oder Erkennung von Assoziationen. Bei der Klassifikation (classification) werden neue Fälle (z.B. Erstbesucher) aufgrund bestimmter Merkmale (z.B. Geschlecht, Alter, Berufsgruppe, Reiseerfahrung) einer kategorialen Zielvariablen (z.B. 3 Marktsegmente) zugeordnet. Nur für den seltenen Fall, dass zwischen den Variablen lineare Zusammenhänge vorliegen, die Daten (annähernd) normal verteilt sind und keine Interkorrelation vorliegt, sind hierfür statistische Methoden, wie logistische Regression oder Diskriminanzanalyse, in Betracht zu ziehen. Wesentlich flexiblere Einsatzmöglichkeiten bieten hingegen Methoden des Maschinenlernens, wie künstliche neuronale Netze (KNN), Entscheidungsbaumanalysen, Assoziationsregeln und K-Nearest-Neighbour-Methoden [Hastie et al. 2009]. Die Schätzung (estimation) entspricht der Klassifikation mit dem Unterschied, dass die Zielvariable nicht kategorial, sondern numerisch (z.B. Gästeausgaben in €) ist. Für neue Beobachtungen leiten sich Werte der Zielvariablen aus Schätzungen der Prädiktorvariablen ab.
HMD 270
Methoden der Statistik sowie KNN werden eingesetzt. Die Vorhersage (prediction) entspricht der Klassifikation und der Schätzung. Allerdings liegt die Zielvariable in der Zukunft. Alle Methoden der Klassifikation und Schätzung kommen zum Einsatz [Larose 2005]. Die Clusterbildung (clustering) dient der Gruppierung (z.B. Marktsegmentierung) von Objekten oder Individuen (z.B. Touristen) aufgrund der Ähnlichkeit bestimmter Merkmale ausgewählter Variablen, die sie beschreiben (z.B. Reiseverhalten). Zur Clusterbildung kommen statistische Methoden (z.B. K-Mean Clustering, hierarchische Clusteranalyse) sowie Methoden der künstlichen Intelligenz, etwa KNN (insbesondere sog. Kohonen-Netzwerke), zum Einsatz [Bloom 2004]. Schließlich geht es im Rahmen der Assoziationsanalyse (association) um das Aufdecken von Zusammenhängen, also um gleichzeitig auftretende Merkmale in Variablen. Eine typische Anwendung ist die Warenkorbanalyse, die ermittelt, welche Leistungen im Verbund gekauft werden. Zusammenhangsmuster werden mittels Methoden des Maschinenlernens (z.B. A-priori-Algorithmen, Generalized Rule Induction) aufgedeckt und als Assoziationsregel der Form »Falls Antezedent eintritt (z.B. Restaurantbesuch), dann tritt Konsequent (z.B. Bierbestellung) ein« wiedergegeben.
4
Praktische Anwendungen des Data Mining im Tourismus
Die Kundensegmentierung sowie Angebotsbündelung und -positionierung mittels Clustering zählen im Tourismus zu den wichtigsten Anwendungen von Methoden der künstlichen Intelligenz [Bloom 2004]. Des Weiteren stehen Anwendungen im Zusammenhang mit Customer Relationship Management im Vordergrund. Dabei geht es um die Feststellung von Merkmalen jener Touristen, die eine überdurchschnittliche Kaufbereitschaft aufweisen bzw. überdurchschnittlich zur Unternehmensmarge bei-
75
Data Mining im Tourismus tragen. KNN werden häufig (gemeinsam mit ARIMA-Modellen) zur Nachfrageprognose eingesetzt und unterstützen entweder das Revenue und Kapazitätsmanagement eines Hotelbetriebs [Law 1998] oder die regionale Tourismuspolitik [Palmer et al. 2006]. Wenige Anwendungen existieren jedoch zur Erklärung des Reiseentscheidungs- und -kaufverhaltens [Jeng & Fesenmaier 1996], der Werbewirksamkeit und der Gästeloyalität [Tsaur et al. 2002; Wong et al. 2006]. Unter besonderer Berücksichtigung künstlicher neuronaler Netze, der Entscheidungsbaum- und der Warenkorbanalyse wird im Folgenden auf praktische Anwendungen des Data Mining im Tourismus eingegangen.
4.1 KNN im Tourismus KNN (künstliche neuronale Netze) sind leistungsfähige Approximationsfunktionen zur Abbildung komplexer nicht linearer Funktionen. KNN werden zur Klassifikation, Schätzung, Prognose und Mustererkennung eingesetzt. Ihren universellen Einsatz verdanken KNN der Tatsache, dass weder die Struktur des Modells noch einfließende Daten Beschränkungen bzw. Verteilungsannahmen unterliegen. Darüber hinaus sind KNN besonders tolerant gegenüber fehlerhaften und unvollständigen Daten. In Anlehnung an Neuronen des menschlichen Gehirns besteht ein KNN aus einer Vielzahl von zu mehreren Schichten (layer) zusammengeschlosse-
nen künstlichen Neuronen. Ein Neuron stellt darin die kleinste Datenverarbeitungseinheit dar und ist mit anderen Neuronen verbunden. Sämtliche Verbindungen sind mit einer numerischen Gewichtung ausgestattet, was sozusagen den aktuellen »Wissensstand« über ein bestimmtes Problem widerspiegelt [Palmer et al. 2006]. Die simple Aufgabe eines künstlichen Neurons j besteht darin, von Nachbarneuronen eingehende Inputsignale (xi), die wiederum durch Gewichte (wij) kontrolliert sind, zu empfangen. Die Summe dieser gewichteten Signale stellt den Nettoinput (netj) eines Neurons dar. Zu diesem Nettoinput wird ein positiver oder negativer Wert (θj) addiert, der als Aktivierungsschwelle definiert ist (vgl. Abb. 1). Schließlich führt die Anwendung einer Aktivierungsfunktion f(.) zum Output des künstlichen Neurons (yj). Künstliche Neuronen sind in einem mehrschichtigen Netzwerk angeordnet, das Signale der Inputschicht (input layer) über eine oder mehrere Zwischenschichten (hidden layer) bis zur Outputschicht (output layer) weitergibt (sog. feedforward multi-layer perceptron, vgl. Abb. 2). Bei Neuronen in der Eingangsschicht kommen meist lineare Aktivierungsfunktionen zum Einsatz, während bei Neuronen in der Zwischen- und Outputschicht nicht lineare Sigmoid-Funktionen zum Einsatz gelangen (d.h. logistische Funktion für Daten im Bereich zwischen 0 und 1). Vergleicht man KNN mit statistischen
Neuron
Neuron
Abb. 1: Funktionsweise eines künstlichen Neurons (in Anlehnung an [Palmer et al. 2006, S. 783])
76
HMD 270
Data Mining im Tourismus Input Layer
Hidden Layer
Output Layer
Zuvorkommenheit Hotelzimmer Gastronomie Standort Zuverlässigkeit
Gästeloyalität: Wiederbesuch
Empathie Reputation Hotel Business Service
Abb. 2: 8-6-1-KNN-Architektur (in Anlehnung an [Tsaur et al. 2002, S. 401])
Methoden, etwa der Regressionsanalyse, entsprechen Inputneuronen den unabhängigen Variablen, während man Outputneuronen mit abhängigen Variablen vergleichen kann. Die Anwendung eines KNN durchläuft gewöhnlich zwei Stufen: Zunächst wird eine neutrale Netzwerkkonfiguration mit einem Trainingsdatensatz in Verbindung gebracht, um einen Erstoutput zu erzielen. In den darauf folgenden Lernphasen wird die Erklärungskraft des KNN erhöht, indem die Gewichte durch iterative Testläufe mit Trainingsdaten so lange modifiziert werden, bis der Fehler zwischen vorhergesagten und vorliegenden Werten nicht weiter minimiert werden kann. Um jedoch möglichst allgemeingültige Lösungen zu erhalten, die sich nicht an irrelevante Besonderheiten des Trainingsdatensatzes orientieren, muss allerdings eine Überspezifizierung des Modells (overfitting) verhindert werden. Dies geschieht dadurch, dass die Lernphase durch einen zweiten (kleineren) Datensatz (Validierungsdaten) kontrolliert wird. Nach Ablauf der Lernphase liefert das KNN sodann zuverlässige Lösungen auf der Basis eines dritten Datensatzes, der Testdaten. Als Nachteil von KNN gilt deren relativ lang dauernde Trainingsphase sowie deren »Black-
HMD 270
box«-Charakter, da es nicht ohne Weiteres möglich ist, den Einfluss einzelner Variablen in der Lernphase des Modells zu erkennen. Ferner müssen sämtliche Daten auf bestimmte Intervalle (meist zwischen 0-1) normiert werden. Schließlich bedarf der Output einer relativ aufwendigen Interpretation. [Tsaur et al. 2002] nutzen ein KNN zur Analyse der Loyalität von Hotelgästen. Dazu werden in Anlehnung an frühere Studien 25 Zufriedenheits- und Wichtigkeitsvariablen über Serviceaspekte des Hotels aus einer Gästebefragung multiplikativ verknüpft und mittels Faktoranalyse zu 8 Faktoren verdichtet. Diese bilden 8 Inputneuronen mit 6 Knoten auf der Zwischenebene und einem Outputknoten (Absicht zum Wiederbesuch im Rahmen des nächsten Urlaubs – »ja/nein«). Im Vergleich zur logistischen Regression schneidet das KNN mit einem Determinationskoeffizienten von 91 % (R) und einer Zuordnungsgenauigkeit von 94 % wesentlich besser ab. Zuvorkommenheit, das Hotelzimmer, der Standort und die Reputation des Hotels gehen als wesentliche Bestimmungsfaktoren der Gästeloyalität hervor. [Bloom 2004] verwendet KNN zur Identifikation von Touristensegmenten (Clusterbil-
77
Data Mining im Tourismus dung) und zur anschließenden Zuordnung von Erstbesuchern auf diese Segmente (Klassifikation). Auf Basis von Erhebungsdaten bei Inlandstouristen (N=1.600) bilden 10 Variablen über Demografie, Reisecharakteristika, Qualitätswahrnehmung und Ausgabemuster die 10 Inputneuronen einer selbstorganisierenden Karte (self-organizing map). Letztere gehört zur Gruppe der künstlichen Kohonen-Netzwerke, einer speziellen Form von KNN [Larose 2005, S. 163]. Dieses »unbeaufsichtigte« Lernverfahren (unsupervised learning) entdeckt mögliche Muster, Regelmäßigkeiten und separierende Eigenschaften in einem Datensatz völlig selbstständig. Die Analysedaten lieferten im vorliegenden Fall eine 3-Cluster-Lösung auf einer 2-dimensionalen Karte mit 1600 (40x40) Datenpunkten (vgl. Abb. 3). In einem zweiten Schritt kommt erneut ein KNN zum Einsatz, um durch Generalisierung der gefundenen Muster die Clusterzugehörigkeit eines einzelnen Falles zu bestimmten. Entsprechend weist das KNN (bei zwei Zwischenschichten) eine Inputschicht mit zehn Inputneuronen (d.h. 10 Clustervariablen) und eine Outputschicht mit drei künstlichen Neuronen (d.h. Segment 1, 2 und 3) auf. Nach erfolgter Lernphase kann jeder neue Inlandsgast sofort einem Zielsegment zugeordnet werden. Die Zuordnungsgenauigkeit beträgt dabei 97,5 %. Die-
ses Ergebnis ist wesentlich genauer als ein mit logistischer Regression erzieltes Ergebnis [Bloom 2004].
4.2 Entscheidungsbaum- und Warenkorbanalyse im Tourismus Die Entscheidungsbaumanalyse wird zur Beschreibung, Klassifikation, Vorhersage und Mustererkennung eingesetzt [Hastie et al. 2009]. Sie teilt einen Datensatz auf der Basis einer Zielvariablen in immer kleinere Datensätze auf. Der Entscheidungsbaum startet am Wurzelknoten (root node) mit jener Variablen, die den Datensatz bestmöglich teilt. Je nach Verfahren entscheiden Tests, ob und welche Nachfolgeknoten (child nodes) den Entscheidungsbaum weiter aufbauen und damit den Datensatz weiter aufspalten. Die verbreitete an die Informationstheorie angelehnte C4.5- bzw. C5.0-Methode verwendet als Testmaß die Zunahme des in den Daten enthaltenen Informationsgehalts (bzw. die Reduktion der Entropie). Die Zuordnung eines Datensatzes zu einem bestimmten Ast wird mittels »Wenn-dann«-Regel visualisiert und erleichtert so die Interpretation des Ergebnisses. Die Warenkorbanalyse (market basket analysis) zeigt mithilfe von Assoziationsregeln (association rules) auf, welche Käufe einem vorausgehenden Produktkauf folgen. Dabei zeigt der
Abb. 3: Selbstorganisierende Karte mit 3 Reisesegmenten [Bloom 2004, S. 728]
78
HMD 270
Data Mining im Tourismus Parameter »Unterstützung« (support) die Häufigkeit einer bestimmten Artikelkombination in den untersuchten Transaktionsdaten. Dies entspricht der Wahrscheinlichkeit, dass zwei Artikel gleichzeitig gekauft werden [P(A∩B)]. Die »Konfidenz« (confidence) beschreibt die Stärke dieser Abhängigkeit, also die Wahrscheinlichkeit, dass Produkt B gekauft wird unter der Voraussetzung, dass Produkt A bereits gekauft wurde [P(B|A)]. Ein Wert von 50 % bedeutet beispielsweise, dass in jeder zweiten Transaktion, die A enthält, auch ein Produkt B vorkommt. Falls der Quotient aus P(A∩B)/P(A)P(B) den Wert 1 übersteigt, weisen die Produkte A und B einen positiven Zusammenhang (d.h. Assoziation) auf, gemeinsam gekauft zu werden. [Wong et al. 2006] verwenden eine C4.5Entscheidungsbaumanalyse zur Segmentierung wertvoller Reisebürokunden und eine Warenkorbanalyse zur Vorhersage von Verbundkäufen (d.h. die wahrscheinlich nächste Auslandsreise). Dadurch kann die Beratungseffektivität aufgrund optimierter Reisepakete und Kundeninformation deutlich erhöht werden. Zunächst werden mittels Fragebogen bei 1.056 Taiwanesischen Reisebürokunden Daten zu Demografie, Reiseentscheidung und besuchten Destinationen ermittelt. Wesentlich sind das Jahr der letzten Auslandsreise ([R]ecency), die durchschnittliche Reisehäufigkeit pro Jahr ([F]requency) und die Reiseausgaben pro Jahr ([M]onetary value). Falls der individuelle Wert den jeweiligen Durchschnitt übersteigt, erhält der Kunde den Wert 1 zugeordnet – ansonsten wird er auf 0 gesetzt. Dies führt zu 23 = 8 möglichen Ausdrücken (z.B. [0,0,0] für geringwertigste Kunden oder [1,1,1] für wertvollste Kunden) [Wong et al. 2006, S. 358 f.]. Insgesamt liegen 39 % hochwertige Kunden (definiert durch mindestens zwei Einsen bei F, R oder M) vor. Auf Basis dieser Variablen, die zwischen gering- oder hochwertigen Kunden unterscheidet, sowie der übrigen Erhebungsdaten liefert die Entscheidungsbaumanalyse 7 Verzweigungen, was auf 7 Segmente hindeutet. Letztere sind durch 21
HMD 270
»Blätter« definiert, etwa Segment 2: »Falls das Jahreseinkommen unter 0,5 Mio. Taiwan Dollars liegt, dann sind Reisebürokunden unter 30 Jahren und bereits nach China gereist, aber noch nicht nach Australien und legen großen Wert auf Empfehlungen des Reisebüros«. Außerdem ergab die Warenkorbanalyse zufriedenstellende Werte für Unterstützung (10 %-21 %), Konfidenz (30 %-70 %) und Assoziation (1,01-2,2) und liefert insgesamt 12 Assoziationsregeln für Verbundverkauf, z.B. »Wenn ein Reisebürokunde Europa bereist hat, wird er als Nächstes in die USA reisen«. Auf Basis dieser Erkenntnisse konnten optimierte Beratungsstrategien abgeleitet werden, etwa, falls der Kunde Europa bereist hat, dann soll die Beratung intensiviert und Informationen über Reisen in die USA oder nach Australien angeboten werden.
5
Ausblick
Im renommierten Magazin »Technology Review« wird Data Mining zu jenen zehn Technologien gezählt, die die Welt künftig maßgeblich verändern werden [Larose 2005, S. xi]. Die Gründe dieser Bedeutungszunahme erklären sich wie folgt: Anbieterseitig löste die Entwicklung der Rechnertechnologie dramatische Kostensenkungen für Datensammlung, -speicherung und des Datenflusses in operativen Systemen (z.B. Reservierungs- und Buchungssysteme, Property Management Systems) aus. Gleichzeitig führt die Vernetzung im Intra-/Extranet und im World Wide Web zu enorm ansteigenden Datenflüssen zwischen Betrieben und Kunden, aber auch innerhalb Anbieternetzwerken. Die Analyse dieser riesigen Datenmengen wurde durch Methoden des Maschinenlernens wesentlich erleichtert. Seit relativ kurzer Zeit lassen sich künstliche neuronale Netzwerke, Entscheidungsbaumverfahren, Assoziationsregeln etc. ohne größeren finanziellen und zeitlichen Aufwand mittels nutzerfreundlicher Applikationen umsetzen (z.B. SPSS Clementine, SAS Enterprise, RapidMiner). Als nachfrageseitiger Erklärungsfaktor ist der zugenommene
79
Data Mining im Tourismus Bedarf an Analyseergebnissen innerhalb kürzester Zeit zu nennen. Innerhalb von zunehmend flacheren Organisationshierarchien wird das Marketingmanagementteam immer häufiger mit Analyseaufgaben betraut. International agierende Tourismusorganisationen (z.B. Airlines, Onlineplattformen, Reiseintermediäre, SkiRessort-Management-Organisationen, Hotelketten) nehmen dabei eine Vorreiterrolle ein. Der Großteil der klein strukturierten Tourismusbetriebe (z.B. Privathotellerie, Gastronomie) hat jedoch aufgrund relativ kleiner Budgets für Marketing und IKT bei der Anwendung von Data Mining einen Aufholbedarf.
6
Literatur
[Bloom 2004] Bloom, J. Z.: Tourist market segmentation with linear and non-linear techniques. In: Tourism Management, 25. Jg., 2004, Heft 6, S. 723-733. [Hastie et al. 2009] Hastie, T.; Tibshirani, R.; Friedman, J.: The elements of statistical learning – Data mining, inference and prediction. 2. Aufl., Springer-Verlag, New York, 2009. [Jeng & Fesenmaier 1996] Jeng, J. M.; Fesenmaier, D.: A neural network approach to discrete choice modelling. In: Journal of Travel and Tourism Marketing. 5. Jg., 1996, Heft 2, S. 119-144. [Larose 2005] Larose, D. T.: Discovering knowledge in data – An introduction to data mining. John Wiley & Sons, New Jersey, 2005. [Law 1998] Law, R.: Room occupancy rate forecasting – A neural network approach. In: International Journal of Contemporary Hospitality Management, 10. Jg., 1998, Heft 6, S. 234-239. [Liu 2008] Liu, B.: Web data mining – Exploring hyperlinks, contents and usage data. 2. Aufl., Springer-Verlag, Heidelberg, New York, 2008. [Palmer et al. 2006] Palmer, A.; Montano, J. J.; Sesé, A.: Designing an artificial neural network for forecasting tourism time series. In: Tourism Management, 27. Jg., 2006, Heft 4, S. 781-790. [Schegg et al. 2005] Schegg, R.; Steiner, Th.; GherissiLabben, T.; Murphy, J.: Using Log-File analysis and website assessment to improve hospitality websites. In: Frew, A. (Hrsg.): Information and
80
Communication Technologies in Tourism 2005. Springer-Verlag, Wien, 2005, S. 566-576. [Tsaur et al. 2002] Tsaur, S.-H.; Chiu, Y.-C.; Huang, C.-H.: Determinants of guest loyalty to international hotel tourists – A neural network approach. In: Tourism Management, 23. Jg., 2002, Heft 3, S. 297-405. [Wolk & Wöber 2008] Wolk, A.; Wöber, K.: A comprehensive study of info needs of city travellers in Europe. In: Journal of Information Technology and Tourism, 10. Jg., 2008, Heft 2, S. 119-131. [Wong et al. 2006] Wong, J.-Y.; Chen, H.-J.; Chung, P.-H.; Kao, N.-C.: Identifying valuable travellers and their next foreign destination by the application of data mining techniques. In: Asia Pacific Journal of Tourism Research, 11. Jg., 2006, Heft 4, S. 355-373.
Univ.-Prof. Dr. Matthias Fuchs Mid-Sweden University European Tourism Research Institute (ETOUR) Kunskapens väg 1 831 25 Östersund, Schweden
[email protected] www.miun.se/ETOUR/Om-ETOUR Prof. Dr. Wolfram Höpken Hochschule Ravensburg-Weingarten Doggenriedstraße 88250 Weingarten
[email protected] www.hs-weingarten.de eTourism Competence Centre Austria (ECCA) Technikerstr. 21a A-6020 Innsbruck
[email protected] [email protected] www.ecca.at
HMD 270