Datenbank Spektrum (2012) 12:141–144 DOI 10.1007/s13222-012-0095-5
D AT E N B A N K G R U P P E N V O R G E S T E L LT
Die Datenbankforschungsgruppe der Technischen Universität Dresden stellt sich vor Wolfgang Lehner
Online publiziert: 2. Juni 2012 © Springer-Verlag 2012
Schlüsselwörter TU Dresden · Data-Warehouse-Systeme · Advanced Analytics · Open Data · Main-Memory-Datenbanksysteme
1 Einleitung Im Herbst 2012 feiert der Lehrstuhl Datenbanken an der Technischen Universität Dresden sein 10-jähriges Bestehen unter der Leitung von Wolfgang Lehner. In diesem Zeitraum wurde die inhaltliche Ausrichtung im Bereich der Datenbankunterstützung zur Auswertung großer Datenbestände weiter fokussiert sowie auf Systemebene deutlich ausgeweitet. Die Forschungsgruppe um Wolfgang Lehner ist dabei sowohl auf internationaler Ebene durch Publikationen und Kooperationen sichtbar als auch in Forschungsverbünden auf regionaler Ebene aktiv, um sowohl an der extrem jungen und agilen Software-Industrie in Dresden zu partizipieren und, soweit eine Forschungsgruppe dies zu leisten vermag, auch unterstützend zu wirken.
2 Wissenschaftliche Ausrichtung Der analytische Nutzwert gesammelter Datenbestände hat schon immer die wissenschaftliche Ausrichtung des Lehrstuhlinhabers und damit auch der in seiner Gruppe durchgeführten Forschungsaktivitäten bestimmt. Bereits Mitte der 90-iger Jahre wurden – noch unter dem Schlagwort der „Statistical and Scientific Databases“ und dann langsam unter W. Lehner () Technische Universität Dresden, Nöthnitzer Str. 46, 01187 Dresden, Germany e-mail:
[email protected]
dem Motto der „Data-Warehouse-Systeme“ – wissenschaftliche Fragestellungen diskutiert, die heute in ähnlicher Form unter dem Buzzword „Big Data“ subsumiert werden: Wie sehen Systeme aus, die es ermöglichen, möglichst robust, skalierbar und trotzdem effizient zu arbeiten ohne datenbanktechnische Errungenschaften wie strukturelle und operationale Konsistenz, deskriptive Anfrageformulierung mit logischer und physischer Optimierung etc. zu verlieren. Das zentrale Motto der Forschungsgruppe greift daher diese Fragestellung auf und adressiert das Thema aus unterschiedlichen Gesichtspunkten in drei Forschungsfeldern, die im Folgenden detaillierter skizziert werden. Abbildung 1 positioniert die Forschungsfelder und zeigt exemplarisch ausgewählte Projekte. Wesentliches Ziel der inhaltlichen Ausrichtung der Forschungsarbeiten ist dabei, sowohl einen Beitrag auf dem jeweiligen Kerngebiet zu leisten als auch Synergien zu angrenzenden Themenfeldern zu realisieren.
3 Daten-Management-Infrastrukturen Im Bereich „Infrastrukturen“ werden Forschungsaktivitäten zusammengefasst, die das Management großer, üblicherweise verteilter Informationssysteme betreffen. So fallen hierunter Arbeiten in Kontext klassischer Data-WarehouseSysteme von der Modellierung bis hin zu Fragen des Update-Scheduling. Abgeschlossen wurde in diesem Kontext mittlerweile die Mitarbeit am nationalen Leuchtturmprojekt „Theseus“ zur Förderung semantischer Technologien im Internet. Ziel der Mitarbeit im Teilprojekt TEXO was es, Datenströme als „first class citizen“ innerhalb einer Dienstlandschaft zu positionieren um insbesondere datenintensive Anwendungen, z. B. wissenschaftliche Prozesse, ebenfalls durch das Entwurfsprinzip einer dienstorientierten Architektur zu unterstützen.
142
Datenbank Spektrum (2012) 12:141–144
Abb. 1 Forschungsfelder der Datenbankgruppe an der TU Dresden
Zentral in diesem Bereich sind aktuell Arbeiten einer durch den Europäischen Sozialfond geförderten Nachwuchsforschergruppe zur Entwicklung von Konzepten und Werkzeugen zur situativen Bereitstellung, Integration und Analyse externer Datenquellen. Das Wesen der situativen Datenanalyse („Do-it-Yourself Analytics“) besteht grundsätzlich darin, dass die zu verwendenden Datenquellen a priori nicht bekannt sind und trotzdem zeitnah integriert werden müssen. Um diesen Prozess zu unterstützen, wurde das „DrillBeyond“-Konzept entwickelt, das die Stärken eines strukturierten DBMS sowie die Einfachheit keyword-basierter Information-Retrieval-Anfragen kombiniert. Anfragen, die nicht durch das gegebene Schema bzw. durch die vorhandenen Daten abgedeckt sind, werden semi-automatisch durch Daten aus dem Web angereichert. Konkret werden dabei als Anwendungsfall OpenData-Plattformen unterstützt, auf welchen öffentliche Einrichtungen demographische und statistische Informationen veröffentlichen, um so die Transparenz der Verwaltung zu erhöhen sowie die Teilhabe und Innovation seitens der Bürger zu stärken. Mit Blick auf den Bereich Systemarchitektur gibt es dahingehend Anknüpfungspunkte, da die Techniken direkt in den Kern, d.h. Zugriffssystem, Optimierer etc. eines Datenbanksystems, integriert werden. In den Bereich der „Math and Models“ gibt es eine Verzahnung zum Forschungsgebiet Datenimputation, um fehlende Datenbestände systematisch durch statistische Verfahren zu kompensieren. Ein weiteres Vorhaben in diesem Bereich adressiert die Entwicklung unter dem Slogan „Data comes first, schema comes second“, um Datenbanktechnik in agilen Anwen-
dungsumgebungen einzusetzen. Dabei wird zum einen untersucht, wie Schemaflexibilität quantifiziert werden kann, um der Anwendung einen Rahmen zu geben, der einerseits eine Aufweichung des klassischen und strikten Schemaverständnisses erlaubt und andererseits das Abdriften in den Bereich der völligen Beliebigkeit vermeidet. Auf der anderen Seite wird untersucht, welchen Auswirkungen die Unterstützung schemaflexibler Anwendungen auf Datenbanksysteme besitzt, zum Beispiel durch Änderung des RecordManagements. Neu startet ein von der DFG gefördertes Forschungsprojekt zum Thema „Private Tables for a Shared System“, in welchem die Zuordnung und Konfiguration anwendungsspezifischer Datenbanken in gehosteten Datenbankumgebungen untersucht wird. An der Nahtstelle wiederum zum Bereich Systemarchitektur werden Fragen diskutiert, wie beispielsweise Data-Mart-Installationen auf gemeinsam genutzten Datenbankinstallationen kosteneffizient umgesetzt werden können. 3.1 „Math and Models“ Der Bereich „Math and Models“ beschäftigt sich mit der Einbettung mathematisch/statistischer Verfahren in Datenbankumgebungen. Ziel hierbei ist es bestehende Algorithmen z. B. aus dem Bereich des Forecasting so weiter zu entwickeln, dass eine sowohl skalierbare (üblicherweise durch Parallelisierung) als auch hinsichtlich der Wartbarkeit (Berücksichtigung des Änderungsbetriebs in Datenbanken) effiziente Lösung entsteht. Großen Schub hat das Gebiet am Lehrstuhl durch ein DFG-Projekt erfahren, welches Sampling-Techniken im
Datenbank Spektrum (2012) 12:141–144
Kontext sich stetig verändernder Datenbestände untersucht hat. In diesem Projekt wurden vielfältige mathematische Methoden entwickelt und in die Welt der Systemarchitektur übertragen, die es erlauben, effizient Stichproben in Datenbanken zu definieren, im Rahmen einer Anfrageverarbeitung zu nutzen und schließlich im Fall einer Aktualisierung der Datenbasis zu warten. Motiviert durch diese Erfolge läuft aktuell ein ebenfalls durch die DFG gefördertes Projekt, welches sich dem Thema des Forecastings in DataWatehouse-Umgebungen widmet. Bedingt dadurch, dass in Data-Warehouse-Datenbanken periodisch neue Daten in bekannte „Koordinaten“ eines multidimensionalen Datenwürfels eingefügt werden, ergeben sich naturgemäß zeitreihenorientierte Aspekte, die es erlauben, geschätzte Werte ständig zu überwachen und statistische Modelle zu optimieren. Ähnlich zum SamplingProjekt ergeben sich auch in diesem Umfeld interessante Fragestellungen, die insbesondere Korrektheit und Effizienz des Ansatzes adressieren. Auch in diesem Projekt erfolgt eine direkte systemtechnische Realisierung der mathematischen Konzepte nativ im Datenbanksystemkern. Herausragend ist zudem, dass die im Rahmen des Grundlagenprojektes erarbeiteten Methoden direkten Einfluss in ein von der EU finanziertes Anwendungsprojekt im Kontext der „Smart Grids“ finden. Ziel des „Mirabel“-Projektes1 ist es, auf Basis von Micro-Requests ein „peak leveling“ des Stromverbrauchs zu erreichen. Die Idee besteht darin, dass sehr viele Geräte ihren Strombedarf im Rahmen einer gewissen Flexibilität regeln können. Als prominentes Beispiel dienen hier Elektroautos, die beispielsweise über Nacht bis zum nächsten Morgen geladen werden müssen; wann dies aber genau und mit welchen Unterbrechungen erfolgt, ist einem intelligenten Lade-Management jedoch freigestellt. Bis Ende des Jahres (Beginn des Projektes war vor der Katastrophe von Fukushima!) forscht das Konsortium bestehend aus europäischen Stromanbietern, Softwarefirmen und weiteren universitären Einrichtungen außerhalb Deutschlands an dieser Fragestellung. Als weiteres Beispiel im Forschungsbereich „Math & Models“ ist ein gemeinsames Forschungsprojekt mit der T-Systems (Telekom-Konzern) zu nennen. In diesem Projekt werden Algorithmen für Empfehlungssysteme betrachtet, die im Kontext der Datenanalyse eine stetig wachsende Relevanz erfahren. Ziel ist hierbei nicht primär die Optimierung existierender Algorithmen, sondern die systematische Bewertung der Ergebnisse der jeweiligen Ansätze. Hierzu wird ein umfangreicher, mathematisch fundierter Kriterienkatalog erstellt, der es erlaubt, subjektive Bewertungskriterien in die finale Empfehlung mit einzubeziehen. Als relativ junges Thema wurden Forschungsarbeiten im Kontext des „Data Imputation“ gestartet. Die grundlegen1 http://www.mirabel-project.eu.
143
de Idee besteht darin, fehlende Daten aus existierenden Datenbeständen systematisch „abzuleiten“ und bei Änderungen entsprechend anzupassen. Datenimputation erfolgt dabei sowohl in Richtung der Zeit (Anwendungsfall des Forecasting) als auch über die Zeit hinweg, d.h. im Vergleich zu „ähnlichen“ in der Datenbank vorgehaltenen Szenarien (Anwendungsfall des Recommendation). Die Herausforderung in diesem Bereich liegt in der Kombination der unterschiedlichen Techniken und dem automatischen Justieren des mehrdimensionalen Optimierungsfeldes. Aus Sicht der Datenbanksystemtechnik ist interessant, wie die notwendigen statistischen Operatoren effizient und insbesondere mit Blick auf massive Parallelität umgesetzt werden können. Das Forschungsprojekt wird von der GfK in Nürnberg unterstützt. Wiederum an der Nahtstelle zum Bereich Systemarchitektur sind Arbeiten im Kontext des Statistikpaketes R zu nennen. In Zusammenarbeit mit dem Unternehmen SAP wird an einer nativen Integration von R in das Datenbanksystem HANA gearbeitet, wobei neben der systemtechnischen Integration die Entwicklung eines Orchestrierungsframeworks auf Basis des HANA-internen Programmiermodells im Mittelpunkt steht. Zentrales Ziel hierbei ist, die Modellierung paralleler Abläufe als Voraussetzung einer effizienten Auswertung statistischer Methoden zu vereinfachen. 3.2 DB Systemarchitektur Der dritte Themenbereich subsumiert Forschungsfragen im Kontext der Architektur von Datenbanksystemen, wobei wiederum vielfältige Themen in der Gruppe bearbeitet werden. Im Kontext des seit Juli 2011 an der TU Dresden eingerichteten DFG-Sonderforschungsbereichs „HAEC – Highly Adaptive Energy Efficient Computing“ werden Datenstrukturen für „main-memory“-zentrische Datenbankarchitekturansätze untersucht. Ziel ist es, auf der einen Seite die Möglichkeiten moderner Hardware auszunutzen (z. B. viele Rechenkerne, neuartige Synchronisationsverfahren), aber auch auf der anderen Seite die damit einhergehenden Einschränkungen (z. B. nicht-uniformer Speicherzugriff, CachelineOptimierung) zu minimieren. Die Arbeiten basieren dabei auf dem DEXTER-Projekt, mit welchem Studenten des Lehrstuhls den ACM SIGMOD Programming Contest 2011 gewonnen hatten. Die Forschungsarbeiten im CPU-Bereich werden dabei durch die Firma Intel unterstützt. Im Projekt Darwin wird die klassische Anfrageausführung dahingehend erweitert, dass parallel mehrere unterschiedliche Pläne der gleichen Anfrage initial gestartet und dann schrittweise einzelne Pläne gestoppt werden, so dass nur der „beste Plan“ überlebt. Aktuell werden Spezialsituationen auf Basis von GPUs untersucht. Diese Arbeiten werden durch NVIDIA, initial durch ein NIVIDIA Professor Partnership Program, mittlerweile durch ein an der TU Dresden instantiiertes NVIDIA Center of Excellence unterstützt.
144
Zu guter Letzt ist ein Forschungsprojekt zu nennen, in welchem in Zusammenarbeit mit der SAP auf Basis des SAP HANA-Systems Techniken und Methoden entwickelt werden, die es erlauben, graphartige Datenstrukturen effizient auf Column-Store-Systemen abzubilden. Auf Ebene der Systemtechnik ist dabei von Interesse, wie allgemeine „Property-Graphen“ (z. B. als extreme Speichervariante für schemaflexible Anwendungen) unter Verwendung der Möglichkeiten, aber auch unter Berücksichtigung der Einschränkungen strukturell repräsentiert und dazu passende Operatoren als physische Repräsentationen einer Graphalgebra realisiert werden können.
4 Besonderheiten in der Lehre Die Vereinbarkeit von Forschung und Lehre war und ist ein wesentliches Leitbild, welches die Forschungsgruppe in unterschiedlichen Facetten zu leben versucht – mit viel Erfolg, aber auch verbunden mit manchen Rückschlägen bedingt durch administrative Hürden (Stichwort Modularisierung). Neben der klassischen Grundausbildung wird Lehrleistung sowohl im Export als auch in der Vertiefungsrichtung geleistet. Neben „normalen“ Spezialveranstaltungen, welche die oben skizzierten Forschungsfelder repräsentieren, sind zwei Besonderheiten in diesem Kontext zu erwähnen: So bietet der Lehrstuhl seit einigen Jahren in Zusammenarbeit mit der IBM Deutschland alternierend Datenbankprogrammierungs- und administrationskurse an, die während des Semesters systeminvariant unterschiedliche Facetten der Thematik behandeln. Am Ende des Semesters wird dann (nach Erreichung entsprechender Übungsleistungen) den Studenten die Teilnahme an IBM DB2Zertifizierungen ermöglicht, denen systemspezifische Repetitorien vorausgehen. Der direkte Umgang mit den Systemen und die Mischung von Theorie und Praxis hat sich als extrem attraktive Kombination etabliert. Die IBM unterstützt den Lehrstuhl hier seit vielen Jahren. Ebenfalls durch
Datenbank Spektrum (2012) 12:141–144
die IBM erfolgte eine Anerkennung einer neuen Spezialveranstaltung zum Thema „Data Management in Smart Grids“ durch die Verleihung eines Smarter Planet Faculty Innovation Awards im März 2012.
5 Aktivitäten in der Forschungsgemeinschaft Als dritte Säule der Aktivitäten engagiert sich die Gruppe um Wolfgang Lehner in einer Vielzahl von Tätigkeiten für die nationale und internationale Forschungsgemeinschaft. Wolfgang Lehner war viele Perioden (als Fachexperte bestelltes bzw. gewähltes) Mitglied der GI Fachgruppe Datenbanken, ist seit 1. April 2012 Fachkollegiat für das Fach 409-03 „Betriebs-, Kommunikations- und Informationssysteme“ in der Deutschen Forschungsgemeinschaft (DFG), war PC-Chair der VLDB 2011-Konferenz, ist PCChair für den Track „Cloud, Data Warehousing and Large Data“ der ICDE’13-Konferenz, Mitglied des Editorial Boards des VLDB Journal von 2005–2011, Editor von VLDBJ-Special Issues, normales Mitglied in diversen nationalen und internationalen Konferenzen usw.
6 Zusammenfassung Erscheint die Spannbreite der Forschungsthemen enorm, so zeigen sie doch jeweils nur spezifische Blickwinkel auf das große Leitthema der Unterstützung analytischer Szenarien durch statistische Methoden und datenbankspezifische Systemtechnik. Diese Thematik wird auch in den folgenden Jahren, ggf. mit wechselnder Fokussierung weiter vorangetrieben. Neben den Forschungs- und Lehraktivitäten werden vielfältige Aktivitäten für die Forschungsgemeinschaft durchgeführt. Auch wenn dies viel Energie und Zeit in Anspruch nimmt, so haben diese Aktivitäten auch in Zukunft einen festen Platz im Portfolio des Lehrstuhls. Weitere Informationen finden sich unter: http://wwwdb.inf.tu-dresden.de