686 MedR (2016) 34: 686–690
an die statistische Auswertung dar. Darauf bezogene Entscheidungen sind oft nur durch Verweis auf methodische Details zu begründen, die selbst für Experten nicht leicht nachvollziehbar sind. Dies gilt besonders für Ergebnisse, die mit lernenden CI-Algorithmen erzeugt werden. Damit büßt das Verfahren zur Ableitung klinischer Evidenz einer Therapieempfehlung oder auch nur Marktzulassung erheblich an Transparenz für Ärzte und Patienten ein. Vertrauen kann vielleicht durch penible Einhaltung akzeptierter methodischer Standards, Zertifizierung von Algorithmen/ Computerprogrammen und ggf. erlassener Regeln erreicht werden, die verständlich formuliert und öffentlich sein sollten. b) Qualitätskontrolle Für eine solche Entwicklung ist eine umfangreiche Qualitätskontrolle notwendig. Qualitätsmanagement und -kontrolle müssen sich angesichts der komplexeren Materie mit mehr Aspekten befassen und ihre Ergebnisse umfangreicher dokumentieren und kommunizieren, als das bei klassischen klinischen Studien notwendig ist. Wichtige Qualitätsaspekte beziehen sich auf die Organisation der Studie, ihre Kommunikationsstruktur, Patientenrechte, Datenschutz und Datensicherheit, Informationstechnologie, die Verfahren der Datenerhebung und -verarbeitung, die Auswertungsmethoden und die Veröffentlichung von Ergebnissen. Für die Qualitätskontrolle von Studien mit digitalen Massendaten fehlen zum großen Teil noch Standardverfahren. Spezifische Zertifizierungsprozesse können hier hilfreich sein, sind aber z. T. noch (weiter) zu entwickeln. c) Zeitbedarf und Kosten Eine qualitätsorientierte Durchführung klinischer Forschung unter den hier beschriebenen Anforderungen benötigt einen höheren Zeitbedarf und höhere Kosten als der klassische Ansatz. Patienten, die auf die Zulassung neuer Medikamente warten, haben oft wenig Verständnis für den Zeitbedarf bis zur Zulassung und die Hersteller von Medikamenten oder Medizinprodukten neigen dazu aus Kostengründen Qualitätsabstriche vorzunehmen. Eine Optimierung unter Einhaltung der Qualitätsanforderungen erfordert innovative Ansätze. d) Datenschutz Während die Einwilligung der Patienten in die Verwendung der in einer Studie erhobenen Daten für das Studienziel inzwischen als Voraussetzung für die Studienteilnahme Standard ist, wirft die Verwendung weiterer Daten oft da-
Timm, Digitalisierung und Big Data in der Medizin
tenschutzrechtliche Probleme auf. Hier wäre ein standardisiertes Verfahren hilfreich um ein Ausufern in Richtung einer beliebigen Nutzung solcher Daten durch zu weitgehende Einwilligung ebenso zu verhindern wie eine Blockade für die jeweilige Fragestellung wichtiger Datenwege. Eine weitere besondere Problematik ist die Möglichkeit der Auflösung der Pseudonymisierung, da aus umfangreichen Patientendatenprofilen zumindest im Prinzip auf einzelne Patienten zurück geschlossen werden kann. Hier sind besondere Vorkehrungen zu treffen, die diese Möglichkeit verhindern, zumindest erheblich erschweren. Die in klassischen Studien angewendeten Methoden 17 reichen dafür noch nicht aus. e) Datensicherheit Neben dem Datenschutz ist bei Studien mit digitalisierten Massendaten in besonderer Weise auf deren Sicherheit bei der Erhebung, Übertragung, Auswertung und Speicherung zu achten. Das bezieht sich nicht nur auf technische Fehler und Systemausfälle, sondern auch auf Cyberkriminalität der unterschiedlichsten Formen. VIII. Fazit Der Übergang zu einer evidenzbasierten Systemmedizin, die sich auf digitale Massendaten stützt, verspricht patientenorientiert besser angepasste Therapien, bedeutet aber auch höheren methodischen Aufwand. Werden hierbei Abstriche in Kauf genommen, kann es aufgrund zufälliger Ergebnisse leicht zu gravierenden Fehlschlüssen kommen, die zu falscher Therapie führen und damit weder medizinisch noch ethisch akzeptabel sind. Der Ansatz ist mit weiteren spezifischen Problemen behaftet. Beispiele für neue oder deutlicher hervortretende Problembereiche sind Transparenz von Ergebnissen, Datenschutz, Datensicherheit, Zeitbedarf und Kosten. Hier sind Lösungen zu erarbeiten bzw. weiter zu entwickeln. Qualitätssicherung, Zertifizierung, Standardisierung und Regulation solcher Studien als empirische Basis einer auf digitale Massendaten gestützten Systemmedizin sind noch erheblich auszubauen. Hier ist die interdisziplinäre wissenschaftliche Gemeinschaft ebenso gefragt wie die regulativen Instanzen und letztlich der Gesetzgeber. 17) Z. B. das Schwärzen, besser der Verzicht auf Namen oder Initialen, Geburtstage etc.
DOI: 10.1007/s00350-016-4374-2
Digitalisierung und Big Data in der Medizin Chancen und Risiken aus Sicht der Informatik*
Ingo J. Timm Die Digitalisierung zieht sich durch beinahe alle Lebensbereiche: sowohl der private Raum als auch die Arbeitswelt wird zunehmend von Informations- und Kommunikationstechnologien unterstützt. Dabei verschwinden Univ.-Prof. Dr.-Ing. Ingo J. Timm, Universität Trier, FB IV – Lehrstuhl für Wirtschaftsinformatik I, Behringstraße 21, 54286 Trier, Deutschland
die Grenzen der Wahrnehmung für diese Technologie: Computer und Netzwerke sind allgegenwärtig und werden von Nutzerinnen und Nutzern nicht mehr als solche wahrgenommen. Daneben wurden und werden die tech*) Schriftliche Fassung des auf der 5. Tagung der Medizinrechtslehrerinnen und Medizinrechtslehrer am 6./7. 5. 2016 in Bremen gehaltenen Vortrags.
Timm, Digitalisierung und Big Data in der Medizin
MedR (2016) 34: 686–690 687
nologischen Analysemöglichkeiten revolutionär weiterentwickelt, so dass heute große Potentiale von Big Data für die Medizin erschlossen werden können. Dabei gilt es aber die Risiken insbesondere für die Verletzung der informationellen Selbstbestimmung zu berücksichtigen. Innerhalb des Beitrags werden Chancen und Risiken d iskutiert. I. Ursprung der Informationsverarbeitung in der Medizin Die Geschichte der Informationsverarbeitung und die Geschichte der Medizin sind eng miteinander verknüpft. So wurden bereits in Ägypten 2.800 v. Chr. schriftliche Dokumentationen, die sogenannten medizinischen Papyri, genutzt, um chirurgisches Wissen auszutauschen und zu bewahren. 1900 v. Chr. wurden weitere Chirurgiebücher insbesondere zur Veterinär- und Gynäkologie-Medizin geschrieben. Weitere Meilensteine sind die Enzyklopadie „De Medizina“ von Celsus, 35 n. Chr., Avicennas „Canon Medicinae“ um 1000 n. Chr. oder von Bingens Abhandlungen über Pflanzen und Krankheiten. War in der Frühzeit die Datenspeicherung in Schriftform eine wichtige Errungenschaft für die Medizin, so hat sich in den letzten Jahrhunderten der technische Fortschritt als wichtiges Innovationsinstrument für die Medizin entwickelt. Insbesondere in dem letzten Jahrhundert wurden vielfältige Methoden zur Ableitung von Signalen des menschlichen Körpers entwickelt, die eine Analyse des Gesundheitszustands, also eine Diagnose oder Therapie unterstützen sollen. In diesem Kontext hat sich die Medizinische Informatik 1 aus den drei Teilbereichen Medizinische Kybernetik, Medizinische Datenverarbeitung und Medizinische Dokumentation abgeleitet. Die Sammlung und Dokumentation von Fällen, aber auch die Ableitung von neuen Erkenntnissen aus den Daten, bspw. über (Bio-)Statistik, ist eine vorrangige Aufgabe der Medizinischen Dokumentation und geht damit bereits auf die Anfänge im alten Ägypten zurück. Mit „Medizinischer Kybernetik“ werden solche Ansätze bezeichnet, in denen vom menschlichen Körper mit technischen Hilfsmitteln Biosignale abgeleitet werden und diese zur Nutzung durch medizinisches Personal umgewandelt, präsentiert, systematisch auf bereitet und interpretiert werden müssen. Hierzu gehören bspw. Elektroenzephalografie (EEG), Elektrokardiographie (EKG) oder Computertomographie (CT). Die Medizinische Datenverarbeitung bezeichnet alle mit elektronischen Rechenanlagen bzw. Computern verbundenen Tätigkeiten der Verarbeitung von Daten (Gewinnung, Speicherung, Übertragung, Umwandlung und Ausgabe) und ist somit auf den Beginn der elektronischen Datenverarbeitung im 20. Jahrhundert zurückzuführen. Dabei soll eine adäquate Informationsversorgung zur Steigerung der Qualität in der Patientenversorgung beitragen. Zusätzlich soll eine systematische Repräsentation ärztlichen Wissens erfolgen und so zu einer kontinuierlichen Verbesserung der medizinischen Versorgung im Allgemeinen führen. Daneben sind auch die Verwaltungs- und Abrechnungsprozesse zu unterstützen. Bereits in der ersten Hälfte des 20. Jahrhunderts hat sich die Vision entwickelt, dass Patienten durch technische Hilfsmittel umfangreich auch aus der Ferne überwacht werden können. So skizziert Kahn 2 einen Arbeitsplatz der Zukunft, in dem der Arzt die wesentlichen Informationen zum Patienten in Echtzeit einsehen kann 3 (s. Abb. 1). Diese Vision wird in den Intensivstationen moderner Krankenhäuser bereits seit über 20 Jahren realisiert. Die überwiegende Zahl der entwickelten Softwaresysteme in der Medizin läßt sich in Diagnose- und Therapiesysteme oder Krankenhausinformationssysteme unterteilen. Hierbei sollen die erste Gruppe von Systemen die Un-
Abb. 1 Die Vision des Dr. Futura, Bild aus: Kahn, Das Leben des Menschen, Bd. 2, 1927.
terstützung des Versorgungsprozesses selbst sowie dessen Qualitätssicherung, z. B. durch Laborsysteme, Monitore, Expertensysteme, und die zweite Gruppe von Systemen die Administration der Patienten, wie Abrechnung, Dokumentation und Prozessmanagement, übernehmen. Im Zuge der Informationssystemintegration, die in der Industrie in den 1990er Jahren begonnen hat und auch im Gesundheitswesen nachvollzogen wird, wachsen diese Systeme immer weiter zusammen. Durch die hohe Sensibilität der Daten werden diese Systeme überwiegend dezentral von den jeweiligen Leistungserbringern betrieben. Zwischen Systemen innerhalb eines Leistungserbringers, z. B. eines Krankenhauses oder eines niedergelassenen Arztes, werden die Systeme also zunehmend integriert, ohne dass dabei eine Integration über die Versorgungskette hinweg – also zwischen Leistungsträgern – erfolgt. Aus juristischer Sicht sind bei den bestehenden Systemen System- und Datenverantwortlichkeiten klar abgegrenzt und verstanden. Durch die dezentrale Struktur der Systeme ist i. A. auch gewährleistet, dass nur autorisierte Personen Zugriff auf die Daten haben. II. Vom Mainframe zur Digitalisierung Die Architektur von Informations- und Kommunikationssystemen bestimmt wie Daten bereitgestellt und verarbeitet werden. Deren erstes Paradigma war durch wenige Zentralrechner (Mainframes) geprägt, die in den 60er und 70er Jahren des 20. Jahrhunderts über entfernte Monitor- und Tastatureinheiten, sog. Terminals, bedient wurden. Der Wandel zu „einem Computer pro Arbeitsplatz“, dem sog. Personal Computer (PC), stellt dann das nächste Paradigma dar, welches auch durch die Substitution von stationären Computern durch Notebooks bestehen geblieben ist. Durch die Entwicklung von immer kleineren Computern und deren Integration in Mobiltelefone zeichnet sich seit Ende der 1990 Jahre ein neues Paradigma ab. Diese Ent1) Der Begriff „Medizinische Informatik“ bzw. „Informatique Medicale“ wurde erstmalig 1969 von Francois Grémy in Frankreich verwendet. 2) Kahn, Das Leben des Menschen, Bd. 2, Stuttgart 1927. 3) Vgl. Abbildung 1.
688 MedR (2016) 34: 686–690
wicklung wird in der Forschung auch oft als „wearable and mobile computing“ bezeichnet 4. Ein besonderer Aspekt hierbei ist, dass die Computer am Körper getragen werden können und die Interaktion mit Anwendungssystemen auch unabhängig von den typischen Medien Tastatur, Maus und Monitor möglich wird. Hier finden innovative Mensch-Maschine-Schnittstellen Anwendung, wie Bewegungs- und Beschleunigungssensoren, Vibration, Sprachein- und -ausgabe sowie dünne, transparente Prismen, die als Monitore am Kopf getragen oder beispielsweise in die Brille integriert werden können. Hierdurch können Arbeitsprozesse, z. B. Pflege oder Therapie, am Patienten technisch unterstützt werden, ohne dass die Nutzung der Technik als expliziter Arbeitsschritt in den Prozess integriert werden muss. Eine solch „unauffällige“ Unterstützung durch Technik wird auch als „pervasive“ oder „ubiquitous computing“ bezeichnet, da die Computer beinahe allgegenwärtig sind und dabei durch ihre Größe beinahe verschwinden. In den nächsten Jahren wird dieser Trend durch die zunehmende Entwicklung vielfältiger Sensoren und neuer Geräteklassen, wie Smartwatches, noch weiter zunehmen. Neben diesen technologischen Entwicklungen hat die Vernetzung der Computer durch das Internet, die Verbreitung von WLAN und neuen Mobilfunkstandards (UMTS, LTE) einen wesentlichen Beitrag zum Phänomen „Digitalisierung“ geleistet. Digitalisierung ist dabei kein spezifisches Konzept, sondern beschreibt den Wandel der Verfügbarkeit von Informationen und die Durchdringung unserer Alltagswelt durch Computer. III. Digitalisierung im Gesundheitswesen Derzeit nehmen Smartphones die Rolle eines persönlichen Assistenten ein. Häufig werden die persönlichen Kalender, Kontakte und die unterschiedlichen Kommunikationskanäle, wie Kurznachrichten (WhatsApp, iMessage, SMS o. ä.) über das Telefon organisiert. Daneben ist das Telefon durchgängig im Internet eingebucht, ermöglicht Navigation, speichert Bewegungsdaten und bietet den Zugriff auf ortsbezogene Informationen. Die Möglichkeiten sind durch die Erweiterbarkeit durch kleine Applikationen sehr vielfältig und können hier nicht umfassend aufgezählt werden. Dies ermöglicht die sog. Selbstvermessung bzw. das „quantified self “. Es werden bspw. Trainingseinheiten, Laufwege oder Gewichtsverläufe dokumentiert und mit dem sozialen Umfeld geteilt 5. Aus der Perspektive des Gesundheitssystems ist dies eine große Chance: die Patienten können durch solche Applikationen und Sensoren selbstständig Gesundheitsdaten erheben. Damit verändert sich das Gesundheitswesen von „heute“ signifikant: Einerseits werden Patienten durch die Selbstvermessung und ihre Nutzung des Internets sowie der sozialen Onlinemedien eine aktive Rolle im Diagnose- und Therapieprozess übernehmen. Zusätzlich kann durch die Digitalisierung kontextbezogen eine passgenaue Steuerung der Therapie unter Berücksichtigung der individuellen Präferenzen und Parameter erfolgen. Dies bietet eine vielversprechende Basis, um individualisierte Medizin zu implementieren. Andererseits wird die Digitalisierung zu einer im Aufwand deutlich reduzierten Datenerhebung zur Abrechnung, Dokumentation und Qualitätssicherung von Leistungen im Gesundheitswesen durch professionelle Dienstleister führen und deren Informationsaustausch untereinander massiv vereinfachen 6. IV. Big Data im Gesundheitswesen Waren Gesundheitsdaten früher nur in den Institutionen der Leistungserbringer selbst, in den Abrechnungsstellen oder in den Statistikämtern verfügbar, so stellt sich die Si-
Timm, Digitalisierung und Big Data in der Medizin
Abb. 2 Datenarten im Gesundheitswesen, aus: Swan, Big Data, vol. 1, no. 2, 2013, 85–99.
tuation in der modernen Gesellschaft anders dar: Bedingt durch die Digitalisierung der Gesellschaft werden Daten nun nicht nur zentral von zuvor genannten Institutionen bereitgestellt, sondern von den Patienten dezentral und z. T. indirekt erhoben. Swan 7 differenziert dabei drei Arten von Daten, die im Gesundheitswesen zu finden sind: „New Omics“, „Traditional“ und „Quantified Self “ 8. Die „New Omics“ umfassen dabei z. B. Daten über das Genom und mikrobiologische sowie metabolische Eigenschaften, die als Profile mit automatisierten Methoden erhoben werden. Ihnen stehen die in der Medizin traditionell erhobenen Daten, wie Demographie oder Laboruntersuchungen, gegenüber („Traditional“), denn weiterhin werden in Krankenhäusern, bei niedergelassenen Ärzten oder bei Krankenkassen die notwendigen administrativen und diagnostischen oder therapeutischen Daten verarbeitet. Zusätzlich erhebt der Patient selbst noch gesundheitsbezogene Daten („Quantified Self “), die von den jeweiligen Anbietern der Applikationen oder Anbietern des Betriebssystems gespeichert werden. Neben diesen primären Gesundheitsdaten werden noch weitere Daten im Rahmen der Diagnose und Therapie erzeugt: Vielfältige Komfortfunktionen moderner Softwaresysteme stehen zur Verfügung und können für effizientere Abläufe bei der alltäglichen Arbeit genutzt werden, bspw. Spracherkennung, Diktierfunktion, Textblockverwaltung, optimierte/individualisierte Rechtschreibkorrekturen, Büroanwendungen, Email- oder Messaging-Clients sowie Geobasierte Funktionen (Navigation, Lokalisierung). Dabei werden viele dieser Funktionen nicht lokal auf dem Gerät berechnet, sondern die entsprechenden Anwendungssysteme senden die „Rohdaten“, also gesprochenen Text, gescannte Bilder, Textfragmente, an Server des entsprechenden Unternehmens und diese übernehmen die teilweise hochkomplexen Berechnungen. Bei einem Diktat bspw. bei Apple (Siri), Google (Now) oder Microsoft (Cortana) werden so die gesprochenen Sätze als Audiodateien auf einem Server des entsprechenden Unternehmens analysiert
4) Boronowsky/Rügge/Werner, in: Oberquelle/Oppermann/Krause (Hrsg.), Mensch und Computer, 2001, S. 421–422. 5) Döring, in: Hurrelmann/Baumann (Hrsg.), Handbuch Gesundheitskommunikation, 1. Aufl. 2014, S. 286–305. 6) Lawo et al., Fif F Kommunikation, vol. 1, 2006, 38–41. 7) Swan, Big Data, vol. 1, no. 2, 2013, 85–99. 8) Vgl. Abbildung 2.
Timm, Digitalisierung und Big Data in der Medizin
und ausgewertet. Das Ergebnis dieser Analyse wird dann als Text zurückgegeben. Durch solche Funktionen entstehen also neben den primären Gesundheitsdaten Sekundärinformationen, die von kommerziellen Unternehmen verwaltet werden. Die Nutzung dieser zusätzlichen Applikationen ist nur schwer zu kontrollieren oder zu reglementieren. So entsteht ein diffuses Geflecht aus Daten und Datenbanken, die an unterschiedlichsten Stellen vorgehalten werden. Durch die zunehmende Vernetzung von Systemen und Datenbanken entstehen sehr große Datenbestände. Dabei zeigen große Datenbestände zunehmend die Grenzen der „klassischen“ Datenverarbeitung auf und erfordern durch ihre Eigenschaften neue Ansätze zur Handhabung und Auswertung der Daten, die unter dem Begriff „Big Data“ zusammengefasst werden 9. Dabei stehen die folgenden vier Eigenschaften im Vordergrund: Datenvolumen, Datenrate, Datenheterogenität und Datenqualität. Datenvolumen (volume): Es werden täglich neue Daten generiert und erfasst. So nimmt der Datenbestand in der Medizin allein durch bildgebende Verfahren täglich rasant zu. Daneben sind bspw. auch im Rahmen der Genomforschung sehr große Daten zu verarbeiten. Datenrate (velocity): Daten werden nicht mehr punktuell, bspw. in der jährlichen Statistik, sondern beinahe kontinuierlich erhoben. Nutzer sammeln Bewegungs- und Fitnessdaten zu jeder Zeit, bei denen die entsprechenden Sensoren mitgeführt werden. Auch Biosensoren, wie Pulsmessung einer Smartwatch, können jederzeit erhoben werden und somit werden Verläufe und Abweichungen in Verläufen analysierbar. Idealerweise könnten so eine (Tele-)Befundung in „Echtzeit“ und darauf basierend eine situationsbezogene Therapie ermöglicht werden. Datenheterogenität (variety): Der Ursprung der Daten wird immer vielfältiger. Wurden Daten zunächst aus den Patientenakten erhoben so können nun bspw. mobile Applikationen, vernetzte Sensoren, internationale Datenbanken einer Analyse zugeführt werden. Die Vision hierbei ist, dass alle (global) zur Verfügung stehenden Daten in einer Auswertung berücksichtigt werden können. Heterogenität wird hierbei durch Unterschiede in den zeitlichen oder räumlichen Auflösungen, in der gewählten Aggregation, wie Kreis, Land oder Bund, sowie durch variierende Terminologien oder zu Grunde liegende Einheiten bedingt. Für eine belastbare Analyse müssen diese Heterogenitäten explizit berücksichtigt und im Rahmen der Auswertung angeglichen werden. Datenqualität (veracity): Die Datenqualität ist von besonderer Bedeutung für die Nutzung derselben. Wird bei einem Einkauf im Internet auf Grund schlechter Datenqualität eine falsche Empfehlung gegeben, so ist dies wahrscheinlich „nur ärgerlich“. Bei der Anwendung von Big Data in Versorgungsprozessen kann dies zu kritisch falschen Entscheidungen führen, die ggf. Auswirkungen auf Gesundheit und Überleben haben können. Das Potential von Big Data wird dennoch insbesondere in der Verbesserung der Versorgungsqualität gesehen. Durch die Verknüpfung vielfältiger Datenquellen soll eine höhere Abdeckung der Fälle, eine lückenlose Analyse und eine optimierte Bereinigung von Datenbeständen realisiert werden. Die Daten werden direkt digital erfasst und müssen nicht aufwändig zu einem späteren Zeitpunkt umgewandelt werden. Nach Buhl et al. 10 zählen zur Datenqualität insbesondere Zeitkonsistenz über die verschiedenen Datenquellen hinweg, Inhaltskonsistenz, wie Einheiten (g/kg), in denen die Daten gespeichert werden, und Bedeutungskonsistenz (gleiche Begrifflichkeiten) sowie die eindeutige Identifizierung, bspw. der einzelnen Patienten. Die Herausforderung zu Big Data in der informatikwissenschaftlichen Forschung besteht nun darin, aus einem extrem großen, schnell wachsenden, heterogenen Datenbestand von fraglicher Qualität, in einer konkreten
MedR (2016) 34: 686–690 689
Situation genau die richtige Entscheidungsunterstützung bereit zu stellen. In der Big Data-Forschung werden Methoden hierzu als Big Data-Analytics bezeichnet. Diese stehen im Schnittfeld zwischen der Echtzeitanalyse von Datenbanken 11 und den Methoden der Künstlichen Intelligenz (KI) zur Akquise neuen Wissens, insbesondere dem Data Mining bzw. Knowledge Discovery in Databases 12 . V. Revolution in der Künstlichen Intelligenz Bisher galt in der Analyse großer Datenbestände, dass das Missbrauchsrisiko begrenzt ist, da eine systematische und umfassende Analyse extrem großer Datenbestände technologisch nicht oder nur sehr eingeschränkt leistbar sei. Dies ist insbesondere darin begründet, dass viele Methoden den gesamten Datenbestand im flüchtigen Hauptspeicher (RAM) des Computers vorhalten mussten oder die Algorithmen nicht mit der Größe des Datenbestandes Schritt halten könnten. So wurden bisher als Ansätze für den Schutz der informationellen Selbstbestimmung die vier Verfahren Verschlüsselung, Pseudonymisierung, Anonymisierung und Aggregation von Daten angewendet. In den letzten fünf Jahren hat es jedoch massive, revolutionäre Entwicklungen in dem Fachgebiet der KI gegeben. Dies hat im Frühjahr dieses Jahres z. B. dazu geführt, dass ein Computer einen Großmeister in dem Spiel „Go“ geschlagen hat. „Go“ gilt als ein besonders komplexes Spiel, welches eine hohe Intelligenzleistung, Erfahrung und Intuition des Spielers erfordert. In der KI wird „Go“ als besonders geeignetes Spiel angesehen, um die Güte der „künstlichen Intelligenz“ von Computersystemen zu testen. Dabei gingen Experten der KIForschung bis zum letzten Jahr davon aus, dass es noch viele Jahrzehnte dauern würde, bis ein Großmeister im „Go“ zu schlagen sei. Das interessante an dem erfolgreichen „Go“-Computerprogramm ist, dass es im Kern auf einer Technologie des Maschinellen Lernens, den Künstlichen Neuronalen Netzen, basiert, welche in den 1990er Jahren für das „Go“Spielen untersucht und als nicht erfolgsversprechend verworfen wurde: Einerseits hat es an sog. Trainingsdaten für das Maschinelle Lernen gemangelt und andererseits war eine Berechnung der Künstlichen Neuronalen Netze auf den Hauptprozessoren von Computern vergleichsweise langsam. Bei der Entwicklung von sehr leistungsfähigen Graphikkarten für die Berechnung von aufwändigen 3DGraphiken in dem letzten Jahrzehnt wurde auf massiv verteilte Berechnungseinheiten zurückgegriffen. Vereinfacht ausgedrückt, stellt schon eine einzelne High-End-Graphikkarte ein Hochleistungsrechenzentrum (Cluster) dar. Damit wird einerseits Hochleistungsrechnen „bezahlbar“ und andererseits hat dieses zusammen mit einer Innovation im Bereich der Künstlichen Neuronalen Netzen (Deep Learning) zu einer Revolution in der KI geführt. Die für 9) Buhl/Röglinger/Moser/Heidemann, Wirtschaftsinformatik, 55 (2), 2013, 63–68. 10) Buhl/Röglinger/Moser/Heidemann, Wirtschaftsinformatik, 55 (2), 2013, 63–68. 11) Online Analytical Processing (OLAP) ist eine Methode, die auf der Basis von operationalen Datenbeständen oder einem Data Warehouse komplexe Verknüpfungen und Datenanalysen berechnet. 12) Data Mining und das Knowledge Discovery in Databases sind Forschungsgebiete in der KI, welche mit statistischen, logischen und bioanalogen Lernverfahren, also Verfahren des sog. Maschinellen Lernens, Zusammenhänge und Muster in Datenbeständen aufdecken sollen. Im Gegensatz zu OLAP wird hier eher von einer punktuellen und nicht einer kontinuierlichen Anwendung des Verfahrens ausgegangen.
690 MedR (2016) 34: 686–690
ein vielversprechendes Maschinelles Lernen zusätzlich erforderlichen sehr großen Datenbestände werden nun durch Big Data zur Verfügung gestellt. In der Kombination von algorithmischer Innovation und verfügbaren Daten ergeben sich somit neue Möglichkeiten der inhaltsbezogenen Analyse großer Datenbestände, so dass nun davon auszugehen ist, dass umfangreiche Analysen im Big Data-Bereich möglich sind. VI. Implikationen Durch diese und vergleichbare technologische Entwicklungen sind bereits heute sehr große Datenbestände beherrschbar – entgegen der ursprünglichen Einschätzung. Diese Möglichkeiten nutzen Ansätze der Big Data-Analytics im Gesundheitswesen 13 wie Genomanalyse, Data Mining in elektronischen Patientenakten, Monitoring von Gesundheitsinformationen in sozialen Onlinemedien, Textanalyse und formale Ontologien, Analyse von Patientennetzwerken sowie Suche nach unerwünschten Wirkungen von Therapien. Dies erschließt ein großes Potential in der Nutzung von Big Data im Gesundheitswesen 14. So könnten Krankheiten in früheren Stadien erkannt und behandelt werden. Ein individuelles Gesundheitsmanagement wird durch Integration der verfügbaren Daten sowie deren intelligente Auswertung möglich. Gesundheitsgefahren auf individueller oder kollektiver Ebene könnten rechtzeitig erkannt und bekämpft werden. Ein Beispiel ist hier die Google-Trendanalyse von 2008, die eine Grippewelle anhand der abgesetzten Suchanfragen im Internet früher erkennen konnte, als dies epidemiologisch möglich war 15. Diesen Potentialen stehen Risiken gegenüber, die sich bezogen auf systemische Risiken in Netzwerken für die Informatik im Allgemeinen stellen 16. Spezielle Risiken von Big Data ergeben sich aus einer Überschätzung der Leistungsmöglichkeiten 17. So wird häufig eine Objektivität der Daten unterstellt, die nicht zwingend gegeben ist. Sowohl die Erfassung (Preisgabe von Daten) als auch die weitere Speicherung, Verarbeitung und Auswertung von Daten folgt individuellen oder institutionellen Interessen. Mit dem reinen Umfang der Daten steigt nicht zwingend die Qualität einer Analyse oder Interpretation. Insbesondere stellt das automatische „Entdecken“ von zufälligen Mustern (Korrelationen zwischen Daten) eine große Herausforderung dar, da bei einer automatischen Analyse sehr großer Daten nicht in gleichem Maße menschliche Expertise zur Differenzierung von Kausalität und Korrelation zur Verfügung stehen kann. Analysen von Big Data neigen dazu, Daten unabhängig vom Erhebungskontext zu bewerten. In vielen Fällen ist jedoch der Kontext von entscheidender Bedeutung. Darüber hinaus ist es ethisch fragwürdig, ob einerseits Daten analysiert werden dürfen „nur weil sie verfügbar“ sind. Andererseits kann eine Nicht-Verfügbarkeit von Daten zu einer sozialen Disparität führen. Für das Gesundheitswesen ergeben sich besonders sensible Risiken für die informationelle Selbstbestimmung des Menschen. Als üblicher Schutzmechanismus wird in Behörden und Ämtern auf eine Aggregation von Daten zurückgegriffen. Die massive Integration von Datenquellen sowie deren effiziente Verarbeitung mit modernen Algorithmen und Computern kann dabei zu einer Disaggregation der Daten führen. Im Extremfall können dadurch eigentlich anonymisierten Daten wieder reale Personen (Patienten) zugeordnet werden. Dabei ist zu berücksichtigen, dass viele der eingesetzten Dienste und Systeme, insbes. Applikationen zur Selbstvermessung auf Smartphones, Tablets oder Computern, für den Nutzer „scheinbar“ kostenlos angeboten werden. Mit
Timm, Digitalisierung und Big Data in der Medizin
der Nutzung entsteht eine Einwilligung in eine über den eigentlichen Zweck der Applikation hinausgehende Nutzung der Daten, welche einen wichtigen Wert für das entsprechende Unternehmen und somit ein wichtiges Handelsgut darstellt. Es ist für den Menschen bei der Vielzahl von Diensten bereits heute nur schwer möglich, den Überblick zu behalten, wo welche Daten von ihm gespeichert werden. Dies wird zusätzlich erschwert durch die komplexen Verflechtungen und die häufigen Wechsel in Unternehmenskonstellationen in der vernetzten Welt (Holdings und Tochtergesellschaften der großen Internetunternehmen). Zusätzlich fallen noch unterschiedliche Rechtsräume und entsprechende Datennutzungsrechte ins Gewicht. Für eine bewusste Entscheidung über die Preisgabe von Daten wäre zusätzlich aber noch das Wissen über die dem Unternehmen bereits jetzt zur Verfügung stehenden Daten über die eigene Person aus öffentlichen oder unternehmensinternen Quellen erforderlich. Ein Beispiel für diese Entwicklung ist die Nutzung des Internetkalenders. Wird auf einem Smartphone ein solcher Kalender genutzt, so wird dieser regelmäßig mit dem Server synchronisiert, wobei die IP-Adresse des Telefons mit dem Nutzerkonto verbunden wird. Jegliche weitere Interaktion über dieses Telefon mit dem entsprechenden Server, bspw. für Internetsuchanfragen oder Navigation, kann automatisch auch diesem Nutzer zugeordnet werden – unabhängig von den Datenschutzeinstellungen der jeweiligen Applikationen. So entsteht ein individualisierter Datenbestand bei dem entsprechenden Anbieter. VII. Fazit Die technologischen Entwicklungen des letzten Jahrzehnts haben zu einem revolutionärem Wandel geführt. Ärztliche Therapieentscheidungen werden wesentlich durch die Ergebnisse von Mess- und Diagnoseverfahren sowie die Integration von Daten bestimmt. „Intelligente“ Unterstützung der Diagnose und damit höhere Qualität in der Beurteilung steigert die Qualität der Therapie. Im Big Data-Zeitalter werden nach Möglichkeit alle verfügbaren Daten genutzt; dieses führt zu einer retrospektiven Auswertung der Daten anstatt einer prospektiven Selektion der zu nutzenden Daten. Durch die globale Vernetzung entstehen hierbei rechtliche „Grauzonen“ bzw. Herausforderungen: International heterogene Rechtsräume, Urheber- und Nutzungsrechte der Daten und Informationelle Selbstbestimmung, Datensicherheit und Persönlichkeitsschutz. Big Data und Digitalisierung gefährden damit die Privatsphäre des Einzelnen. Eine besondere Rolle spielt dabei aber das Verhalten der Nutzer und nicht in erster Linie die illegale Nutzung von Daten durch Unternehmen. Es muss ein neues Verständnis für Privatheit, Daten- und Persönlichkeitsschutz entwickelt werden, das der technischen Entwicklung Rechnung trägt und auch in transnationalen Zusammenhängen einen angemessenen Mindestschutz für die Menschen sicherstellt. 13) Chen/Chiang/Storey, MIS Quarterly, vol. 36, no. 4, 2012, 1165– 1188. 14) Raphupathi/Raphupathi, Health Information Science and Systems 2014, 2 : 3. 15) www.google.org/flutrends/about/, Zugriff am 1. 7. 2016. 16) Vgl. Grand Challenge „Systemische Risiken in weltweiten, ITunterstützen Netzen beherrschen“ der Gesellschaft für Informatik, www.gi.de/themen/grand-challenges/systemische-risiken. html, Zugriff am 1. 7. 2016. 17) Boyd/Crawford, Information, Communication & Society, 15 : 5, 2012, 662–679.