FORUM
{ FORUM / GI-DAGSTUHL SEMINAR 16353
{
466 GI-Dagstuhl Seminar 16353 on Aware Machine to Machine Communication 471 Gewissensbits – wie würden Sie urteilen? 473 Datentrickserei in der Wissenschaft 479 Der Arbeitsmarkt für IT-Fachleute in Deutschland 488 Big Data und Wettbewerbsrecht 489 IT-Security live 2017 – Diskussion aktueller Herausforderungen für das IT-Sicherheitsmanagement 491 Zum Titelbild DOI 10.1007/s00287-017-1065-y
466
Informatik_Spektrum_40_5_2017
GI-Dagstuhl Seminar 16353 on Aware Machine to Machine Communication Stephan Sigg, Mayutan Arumaithurai, Xiaoyan Wang
Abstract This article summarizes a five day GI-Dagstuhl Seminar on “Aware machine-to-machine communication” held from August 28th to September 2nd 2016. The seminar was a follow up of a DFG-JSPS seminar held in October 2015, in Karuizawa, Japan. The Karuizawa meeting focused on information-sharing in IoT, Crowd sensing and crowd steering, in-network data reduction, and Selforganizing data-collection networks. This second seminar targeted the aspects “Security”, “Services”, and “Context” in Machine-to-Machine communication. It brought together people who are actively involved in the ICN community and also researchers with background on (usable) security, and smart environments. The entire set of presentations delivered during the seminar is made publicly available at http://materials. dagstuhl.de/index.php?semnr=16353.
Challenges for aware M2M Current trends show that machine-tomachine (M2M) interactions such as Internet of Things (IoT), wearables, vehicular networks and smart homes will play a major role in the Internet. In fact, it is expected that M2M interactions will constitute more than a third of the total connections1 . These networks are rapidly growing in complexity and continuing to extend into the personal and private domain. Fuelled by the numerous 1 http://www.cisco.com/c/en/us/solutions/collateral/
service-provider/ip-ngn-ip-next-generation-network/ white_paper_c11-481360.html
sensors interconnected, massive amounts of data need to be managed and routed efficiently. At the same time, networking technology is shifting towards virtualization, with Software Defined Networking (SDN) and Network Function Virtualization (NFV) likely to change the infrastructure landscape. The cloud concept is transforming the Internet to a network of data centers, with a communication model consisting of computer-tocloud-to-computer interactions. Big-Data/Analytics based decision making is also expected to play a major role. Networking paradigms are witnessing a shift from the traditional end-to-end connections and location oriented networking to content/information oriented architectures. Information Centric Networking (ICN), a popular future internet architecture that provides features such as the ability to handle content by its name, to secure individual pieces of data and support ubiquitous caching that allows data to be obtained from the closest source. The potential benefits of combining this massive environmental perception based on M2M with the control power available in upcoming network paradigms is huge, as is the number of research issues opened. ICN and SDN have been primarily designed for fixed networks. While these technologies have the potential to cater to the needs of M2M based applications, a lot of unresolved issues remain.
Context-based support for M2M The consideration of environmental stimuli for a flexible adaptation of networking and routing strategy can
further advance current M2M communication protocols. For instance, (1) Emergency situations might demand other routing schemes and priorities than normal operation; (2) DTN obtains a new dimension when the dissemination strategy can be changed according to, for instance, flow behaviours, movement speed or transportation mode; (3) Local networks could automatically be formed and secured against intruders in meeting situations or conditioned on social relation or friendship. In M2M, where content covers also environmental situation and personal behaviour patterns, context-based services are capable of guiding towards not only content, but situation or groups of people with equal mindset, behaviour patterns or sentiment. Likewise, the locationindependency of CCN-based routing holds significant potential of simplification for situation-dependent services: Instead of hard-coding individual sensor sources for input, always the nearest sensor reading of one particular type of source could be adaptively chosen.
Security and privacy for M2M Security and access control are key concerns for M2M and traditional end-to-end security approaches might not be sufficient to handle the plethora of use-cases envisioned for M2M. ICN, with its focus on securing individual pieces of content complimented with group encryption approaches such as ABE could be a potential solution for M2M security. SDN holds the promise of increased security when, for instance, security presets are conditioned on shared situation or also on friendship relationships. Friendship and social contact can then control security settings of each individual connection when all communication partners
and their situation/context can be clearly identified or could associate themselves to ABE and use it for group encryption.
Services for M2M The massive amount of data available in such networks also demands for novel, efficient routing, storage and data reduction schemes. Moreover, Big-Data/Analysis based mapping and other decision making services might facilitate efficient M2M interactions. Publish/Subscribe services might also be required to ensure that the M2M devices need not keep track of all the interested subscribers or those might publish data that is of interest to them. Also, introducing cloud-based solutions promises high potential but also challenges regarding reliability, cost and security issues. Use of ICN, SDN and NFV to facilitate these services needs further research and joint activities. Within the GI-Dagstuhl seminar, the participants identified most relevant, partly overarching aspects to these three main directions. We decided to have thematic talks (most participants contributed with lightning talks) mainly in the morning and group work and discussions during the afternoon and evening. All presentation are available online2 .
Selected perspectives on aware M2M To motivate the three main themes of the seminar, we invited thematic presentations from field experts to trigger discussions. The three invited talks are briefly summarized below
Context-based support for M2M (Christian Becker) After more than two decades of research on the topic, a matured un2 http://materials.dagstuhl.de/index.php?semnr=16353
derstanding of context modeling, organisation and specific aspects (e. g. data quality) has been developed. Context-computing has been part of major venues such as UbiComp, PerCom, CoMoRea or CONTEXT. Still, the field is swiftly evolving and a number of exciting unsolved research issues exist. Among these are proactivity, deep learning, activity recognition, interoperation between context providers, discovery of context and context providers. In particular, with respect to the research expertise of a group of participants, the question of addressing entities providing context is also of great interest. Are we on the verge from IP to NDN to context-based communication?
Security and privacy for M2M – Block chains (Pekka Nikander) Block chain is largely a hype term, made popular by the publicity on BitCoin. In essence, it denotes technologies that allow creation of open, decentralized, undeniable, consistent event logs, which are also called distributed open ledgers. BitCoin raised the public awareness of the importance of well designed cryptographic protocols but has also created a creative frenzy and a set of unreasonable expectations. The talk introduced basic technical ideas and design choices including identity management, consistency and consensus semantics, and incentives. In addition, it considered the applicability of block chains to Internet of Things (IoT) applications. The ensuing discussion largely centered around what is the relationship between block chains and the “real world” and what that “real world” actually is in this context. A second discussion topic was whether we can use block chains for Informatik_Spektrum_40_5_2017
467
{ FORUM / GI-DAGSTUHL SEMINAR 16353
distributed IoT, without needing to store the whole block chain history in the individual nodes. If the stakeholders of the system are fine with trusting what is already committed into the open-ledger, i. e. what everyone can see in the transactions, then, depending on the design of the information store, this is indeed possible and one can proceed without needing to store or verify the whole transaction chain.
Services for M2M – DEMIS (Olga Streibel) DEMIS, the German electronic reporting system for infectious diseases control, aims at creating a reliable platform that provides services for epidemiological experts and decision makers in order to support their daily work. The goal is to offer a secure, reliable and fast responding system that can handle the respective data and information in an intelligent way. One of main challenges in DEMIS is the technical conception and implementation of the functionalities required under the constraints given by law and by the stakeholders. Focusing on one of the main components of DEMIS, the terminology service, the talk tackled the problem of data and information modeling and especially the problem of (data) privacy. Creating systems that handle the public health, data privacy and security is of eminent importance. Using IoT data streams, for instance, might enhance our ability to offer sophisticated analysis and reliable results, however there is a need to find proper solutions for data privacy. Even when a strict regulation about using sensible data is given, including this information into applications should still be possible, which might require the definition of various aspects of privacy in different context. Moreover, it is important also how information is presented to
468
Informatik_Spektrum_40_5_2017
the respective decision makers and how much of the information can be gathered automatically. We should try to get away from systems that require manual input. Adaptive and self-thinking systems that reliably support physicians and experts in the public health are required.
Results and challenges for aware M2M We identified relevant topics and worked on these in topical breakout groups. The results are summarized below under the three main themes of the seminar.
Context-based support To characterize M2M communication, we first identified the following indicator: At least one endpoint should have a relationship to a physical object. We agreed that a scenario in which both endpoints are not a physical entity is not covered by M2M. Typical scenarios are in the IoT, sensor/actuator networks or cyber physical systems3 In addition, the most important implication that arises from M2M communication is interoperability. Participants further agreed that machine-interpreted data (as opposed to human-interpreted), may require stricter semantics attached to the data and will need a different decision process. Decisions may need to be framed into policies so they can be taken without human involvement. However, these policies may become less strict with the advance of artificial intelligence. The data in M2M is often in the form of time series from which some might be latency sensitive and some might require time-synchronisation. 3 A CPS does not need to be (intra/inter-)networked – but it often is. The term Internet of Things (IoT) might be used to imply that communication is across multiple autonomous systems, i. e., inter-domain
The participants stressed the necessity of common data structures and interchangeable sensor interfaces so that “things can be plugged together in flexible ways”. Indeed, standardized sensor data formats (a la OGC SensorML, IETF SenML, . . . ) exist. It is desirable to exploit common aspects with these in advance of defining a novel description. Challenges are that the type in which data is in has implications on communication and encoding of the data. For several reasons it might be desired to preprocess and reduce the data forwarded or shared from a sensor. Important aspects are energy (computation is usually cheaper than communication) and privacy (revealing less information). Pivacy is addressed by several recent projects 4 , 5 , 6 . To this end, noise, as an inherent property of sensor data from M2M sensors might also be exploited intentionally in order to protect individual privacy. One problem with such approaches is that it is potentially always possible to deanonymize given sufficient data and time. Incentives for vendors to comply to these requirements might be imposed by regulation but also opportunity to participate in a particular market may be one.
Services As an example service, we organized a tutorial on RIOT using the shell and implementing simple commands. The participants wrote a basic UDP server-client application to exchange small text messages between the local nodes and inside the IoT-LAB testbed. Slides are available online. In addition, we discussed the abstraction in ICN and what belongs to the application layer. Two relevant M2M 4
http://www.databoxproject.uk/?page_id=31 http://hubofallthings.com/ 6 Remove privacy-invading camera images from lifeloggers: http://private.soic.indiana.edu/projects/cameras/ 5
application scenarios have been discussed: Vehicular networks (sensors and cloud) as well as Industrial safety. Aspects considered were, how useful ICN is for other application scenarios, especially service oriented platforms and how we can demonstrate that ICN is useful for “non large scale content oriented” networks. It has been mentioned, that active networks, and pub/sub were there, but largely unnoticed. However, with larger corporate networks, ICN paradigms could be implemented. The question that remains is how the applications would be built and what paradigms are required. RIOT is an open-source operating system for the Internet of things. It targets low-power, memory constrained devices connected over lossy networks. It is based on a microkernel architecture with an energy-efficient and realtime capable tickless scheduler and a multithreading programming model. Two of RIOT’s design principles are modularity and interoperability through open standards such as POSIX or IETF protocols. RIOT is currently developed by a world-wide and very lively community of more than 100 contributors. Finally, we discussed the “Haystack” application by the Berkeley team that could be installed on smartphones and used to analyze if any application is violating privacy. In this context it is interesting if key revocation could be performed and what issues arise. Some scenarios where key revocation could be useful are: a) CDNs/Content providers who want to revoke access rights to those who unsubscribe; and b) in case of employees who leave the organization (e. g. police men).
On the application front, we agreed that it is important to start by designing application specific stacks such as network stacks. As we design more application specific stacks, we will be able to identify abstractions that could then help in designing a generic solution. Some application based ICN designs that were mentioned were [1, 3].
Security and Privacy Security and Privacy has been the overarching theme that was relevant in nearly all discussions. Different approaches to handle privacy have been controversely discussed. In particular, it is a valid question if an unrestricted access to all data by everyone (as opposed to only individual authorities) would actually resolve the privacy issue with shared data. For example, [5] claim that “information asymmetry is the very foundation on which the existence of elites is built”. A general introduction to the security issues faced in M2M environments is provided in [11]. The participants also stressed the usefulness of Fuzzy cryptography schemes [12] to enable the generation of shared secrets from noisy or only partly identical input. This approach can be used for pairing in M2M scenarios, conditioned on data sensed in the same context [8, 10]. Fuzzy cryptography also nicely matches with the actor model for authenticated authorization of M2M devices. The actor model provides strong authentication routines also for restricted devices by separating authentication from authorization. Another useful concept for M2M is attribute based encryption, originally coined as Fuzzy Identity based encryption [7], which enables that objects to be published are secured already at the sensor where they are produced and not along the gateway.
The approach stresses differences between key policy and ciphertextpolicy, dependent on whether the access policy is defined in the cyphertext or in the keys. For M2M purpose especially ciphertext-policy is relevant. It enables to encrypt once and allows access for an unlimited amount of recipients conditioned on e. g. membership to company. Another benefit in the ICN case is that one object looks the same in the cache and not different for different encrypted versions of the same object, which saves storage space. An issue with secret keys is that, once the key is stolen by an adversary, this will usually disclose all past and future data to the observary. This generates an incentive not to use secret keys that last for a very long time (forward secrecy). A suggestion is to change the key with any message exchange. In this case, an attacker can not follow up with the changes in keys since Man in the Middle attacks are not possible. However, problems to decrypt messages can arise when ordering of messages is confused as it is frequent in current communication protocols (e. g. TPC). A solution to this problem is the use of Hash-Ratchets. This is a deterministic one-way function to derive the next key. In addition to using a function to deterministically derive the next key, the protocol starts over with a new session key for each new session. This concept still provides forward secrecy, but once stolen, backward secrecy is not guaranteed. With the use of double ratchets, also backward secrecy can be established. Other relevant topics raised by the participants are the Correlation of data streams, especially in the context of location tracking and using of stable identifiers in communications. Any design where only the identifiers in a data stream are anonymous, Informatik_Spektrum_40_5_2017
469
{ FORUM / GI-DAGSTUHL SEMINAR 16353
while other data is presented openly, is likely to reveal quite a lot about the identifier holders (see e. g. [2]). The discussion further converged to the concept of property rights, which are largely-absent for personal data [6, 9]. Proper privacy management needs both technical solutions and properly enforced regulation. Firstly, for any personal data, there should be a inalienable right for choosing whether to opt-in or opt-out in any collection of such data. It is notable that while such regulation exists under many jurisdictions, in practice the regulation is poorly enforced, and the regulation is often insufficient. Furthermore, the defaults are here very important, as most people don’t bother to change their defaults [4]. Secondly, people are often not aware (or cannot be aware) of what data is being collected about them. In addition, there are often cases where personal data is born as a result of more than one person acting together. From a data property rights point of view, it is not immediately clear “who” should “own” such data.
Conclusions and next steps Participants featured a mix of senior and junior researchers from both academia and industry, as well as standardization bodies, and
470
Informatik_Spektrum_40_5_2017
participated in a fruitful dialogue. A follow-up meeting will be organized in the frame of a Shonan Seminar from March 26–29 2018 which will focus on the most relevant open issues for M2M identified in the GI-Dagstuhl seminar. These are Networking support for M2M, Wireless support for M2M, Security and Privacy for M2M as well as Data support for M2M. List of Participants: Sripriya Adhatarao (Univeristy of Goettingen), Mayutan Arumaithurai (University of Goettingen), Christian Becker (University of Mannheim), Carsten Bormann (University of Bremen), Aaron Yi Ding (TU Munich), Dennis Grewe (Bosch), Oliver Hahm (Inria), Michael Haus (TU Munich), Felix Juraschek (MSA Auer GmbH), Dirk Kutscher (NEC, Heidelberg), Nitinder Mohan (University of Helsinki), Le Ngu Nguyen (Aalto University), Pekka Nikander (PulseOn), Joerg Nolte (Brandenburg Technical University), Borje Ohlman (Ericsson, Sweden), Ioannis Psaras (UCL, London), Muneeba Raja (Aalto University), Thomas Schmidt (HAW Hamburg), Dominik Schuermann (TU Braunschweig), Stephan Sigg (Aalto University), Olga Streibel (Robert-Koch Institut), Matthias
Waehlisch (FU Berlin), Xiaoyan Wang (National Institute of Informatics), Lars Wolf (TU Braunschweig), Lei Zhong (National Institute of Informatics), Pengyuan Zhou (University of Helsinki)
References 1. Arumaithurai M, Chen J, Monticelli E, Fu X, Ramakrishnan KK (2014) Exploiting icn for flexible management of software-defined networks. In: Proceedings of the 1st international conference on Information-centric networking. ACM 2. Böhme R, Christin N, Edelman B, Moore T (2015) Bitcoin: Economics, Technology, and Governance. J Econ Perspect 29(2):213–238 3. Chen J, Arumaithurai M, Fu X, Ramakrishnan KK (2012) G-COPSS: A Content Centric Communication Infrastructure for Gaming. In: ICDCS 4. Halpern SD, Ubel PA, Asch DA (2007) Harnessing the power of default options to improve health care. New Engl J Med 357(13):1340–1344 5. Lightfoot G, Wisniewski TP (2014) Information asymmetry and power in a surveillance society. Inform Organ 24(4):214–235 6. Murphy RS (1995) Property rights in personal information: an economic defense of privacy. Geo LJ 84:2381 7. Sahai A, Waters B (2005) Fuzzy Identity-Based Encryption. In: Annual International Conference on the Theory and Applications of Cryptographic Techniques, Springer, pp 457–473 8. Schuermann D, Sigg S (2013) Secure communication based on ambient audio. IEEE T Mobile Comput 12(2): 358–370 9. Schwartz PM (2004) Property, privacy, and personal data. Harvard Law Rev 117:2056–2128 10. Sigg S, Schuermann D, Ji Y (2011) Pintext: A Framework for Secure Communication Based on Context. In: Proceedings of the Eighth Annual International ICST Conference on Mobile and Ubiquitous Systems: Computing, Networking and Services (MobiQuitous 2011) 11. Stojano F, Anderson R (1999) The Resurrecting Duckling: Security Issues for Wireless Ad Hoc Networks. In: Seventh International Workshop Proceedings, Lecture Notes in Computer Science 12. Tuyls P, Skoric B, Kevenaar T (2007) Security with Noisy Data. Springer-Verlag
Gewissensbits – wie würden Sie urteilen? Die Fachgruppe ,,Informatik und Ethik“ hat hypothetische Fallbeispiele entworfen, die eine Diskussion über Fragen der Verantwortung in der Informatik anstoßen sollen. Dabei geht es nicht um eine juristische Analyse, vielmehr ist Ihr kritisches Urteilsvermögen gefragt. Bitte schreiben Sie Ihre Meinung, Feedback und Kommentare in unser Blog: http://gewissensbits.gi.de/.
Faites vos jeux Benjamin Kees, Stefan Ullrich Walter ist Chef der kleinen Firma AC-Games, die seit über 17 Jahren ein für die Nutzerinnen und Nutzer kostenloses Spieleportal für Online-Gemeinschaftsspiele, meist Rollenspiele, anbietet. Auf dem Portal finden sich aber auch einfache ,,casual games“, unter ihnen vor allem Geschicklichkeitsspiele. Der Kundenstamm ist recht groß, allein mit den einhundert aktivsten Spielerinnen und Spielern können die TrafficKosten und der gesamten technische Support über Werbeeinnahmen finanziert werden. Bis zur Finanzkrise vor zehn Jahren stimmte auch der Umsatz im Shop für die virtuellen Gegenstände, doch nun, seit zwei,
drei Jahren wird mit dem bisherigen Geschäftsmodell nicht mehr genug Geld verdient, um den Mitarbeiterinnen und Mitarbeitern die Gehälter auszuzahlen. Die Spielehersteller nutzen das Portal in Zeiten von App Stores kaum noch, die Aufträge bei der Online-Werbung gehen zurück und die Spieler kaufen auch immer seltener virtuelle Artefakte mit hartem Geld ein, kurz: Walter und seinen Mitarbeitern – schon recht alte ITHasen – droht die Erwerbslosigkeit. Da kommt das Übernahmeangebot des Datenhändlers Data Broker GmbH zur rechten Zeit. Bei der nächsten Team-Sitzung wird heiß diskutiert. Ein Datenhändler, das gehe ja wohl gar nicht, echauffieren sich die einen, aber den Dienst einfach abschalten und die Spieler mit ihren liebevoll ausgefeilten Avataren hängenlassen gehe ja wohl auch nicht, entgegnen die Befürworter. Walter wunderte sich ohnehin darüber, dass ausgerechnet ein Datenhändler ein so hohes Gebot abgibt, da sie nur die persönlichen Angaben abfragen, die für die Bezahlung der Artefakte notwendig sind. Selbst die Idee einer ,,Crowdfunding“-Kampagne wird diskutiert, aber schließlich entscheidet man sich für den Datenhändler, nachdem die Geschäftsführung zu dem Schluss kam, dass dies der einzig gangbare Weg sei, und sie ja keine allzu personenbezogenen Daten abfragen würden. In der Anfangsphase der Firma waren Walter und seine Gründungspartner nicht so sensibel gegenüber dem Thema Datenschutz. In einem frühen Blog-Eintrag von AC-Games schrieb Walter über die ultimative ,,Slot Machine“. Er beschrieb eine Glücksspielmaschine, die sich mit ihrem Timing an die Spielerinnen
und Spieler anpasst. Um diese Idee umsetzen zu können, mussten Verhaltensdaten irgendwie gesammelt werden, so wurden unter anderem die Reaktionszeiten der Spielenden von jedem einzelnen gespielten Spiel mitgeschnitten. Es gab noch weitere Nutzungsideen für diese Daten, die jedoch nur im internen Blog diskutiert wurden. Eine weitere Idee war es, Spieler künstlich erzeugtem Stress auszusetzen, um Wahlverhalten zu beeinflussen, so dass sie unvorteilhafte Entscheidungen trafen und dabei zum Beispiel mehr Geld ausgaben oder sich öfter am Tag anmeldeten. Walter war über die Jahre jedoch von der Idee abgekommen. Einerseits, weil ihm das Thema Datenschutz und digitale Selbstbestimmtheit immer mehr am Herzen lag, vor allem aber, weil es hierzulande mit dem Online-Glücksspiel auch rechtlich nicht so einfach ist. Die zur Datenerhebung programmierten Systeme hätten eigentlich entsprechend umgestaltet werden müssen, aber Kathleen, die damals als einzige den Überblick hatte, was da eigentlich wie gespeichert wurde, hatte zu dieser Zeit nicht die nötigen Ressourcen. So wurde die Erfassung der Reaktionszeiten und anderer Verhaltensweisen fortgesetzt, auch wenn keine unmittelbare Verwendung mehr vorgesehen war. Als irgendwann ein Datenschutzaudit durchgeführt wurde, erwähnte der Dienstleister die ungewöhnliche Datensammlung in seinem Bericht, stellte jedoch fest, dass diese Praxis mit den AGBs der Firma und der Einwilligung der Nutzerinnen und Nutzer rechtens waren. Durch eben diesen Datenschutzbericht der Firma war nun die Data Broker GmbH auf die Firma aufmerksam geworden. Die Datenbanken mit über Jahre gesammelten Reaktionszeiten und Verhaltensweisen der Informatik_Spektrum_40_5_2017
471
{ FORUM / GEWISSENSBITS − WIE WÜRDEN SIE URTEILEN?
Spieler sind nun Teil des Datenkapitals – und stoßen auf großes Interesse bei der Data Broker GmbH. Das Sahnehäubchen auf dem Datenkuchen ist, dass bei einer Übernahme nicht einmal der AGB-Text geändert werden muss, so dass die Spielerinnen und Spieler den Besitzerinnenwechsel im Idealfall nicht mitbekommen und somit ihr Verhalten auch weiter preisgeben würden. Der Datenbank-Administrator Hank ist erst seit kurzem bei ACGames. Da er in dieser Firma ohnehin nicht alt werden wollte, denkt er sich in den letzten Wochen vor der Übernahme, ohne großes Risiko ein paar der Ideen ausprobieren zu können, die er in den alten Blogpost von Walter gelesen hatte. Es interessiert ihn, was tatsächlich in den gesammelten Daten steckt, denn auch er war über die horrenden Summen, die Data Broker angeboten hatte, stutzig geworden. Mit ein paar statistischen Berechnungen, die er über mehre Nächte auf den Servern laufen lässt, kann er eine Reihe von Spielertypen aus den gesammelten Daten identifizieren und den einzelnen Usern zuordnen. Auf der Shop-Seite für virtuelle Artefakte programmiert er dann einen ,,fake counter“, der künstlich die verbleibende Stückzahl je nach Spielertypus variiert. Bei manchen lässt er zuerst eine bequeme zweistellige Zahl erscheinen, die dann alle paar Sekunden um eins reduziert wird. Ob User, die er für sich mit ,,Stress-Typ“ bezeich-
472
Informatik_Spektrum_40_5_2017
net hat, wohl wirklich auf ,,kaufen“ klickt, fragt sich Hank. Dem Typus mit Hanks Bezeichnung ,,Neugierig“, zeigt Hank zunächst gar keine Zahl, sondern ein Link mit der Aufschrift ,,Verfügbarkeit prüfen“, um dann stets ,,nur noch 1 Exemplar vorhanden“ anzuzeigen. Als Hank am nächsten Abend die Verkaufszahlen aufruft ist er völlig verblüfft, wie gut er die verschiedenen Typen in ihren Handlungen hatte beeinflussen können. Als er sich ausmalt, welchen Einfluss auf die jahrelangen Kunden von AC-Games mit den Zahlen auch außerhalb des Spieleportals genommen werden könnte, kommt er ins Grübeln. Mit ein paar simplen Befehlen könnte Hank als DatenbankAdministrator die Kunden-IDs von der Reaktionszeiten-Tabelle entfernen, allerdings war ihm vorher untersagt worden, tiefgreifende Veränderungen vor der Übernahme vorzunehmen. Er zieht auch in Betracht, seine Entdeckung Walter mitzuteilen, entschließt sich aber kurzerhand dagegen. Noch bevor die administrativen Zugänge den neuen Zuständigen übergeben werden, pseudonymisiert Hank die Kunden-IDs in der Datenbank mit den gespeicherten Verhaltensweisen. Bei ,,ein paar simplen Befehlen“ bleibt es nicht. Es wird eine lange Nachtschicht, denn ihm wird klar dass er auch alle Zusammenhänge aus den Backups entfernen muss – so dass es aussieht, als wä-
ren die Daten schon von jeher so anonym erhoben worden. Eine Zuordnungs-Tabelle, aus der sich die Zusammenhänge wiederherstellen lassen, speichert er auf einem privaten USB-Stick ab.
Fragen – Wie bewerten Sie, dass die Firma AC-Games trotz finanzieller Schwierigkeiten ihr Portal weiter betreiben wollen? – Welche moralische Verpflichtung hat Walter, seine Kundinnen und Kunden von der Übernahme zu informieren? – Ist es vertretbar, dass Hank die Vorgaben für die Übernahme missachtet hat, um eine datenschutzfördernde Pseudonymisierung vorzunehmen? – Darf Hank die Daten auf einer privaten USB-Stick abspeichern, wenn er sie nicht mit nach Hause nimmt? – Wie bewerten Sie, dass der Datenschutzauditbericht für Data Broker zugänglich war? – Welche Verantwortung hatte Kathleen, die Datenerfassung zu beenden oder zu hinterfragen, nachdem die Daten über so viele Jahre nicht benutzt wurden? – Ist es problematisch, dass sich die Firma ein Recht auf umfassende Datenerfassung vorbehält, auch wenn die Sammlung von Daten gar nicht so umfassend ist bzw. eine Analyse und Nutzung der Daten gar nicht erfolgt?
Datentrickserei in der Wissenschaft Hans-J. Lenz, Freie Universität Berlin Die Beurteilung von Trickserei in der Wissenschaft setzt einige wenige, allgemeine Grundkenntnisse des Wissenschaftsbetriebs voraus. Als Wissenschaft (lat. scientia, mhd. wizzen[t]schaft) wird übereinstimmend zum einen die Gesamtheit menschlichen Wissens verstanden, das auf Vermutungen, Erkenntnissen oder Erfahrungen beruht und seit Menschheitsgedenken systematisch gesammelt, aufbewahrt, gelehrt sowie ergänzt als auch verworfen wird. Das wissenschaftliche Forschungsinteresse wird geprägt vom Erkenntnisgewinn durch Denkvorgänge und Experimente, um Eigenschaften zu erkunden und kausale Zusammenhänge sowie Gesetzmäßigkeiten in Natur, Gesellschaft und Wirtschaft zu verstehen sowie Voraussagen zu treffen. Da Wahrheitsbeweise in den Natur-, Geistes- und Sozialwissenschaften sowie in der Technik logisch ausgeschlossen sind, stehen wissen-schaftliche Aussagen immer unter dem Vorbehalt der Falsifizierbarkeit im Sinne von Popper. Man denke beispielsweise hier nur an die Ablösung des geozentrischen Weltbilds der Griechen durch das heliozentrische von Kopernikus oder die Erweiterung der Newtonschen Mechanik durch Einsteins Relativitätstheorie. Zum anderen wird Wissenschaft auch als ein methodisch orientierter Prozess aufgefasst. Dabei macht das Denken mit deduktiven oder induktiven Schlüssen Gebrauch von Begriffen, Annahmen und Axiomen, Hypothesen, Gesetzen und Theorien im Wechselspiel mit Ideen, Beobachtungen und geplanten Ex-
perimenten. ,,Beweise“ im Sinne von Bestätigungen von Hypothesen oder Theorien und Gegenbeweise zum Falsifizieren von Aussagen spielen bei Gedankenexperimenten und Schlussfolgerungen die entscheidende Rolle. Das intersubjektiv überprüfbare Forschen führt im idealen Fall zu abgesicherten und im Kontext seiner Bedingungen schlüssigen Aussagen über den Gegenstandsbereich in Form von Sätzen als Wissenserwerb. Man denke hier nur an den Begriff Energie, dessen jahrhundertlange Diskussion Einstein auf den Punkt mit E = m · c2 gebracht hat. Der Erkenntnisgewinn muss allerdings kommuniziert oder publiziert werden, überprüfbar sein sowie bestimmten wissenschaftlichen Kriterien und Standards genügen. Die Erfahrung hat gezeigt, dass nur so der Anspruch quasi objektiver, allgemeiner und überpersönlicher Gültigkeit geltend gemacht werden kann. Hier liegt beispielsweise der Unterschied zwischen Astrologie und Astronomie. Schließlich führt die Notwendigkeit der Wissenschaftskommunikation zu verschiedenen Kommunikationskanälen. Dazu rechnen zuerst einmal das klassische Veröffentlichen (Publizieren) als Buch in einer Reihe eines wissenschaftlichen Verlags oder als Artikel in einem Sammelwerk oder einer Fachzeitschrift, wo sich – im Idealfall – ein Herausgeberkollegium und mehrere Gutachter gemeinsam um die Anerkennung von neuen Forschungsergebnissen und die Einhaltung wissenschaftlicher Standards bemühen. Hinzukommt das Vortragen von Forschungsergebnissen auf einschlägigen Tagungen, Workshops u. ä. zusammen mit der
Herausgabe von Proceedings, die wissenschaftliche Vereine turnusmäßig veranstalten. Dazu treten in jüngster Zeit – kurzfristig geltende – Publikationsangebote gegen Entgelt im Internet sowie die Publikationen im Selbstverlag beispielsweise als eBook. Soweit die hehre Welt der Wissenschaft, eine Sicht, die seit eh und jäh leider nicht ganz der Realität entsprach und wohl leider auch künftig nicht entsprechen wird. Denn neben das generische Motiv Erkenntnisinteresse jeder Wissenschaft treten Prestigezugewinn (,,Das Verdienst“) und/oder Geldgier (,,Der Verdienst“) aller am Wissenschaftsbetrieb Beteiligten. Dazu rechnen heutzutage rein profitorientierte Pseudokongresse, organisiert von unbekannten Veranstaltern und oft ohne akademisches Programmkomitee, Angebote in dubiosen Online-Magazinen – gegen Vorkasse versteht sich, sowie nicht begutachtete (,,Peer to Peer“) Eigenpublikationen im Internet. Die Tatsache, dass sich solche Phänomene zeigen, ist auch dem Publikationsdruck (,,Publish or Parish“) geschuldet, dem Wissenschaftler wegen der jährlichen Evaluierung durch ihre Institution unterliegen. Schließlich trifft der Vorwurf nicht-wissenschaftlicher Vorgehensweise auch etliche Wissenschaftler selbst. Dabei gilt es zu beachten, dass Forscher im Allgemeinen lohnabhängig und damit weisungsabhängig sind. Besonders krass sind in diesem Kontext kolportierte Anweisungen von Chefund Oberärzten an ihre jungen Doktoranden bei eingeworbenen Projekten im klinischen Bereich. Zum Repertoire gehören beispielsweise gezielt weitere Proben zu nehmen oder Schwellenwerte bzw. Prüfgrößen passend zum erhofften Informatik_Spektrum_40_5_2017
473
{ FORUM / DATENTRICKSEREI IN DER WISSENSCHAFT
Ergebnis abzuändern, um ,,die Prüfhypothese eines überlegenen neuen OP-Verfahrens oder Medikaments zu bestätigen“. Aus diesem Blickwinkel erscheint das Siegel ,,Klinisch getestet“ fragwürdig. Wie weit sich Wissenschaft vom Grundsatz ,,Rerum cognoscere causas“ entfernen kann, soll im Folgenden aufgezeigt werden. Der medizinische Bereich bildet dabei keine Ausnahme. Es dürfte klar sein, dass die Grenze zwischen methodischer Ignoranz, Schlamperei, Schwindel und Betrug in Einzelfällen nicht immer klar zu ziehen ist. Der Datenbetrug umfasst vier große Bereiche, die sich als Diebstahl, Plagiieren, Manipulieren und Fabrizieren umschreiben lassen. Der Datendiebstahl soll hier wegen weitgehender Seltenheit im Wissenschaftsbereich, übrigens im Gegensatz zur Wirtschaft, ausgeklammert werden. Plagiieren ist in Deutschland ,,populär“ durch die Fälle von Guttenberg und Schavan geworden, die sich zu Recht dem Vorwurf des Diebstahls geistigen Eigentums ausgesetzt sahen. Dennoch haben Plagiate in Kunst und Wissenschaft immer schon eine gewisse Tradition, auch als Selbstplagiate, wie der Fall der Stammzellenforscherin H. Obokata jüngst zeigt (Nature 2014). Ihr wird eine Art von ,,Photoshop-Mentalität“ zur Last gelegt, da sie ihre bereits veröffentlichten Fotos überarbeitet und zum ,,Beweis“ neuer Forschungsergebnisse veröffentlichte. Nicht ganz unähnlich war der spektakuläre Fall des deutschen Nanophysikers J.H. Schön. Kollegen fiel nach einem Hinweis von den Bell Labs auf, dass einige Messkurven, die Schön zusammen mit Koautoren in Science veröffentlichte, aus seinen früheren Experimenten stammten, DIE ZEIT (13. 6. 2002). Plagiieren hat
474
Informatik_Spektrum_40_5_2017
Tradition, wenn man so will. Legt man heutige Wissenschaftsstandards an, was zugegebener Maßen durchaus in Frage gestellt werden kann, so kann man das Vorgehen von Hipparchos im 2.ten Jhrdt. v. C. kritisieren, der einen Sternenkalender publizierte, dessen Teile aus Datenquellen der Babylonier stammte, Toomer (1975). Ironischerweise wurde er selbst Plagiat-Opfer. Denn etwa zweieinhalbhundert Jahre später nutzte Ptolemäus die Daten von Hipparchos und gab vor, diese selbst gesammelt zu haben, Di Trocchio (1994). Da wir uns im Folgenden vornehmlich mit der Datenmanipulation beschäftigen, werfen wir vorab noch einen kurzen Blick auf die Datenfabrikation. Hier werden Daten nicht mühsam gesammelt oder Experimente kosten- und zeitaufwendig durchgeführt, sondern die Daten werden am grünen Tisch ausgedacht – fabriziert. Wie einfach die Datenfabrikation im digitalen Zeitalter ist, zeigt der Fall eines angehenden Mediziners an der Uni-Klinik Köln vor einigen Jahren, über den der Spiegel berichtete. Der Forscher erstellte eine neue Abbildung aus zweiundzwanzig kopierten Messkurven früherer elektrophysiologischer Experimente, Der Spiegel (44/2013, S.115). Der Sozialpsychologe Diederik A. Stapel, Univ. Tilburg, gilt als ein besonders krasses Beispiel eines Datenfabrikanten. Er führte etliche seiner empirischen Studien überhaupt nicht durch, sondern erfand die Daten ,,am grünen Tisch“, vgl. Science (2011). In vergleichbarer Weise verstieß der Verhaltenspsychologe Cyril Burt gegen den wissenschaftlichen Anstand. Seine Intelligenzstudien an Zwillingen beginnend in den vierziger Jahren zeigten gravierende methodische Fehler und wiesen
auf systematische Datenselektion (sog. sampling bias) hin – was erst nach Burts Tod 1971 aufgedeckt wurde. Sie führten Burt zu absurden rassistischen Aussagen, Tagesspiegel (3.8.2015, S.21). Seine Theorie, dass 75 % der menschlichen Intelligenz genetisch kodiert sei, gehört dazu, Hearnshaw (1979). Abschließend sei der Hinweis gestattet, dass den Markt- und Meinungsforschungsinstituten das Risiko der Datenfabrikation durch eingesetzte Interviewer wohl bekannt ist; denn die Selbstausfüllung von Interviewer-basierten Fragebögen muss durch Interviewerauswahl, -schulung und -kontrolle sowie Validierung der ausgefüllten Fragebögen möglichst verhindert werden. Wir beschränken uns im Folgenden auf die Manipulation von Daten im Wissenschaftsbereich. Hier sind Manipulationsart und -weise so mannigfaltig, dass es schier unmöglich erscheint, dies gestrafft darzustellen. Da Datenmanipulationen in allen Phasen einer Studie oder eines Forschungsprojekts vom Start bis zum Abschluss auftreten, bietet es sich an, dies als roten Faden für die folgenden Ausführungen zu nehmen. Die Manipulationsmöglichkeit beginnt bereits bei der (Drittmittel-)Projektakquisition und Festlegung der Forschungsziele. Sie besteht weiterhin bei der Beschaffung von Beobachtungs- oder experimentell ermittelten Daten. Wir finden sie bei der Datenauswertung, der Visualisierung der Daten und vor allem bei der Interpretation der Ergebnisse aufgrund sprachlicher Bewertungsspielräume der Datenanalytiker. Letztlich treten Verwerfungen auch in der Phase der Veröffentlichung auf, wie noch weiter unten erörtert wird. Werfen wir zunächst einen Blick auf die Phase Projektstart. Wenn
Pharmafirmen im Hinblick auf die Wirksamkeit von Medikamenten oder Smartphone-Hersteller auf die Schädigung von Gehirnzellen durch die elektromagnetische Wellen einen Forschungsauftrag an eine medizinische Universität vergeben, wird im ersten Fall eher ein positives, im zweiten Fall eher ein negatives erwartet. Dies kann im Sinn der Kahnemann–Tversky Theorie zum Framing der Aussagen bei den beteiligten Wissenschaftlern führen, was nicht anderes ist als dass sich Vorurteile verfestigen. Die Projektmitarbeiter werden ungewollt auf ein vorweg gewünschtes Forschungsergebnis ausgerichtet. Ganz abgesehen davon, dass die Zuwendung finanzieller Mittel in der angewandten Forschung eine verzerrende Erwartungshaltung der Akteure hinsichtlich der Ergebnisse verursachen kann. Wie pointiert kennzeichnete Goethe dies mit seinem Wort ,,Wenn du eine weise Antwort verlangst, musst Du vernünftig fragen.“ Wenden wir uns der Datenbeschaffung zu. Greifen wir die Ökonometrie beispielgebend heraus. Als empirische Wirtschaftsforschung überprüft sie ökonomische Theorien, Hypothesen und Modelle anhand von Wirtschaftsund Gesellschaftsdaten mittels mathematisch-statistischer Verfahren. Sie nutzt überwiegend Daten statistische Ämter und supranationaler Behörden wie EU, OECD, WB usw. in Form von Zeitreihen volksoder weltwirtschaftlicher Aggregate, In den makro-ökonometrischen Studien werden diese zusammengeführt und kreuzkorreliert. Etliche Studien versuchen die Hypothese zu prüfen, ob der kurzfristige USGeldmarktzinssatz den deutschen kausal beeinflusst. Ganz gleich, welcher Zeitbereich ausgewählt, wie die
Zeitgranularität (Wochen-, Monatsoder Vierteljahreswerte) festgelegt oder welche anspruchsvolle, neuere Modellklasse spezifiziert wurde, die Analysen nutzen amtlich verfügbare Beobachtungsdaten, obwohl seit den neunziger Jahren Konsens darüber besteht, dass Kausalität zuverlässig nur mittels geplanter Experimente, Fisher (1935), also nur mittels Versuchs- und – wenn möglich Kontrollgruppe – nachweisbar ist. Denn nur so lassen sich systematische Fehler vermeiden. Die Unzulänglichkeit eines falschen Vorgehensweise zeigt Googles spektakuläres Projekt ,,Google Flu Trends“. Google wollte ab etwa Mitte 2000 den Beginn einer Grippe-Epidemie früher voraussagen als die US-Gesundheitsbehörde. Die Grundidee war schlicht, im Angesicht von täglich Millionen von Google Nutzern und von etwa 50 Mio. Suchanfragen/Woche, diesen Datenbestand mit den in den sozialen Netzwerken frei zugänglichen Daten zu verbinden und komplett nach zweckdienlichen Suchmerkmalen (Selektoren) auszuwerten – Google hatte ja Zugriff auf N = ALLe Daten. Dies gelang Google 2008 überzeugend, Nature (2008). In Googles Jargon sprach man fortan von ,,nowcast“ statt ,,forecast“. Das Ende des Projekts kam allerdings abrupt bereits fünf Jahre später, als Google die Epidemiespitze um satte 140 % verpasste, Science (2015). Was war der geschehen? Googles Datenbeschaffung beruhte 2013 wie fünf Jahre zuvor nicht auf sorgfältig geplanter Stichprobenziehung noch traf tatsächlich N = ALL zu. Denn Google erfasste nur eine echte Teilmenge der Grundgesamtheit gesamte USBevölkerung. Denn alle US-Bürger ohne Mitgliedschaft in sozialen Netzen, ohne SMS-Aktivität, Re-
gistrierung bei Twitter usw. waren ausgeschlossen. Wer von den Lesern über 65 Jahren und welche Kleinkinder verschicken schon Tweets, noch dazu über ihre Krankheiten? Eine solche systematische Verzerrung (Untererfassung oder ,,sampling bias“) ist unter Statistikern wohlbekannt und spätestens seit den dreißiger Jahren methodisch im Griff. Schmunzelnd kann man als Statistiker anfügen, vielleicht wären doch n = 3500 Fälle einer gut geplanten Stichprobe von US-Bürgern besser gewesen, so wie es das Meinungsforschungsinstitut Gallup seit Jahrzehnten vormacht. Oder wie B. Efron, emeritierter Statistiker an der Univ. of Stanford, es auf den Punkt bringt: “Those who ignore Statistics are condemned to reinvent it.” Eine gewisse Ahnungslosigkeit und Naivität gegenüber ökonomischen Daten kann ich aus meiner Erfahrung Informatikern und Ingenieuren, mit denen ich beruflich viel zu tun hatte, nicht ersparen. Nur zwei typische Fälle dazu seien angefügt. Auf der internationalen Tagung in Warwick im Jahr 1973 über ,,Dynamic Modelling and Control of National Economies“ vertrat ein hochrangiger Raumfahrtingenieur der NASA in der Diskussion die Meinung, mit den modernen Methoden der Raumfahrt, hier Zustandsraummodellen und linearen Reglern, ließen sich alle Datenund sonstigen Probleme bei der Wirtschaftssteuerung einfach beheben. Der spätere Nobelpreisträger der Wirtschaftswissenschaft L. Klein hielt ihm entgegen, dass allein schon die Datenerfassung im Gegensatz zur Raumfahrt interessengebunden sei. Er verdeutlichte dies an der Zeitreihe ,,Monatliche Arbeitslose in UK seit 1945“, einmal erfasst von der Regierung und Informatik_Spektrum_40_5_2017
475
{ FORUM / DATENTRICKSEREI IN DER WISSENSCHAFT
einmal von den Gewerkschaften. Während beide noch einigermaßen hinsichtlich von Frequenz und Phase übereinstimmten, lagen die gewerkschaftlichen Daten um einen deutlich erkennbaren Sockel stets höher. Die Frage, welche Datenquelle für eine Studie besser geeignet sei, ist ohne Kenntnis des Untersuchungsziels und der Forschungsinteressen nicht zu entscheiden. Während unterschiedliche Daten im selben Kontext zu verschiedenen Aussagen führen können, sind im folgenden Fall aus Mitte der achtziger Jahre die Daten sogar identisch, die zwei konkurrierende Forschungsgruppen nutzten, da man sich auf Druck der projektfördernden DFG auf einen gemeinsamen Datenbestand vorab einigte. Trotzdem wurden die beiden gegensätzlichen Hypothesen der Projekte ,,bestätigt“: Das Berliner Projekt um den FU Wissenschaftler B. Strümpel vertrat die These, dass Arbeit krank mache, während das Institut von Noelle-Naumann bestätigte, dass deutsche Arbeiter faul wären. Zulässiger Interpretationsspielraum, Trickserei oder ,,How to lie with Statistics“ – jedem ist freigestellt das für sich zu beantworten. Der Furor um beide Studien unterstreicht auch, dass Wissenschaft spekulativ sein muss, um breite Beachtung zu finden. Systematische Stichprobenfehler und zu geringe Fallzahlen führen bei empirischen Studien in sehr subtiler Weise zu falschen Aussagen. Dies kann man beispielsweise gut an der Krebsstudie des Molekularbiologen Séralini aufzeigen. Die Langzeitstudie mit Versuchs- und Kontrollgruppe zeigte, dass Ratten erhöht Krebs bekommen und früher sterben, wenn sie mit der gentechnisch veränderten Maissorte NK603 vom US Unternehmen Monsanto ge-
476
Informatik_Spektrum_40_5_2017
füttert werden, Süddeutsche Zeitung (2013, Nr. 276, S. 16). Dem Wissenschaftler warf die Fachzeitschrift Food and Chemical Toxicology, dass die Studienergebnisse zwar nicht inkorrekt, aber auch nicht beweiskräftig (,,statistisch nicht belastbar“) wären. Er hatte Ratten eingesetzt, deren Krebsrisiko von vornherein erhöht war und seine Fallzahlen waren zu klein, weil er so viele Untergruppen bildete, dass die Anzahl männlicher bzw. weiblicher Ratten je Gruppe letztlich unter zehn statt wie internationalen Richtlinien entsprechend über fünfzig lag. Die Unterschiede zwischen behandelten und unbehandelten Tieren hätten daher auch zufällig sein können. Das Fachjournal zog darauf auf Drängen seines Chefredakteurs die Publikation zurück. Da kein Fehlverhalten des Wissenschaftlers in Form von Vorsatz oder (grober) Fahrlässigkeit vorlag, mutet die Rücknahme der Publikation selbst ungerechtfertigt an, worauf Organisationen wie Retraction Blog und GM Watch hinwiesen, Süddeutsche Zeitung (2013, Nr. 276, S. 16). Wie immer in solchen Fällen ist Einflussnahme der Industrie nicht auszuschließen. Kommen wir nun zur Auswertung von erhobenen Daten, die als Zähl- oder Messwerte vorliegen. Ganz bewusst erinnern wir vorweg an den stets vorhandenen Interpretationsspielraum bei der Datenanalyse wie dies der Fall von Strümpel gegen Noelle-Neumann aufzeigt. Werfen wir zuerst einen Blick auf die Gesundheitsfürsorge, die zunehmend mit ,,High Tech“ im Rahmen von ,,Digital Health“ unterstützt wird. Ein großes Problem stellt dabei die Festsetzung von Grenzwerten für die Beurteilung beispielsweise von Zuckerkrankheit, Cholesterin und Krebs an
Hand von Labordaten dar. Lag der Grenzwert für Cholesterin im Blut 1967 bei 300 mg/dll, wurde er 1998 auf 200 abgesenkt, Bosbach und Krämer (2017) in 3sat (13.1.2017), und von der Europäischen Kardiologenvereinigung in 2005 auf 199 festgesetzt, Süddeutsche Zeitung (28.11.2013). Der Tendenz fallender Cholesterin-Grenzwerte könnte ärztliche Fürsorge im Rahmen der Vorsage entsprechen, zu beachten ist aber, dass mit der letztgenannten Absenkung einhergeht, dass damit 75 % (!) der deutschen Bevölkerung für erkrankt eingestuft werden. Das Interesse der Pharmaindustrie an niedrigen Grenzwerten liegt auf der Hand. Ähnlich differenziert ist die Lage bei der Früherkennung von Prostatakrebs mittels PSA-Test zu sehen. Das Verfahren ermittelt die Konzentration des prostataspezifischen Antigens (PSA) im Blut und beurteilt allein diesen Wert – evt. zusammen mit früheren Messungen, obwohl PSA, Phosphat und Calcium im menschlichen Körper rückgekoppelt sind und damit eine drei-dimensionale Sicht – also auf alle drei Parameter gleichzeitig – notwendig wäre. Bis in die Mitte der neunziger Jahre rieten die Hausärzte bei ,,hohem“ (die Skala ist wie die Richter-Skala für Erdbebenstärke nach oben offen) oder jährlich ,,stark gestiegenem“ PSA-Wert zur OP oder zur Bestrahlung der Prostata. Erst eine große europäische Studie (ERSPC) mit randomisierter Beobachtungs- und Kontrollgruppe, die seit 1993 läuft, brachte neue Einsichten: Erstens sind rund 40 % der diagnostizierten Fälle überdiagnostiziert und können zu eigentlich vermeidbaren Nebenwirkungen wie Inkontinenz und Impotenz führen, Tagesspiegel (2014, Nr. 22128). Zweitens wurden im gleichen Zeitraum 27 Männer therapiert, um
einen Todesfall in dreizehn Jahren zu verhindern. In der Datenauswertung ist es besonders schwierig zwischen betrügerischer Absicht, Schummelei, Tricks und Kniffen sowie Unterlassungen und fachlichen Unzulänglichkeiten voneinander zu unterscheiden. Einen breiten Überblick über Datentrickserei an der Forschungsfront erbrachte im Jahr 2005 die MartinsonAnderson-de Vries Studie über das Ausmaß von wissenschaftlichem Fehlverhalten von Biologen, Chemikern, Ingenieuren, Medizinern, Physikern und Sozialwissenschaftlern in den Vereinigten Staaten von Amerika, die Fördergelder von den National Institutes of Health bekommen hatten, Nature (9.6.2005). Die sauber geplante Befragung war zwar ein Selbstbericht, aber anonym und standardisiert. Sie beinhaltete insgesamt sechzehn Verfehlungsarten, hatte einen Untersuchungszeitraum von drei Jahren und unterschied zwischen Nachwuchs- und erfahrenen Wissenschaftlern etwa zu gleichen Teilen. Die Rückantwortquote lag bei knapp 42 % von n = 3247 Wissenschaftlern. Einige bemerkenswerte Ergebnisse sind, Nature (2005, S. 737–738): 15,5 % änderten die Studienplanung, -methoden oder -ergebnisse auf Druck der Geldgeber – hier lagen die Nachwuchswissenschaftler mit 9,5 % zu 20,6 % hinten. 15,3 % entfernten gefühlt falsche Daten. 13,5 % planten die Studien falsch. 10,8 % hielten Details von Methoden und Daten zurück. Etwa 6 % gaben Mehrfachpublikationen und Plagiate zu. Wie immer wieder bei empirischen Studien zu beobachten, sind Daten im Nachhinein nicht verfügbar, hier hatten 27,5 % die Daten unzureichend archiviert, ein in beiden Wissenschaftlergruppen nahezu identisches Ergebnis. Bei diesem Viertel der Studien lassen sich die
Ergebnisse später nicht mehr überprüfen. Dies erregt Verdacht und ist in jedem Fall ärgerlich, weil es ein Verstoß gegen das Prinzip ,,Reduplicatio est mater scientiae“ ist. Bekanntlich sind Wiederholbarkeit und Überprüfbarkeit eherne Grundsätze aller wissenschaftlichen Beobachtungen oder aller Experimente, die es Dritten erst ermöglichen, durchgeführte empirische Studien in vergleichbarer Weise zu wiederholen und deren Ergebnisse zu überprüfen. Zugegebener Weise sind Wiederholungsversuche eher lästig, sind weniger attraktiv als Originalstudien und leiden bei positivem Ergebnis, also Studienfälschung, zu Unrecht unter dem Verruf der Nestbeschmutzung. Es ist nicht verwunderlich, dass eine weitere anonymisierte Befragungsstudie von zweitausend US-Psychologen, durchgeführt von L. John, Harvard Business School, zu vergleichbaren Ergebnissen führt, worüber das Fachjournal Psychological Science in 2012 berichtet. Unter dem Titel ,,Seven Shades of Grey“ wird angeführt: 58 % gaben an, schon einmal die Datenbeschaffung fortgesetzt zu haben, falls die bisherigen Ergebnisse ,,nicht signifikant“ waren. 43 % bzw. 27 % eliminierten Messwerte als Ausreißer bzw. einen Teil der Experimente, um Effekte zu verbessern. 35 % gaben überraschende Ergebnisse in der Publikation als so erwartet aus. 23 % sorgten für ein signifikantes Ergebnis durch Abändern von Daten. Hier ist der Fall des späteren Nobelpreisträgers für Physik Robert Millikan zu nennen. Im Gegensatz zu seinem deutschen Konkurrenten Felix Ehrenfeld veröffentlichte er nur die besten 58 von 180 Experimenten zur elektrischen Ladung von Teilchen und gaukelte damit eine höhere Präzision seiner Messungen und folglich besserer Übereinstimmung mit der Theorie vor, Broad und Wade (1985). Der ex-
perimentelle Selection Bias wurde erst später aufgedeckt, da die Ergebnisse mit damaliger Messtechnik nicht reproduzierbar waren. Wie die Frankfurter Allgemeinen Sonntagszeitung (Nr. 39, 2013) ergänzend berichtet, fiel in einer Studie des Fachblatts Quartely Journal of Experimental Psychology 2012 auf, dass bei Veröffentlichungen in drei Fachzeitschriften innerhalb eines Jahres eine Häufung von pWerten auftrat, die knapp unterhalb der Signifikanzschwelle (von fünf Prozent) lagen. Wogegen bei Werten knapp über dem Grenzwert eine Lücke klaffte. Der Autor des Artikels, Rüschemeyer (2013), bemerkt dazu ,,Ein Schelm, wer Böses dabei denkt.“ nahezu in dieselbe Richtung geht das Essay ,,Why Most Published Research Findings Are False“ von Ioannides (2005). Vorab können wir allen Forschern nur raten, die induktiv aus Daten Schlüsse ziehen, die Arbeit zu lesen. Das Essay stellt heraus, dass drei Wahrscheinlichkeiten eine entscheidende Rolle spielen, ob ein empirisches Forschungsergebnis wahr ist oder nicht. Es sind dies die Prästudien-Wahrscheinlichkeit, R/(1 + R), dass eine Hypothese wahr ist, die Schärfe des statistischen Tests, 1 – β, und das Signifikanzniveau α. Sieht man vereinfachend von systematischen Verzerrungen (Bias) einer Studie ab, siehe aber den Google Fall, so folgt nach einem Signifikanzschluss als Post-Studien-Wahrscheinlichkeit für einen wahren positiven Effekt PPV = (1 – β)R/(– βR + α). Dabei ist α die Wahrscheinlichkeit für den Fehler 1. Art, d. h. Prüfhypothese irrtümlicher Weise abzulehnen – also einen Effekt oder einen Zusammenhang zu finden, wenn keiner existiert. β ist die Wahrscheinlichkeit für den Fehler 2. Art, die Gegenhypothese irrtümlicher Weise anzunehmen. Oder anders ausgedrückt, 1 – β ist Wahrscheinlichkeit, dass eine Studie den Informatik_Spektrum_40_5_2017
477
{ FORUM / DER ARBEITSMARKT FÜR IT-FACHLEUTE IN DEUTSCHLAND
wahren Zusammenhang oder Effekt findet. Stellt man in einer Vierfeldertafel die Wahr/Falsch-Effekte den Ja/Nein-Entscheidungen gegenüber, so gilt (1 – β)R > α. Üblicherweise wird in Studien α = 0, 05 gewählt. Es sei z. B. die Schärfe 1 – β = 0, 6 und der Prästudien-Oddwert R = 4 : 5. Dann geht PPV auf unter 60 % zurück. Noch unbefriedigender und damit anfälliger gegenüber Trickserei wird die gesamte Situation, wenn anhand eines Datensatzes mehrere alternative, sich ausschließende Hypothesen getestet werden sollen. Dies ist beispielsweise der Fall, wenn in der Ökonometrie mittels einer Stichproben alternative Regressionsmodelle zur Erklärung der Konsumquote in der Bundesrepublik oder das Laufzeitverhalten konkurrierender Algorithmen anhand von Benchmarks (Sammlung von Fällen einer Problemklasse) mittels Signifikanztests geprüft werden soll. Im letzten Beispiel wird jeder Algorithmus durch seine mittlere Laufzeit und die Standardabweichung, ermittelt aus allen Experimenten des Testsets, charakterisiert. Angenommen, es sind p ∈ N solche Hypothesen vorgegeben und das (nominelle) Signifikanzniveau eines einzelnen Tests sei wie üblich α = 0, 05. Das tatsächliche Niveau, α , die Wahrscheinlichkeit, einen Laufzeitunterschied zu finden, wenn in Wahrheit keiner existiert, ist dann bei p Hypothesentest α = 1 – (1 – αp ) < α. Wenn man beispielsweise nur p = 5 Tests durchführt, so folgt α = 0. 31 · 10–6 . Schon für wenige multiple Vergleiche wird die Prüfhypothese ,,fast immer angenommen“.
478
Informatik_Spektrum_40_5_2017
Werfen wir noch einen Blick auf aktuelle Untersuchungen der Open Science Collaboration (OSC), die wie andere Organisationen – siehe PlosOne, Hochschulwatch.de und Retractionwatch.com – Untersuchungen zur Wiederholbarkeit von Experimenten und Reproduzierbarkeit von Ergebnissen nach Publikation der Studie durchführt. Eine aktuelle Studie ist in Significance (Oct. 2015) erschienen. Von hundert psychologischen Studien, die in einschlägigen Journalen erschienen, wiesen 97 % einen p-Wert von unter 5 % auf, in den wiederholten Studien dagegen nur von 36 %. Dazu passend reduzierte sich die mittlere Effektgröße auf 50 %. Die sorgfältige Studie verweist neben einem kulturellen Wandel in der Wissenschaft auf zwei Faktoren. Zum einen auf ein Forschungsdesign, das von Anfang an zuwenig Trennschärfe hat. Zum anderen auf den Publikationsbias, da Fachzeitschriften positive Ergebnisse im Vergleich mit negativen bevorzugen. Ganz entsprechend werden allgemein Studien, die ein (,,signifikantes“) Ergebnis aufweisen, Studien ohne Ergebnis bevorzugt. Wer will schon über Misserfolge berichten? Übrigens gilt Gleiches für den Annahme- bzw. Ablehnungsentscheid eingereichter Forschungsarbeiten. Gutachter und Herausgeber einschlägiger Fachzeitschriften gehören ganz überwiegend ,,Schulen“ an, haben deren Sicht und bevorzugen Autoren mit bekanntem Namen oder Angehörige ihrer Schulen, sie lassen sich vom ,,Mainstream“ leiten und unterliegen ,,Forschungsmoden“
(Reviewer und Publication Bias). Kahnemann (2011) verweist aus verhaltenspsychologischer Sicht darauf, dass Gutachter nachweislich besser Forschungsarbeiten beurteilen, wenn darin eigene Publikationen mit Zustimmung bedacht werden. Schmunzeln ruft beim Autor seine Bemerkung hervor ,,Da urteilen weise, meist alte Männer über das Neue“. Halten wir an dieser Stelle die Kardinalstugenden sauberer wissenschaftlicher Methodik fest, Rüschemeyer (2013): Hypothesengeleitetes Arbeiten, Transparenz, Replizier- und Reproduzierbarkeit. Damit kommen wir abschließend kurz noch auf die Visualisierung zu sprechen. Kniffe und Tricks bei der graphischen Darstellung von Daten kommen seit eh und je vor, siehe zur klassischen Methodik Tufte (1983) und zum Missbrauch Huff (1954) oder Krämer (1995). Fehlende Legenden oder Achsenbeschriftungen, Logarithmisierung von Achsen ohne Hinweis, unterschiedliche Skalierung, abgeschnittene oder gestutzte sowie Stauchungen oder Steckungen von Achsen gehören zum Alltag der visuellen Datentrickserei ebenso wie nicht maßstabsgerechte Vergleiche. Wie weit der Spielraum bei der Interpretation von Daten geht, zeigt exemplarisch der Fall Strümpel vs. Noelle-Neumann. Im Zeitalter von post-faktischen Aussagen ist wohl der beste Rat der, den man Datennutzern jedweder Couleur bieten kann, bleibt wachsam und kritisch. Anders ausgedrückt: ,,If a man frauds you one time, he is a rascal; if the does it twice, you are a fool“.
Der Arbeitsmarkt für IT-Fachleute in Deutschland Ralf Beckmann, Susanne Lindner Bundesagentur für Arbeit Statistik/Arbeitsmarktberichterstattung Der Arbeitsmarkt für IT-Fachleute hat sich 2016 sehr gut entwickelt. Nach wie vor gibt es nur wenig Arbeitslose mit IT-Berufen. Das Vordringen der Informatik in nahezu alle Arbeits- und Lebensbereiche geht einher mit einem überdurchschnittlichen Zuwachs an Arbeitsplätzen für Computerfachleute in den letzten Jahren. Die Nachfrage nach neuen Mitarbeitern bewegte sich, gemessen am Bestand der 2016 bei der Bundesagentur für Arbeit gemeldeten Stellen, auf Höchstniveau. Gleichzeitig hatten Unternehmen Schwierigkeiten, ihre vakanten Stellen für hochqualifizierte Softwareentwickler zu besetzen. Hier könnte allerdings in den kommenden Jahren eine steigende Zahl von Absolventen eines Informatikstudiums zur Entspannung beitragen ebenso wie die zunehmende Attraktivität Deutschlands bei qualifizierten Fachleuten aus dem Ausland.
Erwerbstätigkeit und sozialversicherungspflichtige Beschäftigung Erwerbstätigkeit nimmt weiter zu Rund 932.000 IT-Fachleute waren laut Mikrozensus 2015 in Deutschland tätig. Das waren fünf Prozent mehr als im Vorjahr. Damit setzt sich der Wachstumskurs der letzten Jahre fort. Von 2012 bis 2015 hat die Zahl der erwerbstätigen IT-Fachleute um insgesamt fast 100.000 zugenommen. Zu den Erwerbstätigen zählen neben den sozialversicherungspflichtig Beschäftigten, die den Hauptteil
ausmachen, Selbständige und Beamte sowie geringfügig Beschäftigte. Gleichzeitig ist zu berücksichtigen, dass es sich bei dieser Zahl um eine Hochrechnung handelt, die auf einer Ein-Prozent-Haushaltsstichprobe basiert und deshalb naturgemäß mit Unschärfen verbunden ist.
Vor Allem die sozialversicherungspflichtige Beschäftigung wächst Das Wachstum der Erwerbstätigkeit speist sich zum großen Teil aus einer Zunahme der sozialversicherungspflichtigen Beschäftigung. Die Beschäftigtenstatistik der Bundesagentur für Arbeit, für die bereits Daten für das Jahr 2016 vorliegen, weist rund 716.000 ITFachleute aus, die zum Stichtag 30. Juni 2016 in Deutschland sozialversicherungspflichtig beschäftigt waren. Im Vorjahresvergleich zeigt sich ein Beschäftigungszuwachs von 29.000 Personen (+4 Prozent), nachdem es in den beiden Jahren davor bereits ein ähnliches Beschäftigungsplus gegeben hatte. Mehr als zwei von fünf Beschäftigten (44 Prozent) verfügten über einen Fachhochschul- oder Hochschulabschluss (Abb. 1).
Beschäftigungszunahme auch in Krisenzeiten Die Statistiken über die Erwerbstätigkeit und die sozialversicherungspflichtige Beschäftigung wurden 2011/12 auf die neue ,,Klassifikation der Berufe 2010“ umgestellt. Die neue Systematik der Berufsabgrenzungen weist deutliche Unterschiede zu der bis dahin verwendeten Klassifikation aus dem Jahre 1988 auf. Das hat zur
Das Wichtigste in Kürze – Die Zahl der erwerbstätigen ITFachleute ist 2015 auf 932.000 gestiegen. – Der Anstieg geht vor allem auf die sozialversicherungspflichtige Beschäftigung zurück. Die Statistik weist hier für Juni 2016 rund 716.000 IT-Fachkräfte aus. Das waren vier Prozent mehr als im Vorjahr. – Die Nachfrage nach IT-Fachleuten bewegt sich, gemessen am Bestand der 2016 gemeldeten Arbeitsstellen, auf Höchstniveau. Mit 13.500 Jobangeboten überstieg der Stellenbestand den des Vorjahres um 19 Prozent. – Punktuelle Engpässe bei der Stellenbesetzung zeigen sich wenn Experten in der Softwareentwicklung und ITAnwendungsberatung gesucht werden, deren Kenntnisse einem mindestens vierjährigen Informatikstudium entsprechen. – Die Zahl der Arbeitslosen mit einem IT-Beruf ist gegenüber dem Vorjahr um fünf Prozent gesunken auf 26.300. Mit einer Arbeitslosenquote von rund 3 Prozent fällt sie gering aus. – In den letzten Jahren steigen die Absolventen- und die Studienanfängerzahlen. – Insgesamt verzeichnete der Studienbereich Informatik im Studienjahr 2014/15 rund 194.000 Studierende. Das waren sieben Prozent mehr als im Jahr zuvor.
Folge, dass die aktuellen Angaben zu Berufen nicht mit den Jahren vor 2012 vergleichbar sind. Allgemeine Aussagen zur Beschäftigungsentwicklung in ITBerufen sind jedoch auf Grundlage Informatik_Spektrum_40_5_2017
479
{ FORUM / DER ARBEITSMARKT FÜR IT-FACHLEUTE IN DEUTSCHLAND
ren ist damit kleiner als in anderen Berufsgruppen.
Geringer Frauenanteil
Abb. 1 Sozialversicherungspflichtig beschäftigte IT-Fachleute nach Berufsabschluss und Tätigkeitsschwerpunkt Bestand und Anteile in Prozent (30. Juni 2016)
der ,,alten“ Klassifikation bis zum Jahr 2011 möglich: Nach der Jahrtausendwende führte der Zusammenbruch der ,,New Economy“ zu einer Stagnation der Beschäftigtenzahl. Seit 2005 nimmt die Zahl der in Deutschland beschäftigten IT-Fachleute wieder kontinuierlich zu. Selbst im Krisenjahr 2009 gab es gegenüber dem Vorjahr ein Beschäftigungsplus, ein Trend, der bis heute ungebrochen ist. Im Zehn-Jahresvergleich waren 2011 (für das letztmalig Zahlen der ,,alten“ Klassifikation vorliegen) gut 100.000 oder knapp ein Viertel mehr Informatiker in Deutschland sozialversicherungspflichtig beschäftigt als im Jahr 2001.
Weitreichende Aufgabenfelder Fast jeder dritte der 716.000 sozialversicherungspflichtig IT-Beschäftigten konzipiert, erstellt, installiert, betreut oder erforscht Hard- und Software-Lösungen oder komplexe IT-Systeme (Abb. 1). Typische Ausbildungen in diesem Feld sind beispielsweise Fachinformatiker/in, Informatiktechniker/in, Informati-
480
Informatik_Spektrum_40_5_2017
ker/in (Hochschule) – allgemeine oder angewandte Informatik oder Wirtschaftsinformatiker/in. Gut jeder Vierte hat seinen Tätigkeitsschwerpunkt in der Softwareentwicklung und Programmierung. Für etwas mehr als jeden Fünften stehen Aufgaben wie die IT-Systemanalyse, die Beratung von Anwendern oder der Vertrieb von IT-Produkten im Vordergrund. Ein weiteres gutes Fünftel der IT-ler ist tätig in der Netzwerktechnik, Koordination, Organisation, System- und Webadministration oder in der Datenbankentwicklung und -administration. Gut drei Prozent der IT-Beschäftigten sind ausschließlich als Führungskräfte tätig.1
Anteilig viele junge Beschäftigte IT-Fachkräfte sind, statistisch gesehen, eine junge Berufsgruppe. So sind neun von zehn Beschäftigten jünger als 55 Jahre. Im Durchschnitt aller Berufe sind von zehn Beschäftigten nur acht Personen unter 55. Der allein durch Ruhestandseintritte bedingte Ersatzbedarf in den nächsten Jah-
Der Frauenanteil unter den ITBeschäftigten fiel 2016 mit 16 Prozent nach wie vor sehr mager aus. Zum Vergleich: über alle Berufe gesehen machen die Frauen 46 Prozent aus. Der aktuelle Anteil der weiblichen IT-Nachwuchskräfte lässt für die nächsten Jahre nur wenig Veränderung erwarten: 2015 waren beispielsweise nur sieben Prozent der 29.000 Auszubildenden für den dualen Ausbildungsberuf Fachinformatiker/in Frauen.2 Immerhin ist bei den Studierenden im Studienbereich Informatik der Frauenanteil etwas im Steigen begriffen und lag zuletzt bei 20 Prozent (+1 Prozentpunkt gegenüber Vorjahr).3
In allen Wirtschaftszweigen vertreten Mehr als zwei Fünftel der Informatikfachkräfte sind in Firmen tätig, deren Schwerpunkt auf der Erbringung von Dienstleistungen der Informationstechnologie liegt (Abb. 2). Die weiteren Fachkräfte sind in IT-Abteilungen von Unternehmen anderer Wirtschaftszweige angestellt. Hierzu zählen insbesondere Unternehmensberatungen und -verwaltungen (7 Prozent), der Großhandel (4 Prozent), Hersteller von IT-Produkten, elektronischen und optischen Geräten (4 Prozent) sowie Ministerien, Ämter, die Sozialversicherungen und die Bundeswehr (3 Prozent). Hinzu kommt als wichtige Beschäftigungsbranche für IT-ler der Maschinenbau (3 Pro-
2
Quelle: BiBB, Datenbank DAZUBI, Datenstand Oktober 2016. Quelle: Statistisches Bundesamt, Studierende im Wintersemester 2015/16 ohne Lehrämter.
3 1 Über
alle Aufgabenfelder betrachtet.
Abb. 2 Sozialversicherungspflichtig beschäftigte IT-Fachleute nach Wirtschaftsabteilungen Bestand und Anteile in Prozent (30. Juni 2016)
zent). Beschäftigungsanteile von jeweils rund zwei Prozent finden sich im Verlagswesen, bei Autoherstellern und -zulieferern, im Einzelhandel, in Architektur- und Ingenieurbüros oder bei Finanzdienstleistern. Auch darüber hinaus gibt es wohl kaum einen Wirtschaftszweig, der heutzutage ohne Informatiker auskommt. So verteilen sich die weiteren IT-Beschäftigten zu kleineren Anteilen auf fast alle weiteren Wirtschaftszweige in Deutschland.
Regionale Konzentration auf Großstädte Es verwundert nicht, dass sich der Hauptteil der IT-Arbeitsplätze in den Ballungszentren München, Berlin, Hamburg, Stuttgart und Frankfurt befindet, in denen zusammen gut ein Viertel der ITBeschäftigten Deutschlands arbeiten (Abb. 3). Bezogen auf die jeweilige Gesamtbeschäftigtenzahl in den Regionen gibt es außerdem sehr viele IT-Fachkräfte in den Bezirken der Arbeitsagenturen Heidelberg,
Abb. 3 Sozialversicherungspflichtig beschäftigte IT-Fachleute, Bestand und Veränderung in Prozent Deutschland nach Agenturbezirken (31. März 2016)
Fürth, Bad Homburg, Nürnberg, Wiesbaden, Karlsruhe-Rastatt und Düsseldorf. Von 2013 bis 20164 ist die Zahl der IT-Beschäftigten in Deutschland insgesamt um fast 82.000 gestiegen. Knapp ein Drittel des Zuwachses entfällt auf die genannten Beschäftigungshochburgen München, Hamburg, Berlin, Stuttgart und Frankfurt. In insgesamt 20 Agenturbezirken stieg die Zahl der IT-Beschäftigten um mindestens ein Fünftel. Prozentual am stärksten hat sich dabei die Zahl der IT-Arbeitsplätze in Schwandorf, Flensburg, Deggendorf, Ludwigsburg, Fürth und Greifswald erhöht. Hier waren Zuwächse von einem Viertel bis zu einem Drittel zu verzeichnen. Nur in wenigen Regionen, überwiegend Ostdeutschlands, waren leichte Beschäftigungsrückgänge zu verzeichnen.
Acht Prozent ausländische Fachkräfte, Tendenz steigend Deutschland ist auch für ausländische IT-Arbeitskräfte ein attraktiver Standort. Rund 58.000 IT-Kräfte – acht Prozent aller sozialversicherungspflichtig beschäftigten IT-ler – wiesen 2016 eine ausländische Staatsangehörigkeit auf. Ihre Zahl ist prozentual deutlich gewachsen. Während die Zahl der deutschen IT-Kräfte gegenüber dem Vorjahr um 3 Prozent zugenommen hat, legte die Zahl der ausländischen IT-ler um 13 Prozent zu. Am stärksten stieg dabei vor allem die Zahl von IT-Fachkräften aus Indien, aus der Russischen Föderation und aus der Ukraine. Absolut
4 Die Beschäftigtendaten nach Agenturbezirken beziehen sich jeweils auf den 31. März, weil die Angaben zum 30. Juni 2016 aufgrund von technischen Problemen unterzeichnet sind.
Informatik_Spektrum_40_5_2017
481
{ FORUM / DER ARBEITSMARKT FÜR IT-FACHLEUTE IN DEUTSCHLAND
Entwicklung der Arbeitskräftenachfrage Zahl der gemeldeten Stellen auf Höchstniveau
Abb. 4 Sozialversicherungspflichtig beschäftigte IT-Fachleute nach Staatsangehörigkeiten (30. Juni 2016)
betrachtet fällt jedoch der Zuwachs mit insgesamt knapp 7.000 ausländischen Beschäftigten überschaubar aus. Die Zahl der deutschen IT-ler erhöhte sich im gleichen Zeitraum um 22.000. Knapp jede zweite ausländische IT-Fachkraft stammt aus einem Land der Europäischen Union (Abb. 4). Die am häufigsten vertretenen EU-Nationalitäten sind Italien und Spanien, gefolgt von Frankreich, Österreich, dem Vereinigten Königreich und Polen. Den jungen EU-Beitrittsstaaten Rumänien, Bulgarien und Kroatien gehörten rund 4.500 in Deutschland tätige Informatiker an. Größere Beschäftigungsgruppen außerhalb der EU bildeten 2016 vor allem rund 6.600 Fachleute aus Indien und jeweils rund 3.000 Beschäftigte aus Russland und aus der Türkei. Weitere nennenswert vertretene Herkunftsländer waren die Ukraine, die Balkanstaaten und die USA. Dazu kamen rund 1.800 Personen, die die Staatsangehörigkeit eines nichteuropäischen Asylzugangslandes besaßen.5 Die Zahl dieser 5 Asylbewerber
und Flüchtlinge können in den Arbeitsmarktstatistiken nicht direkt erkannt werden. Es können
482
Informatik_Spektrum_40_5_2017
Menschen ist im Zusammenhang mit der aktuellen Fluchtmigration prozentual stark gewachsen, nämlich um 42 Prozent im Vergleich zum Vorjahr. In absoluten Zahlen entspricht dies einem Zuwachs von rund 500 ITFachleuten, nachdem es Jahr zuvor einen Anstieg von 200 Beschäftigten gegeben hatte.
Rund 90.000 Selbständige Rund 90.000 IT-Fachleute waren 2015 als Selbständige tätig.6 Die Mehrzahl – rund 67.000 – erbrachte ihre Dienstleistungen ohne eigene Mitarbeiter, zum Beispiel als Freelancer, während etwa jeder vierte Selbständige weitere Arbeitnehmer angestellt hatte. Tätigkeitsschwerpunkte lagen beispielsweise in der IT-Anwendungsberatung sowie in der Softwareentwicklung und Programmierung. aber hilfsweise Auswertungen nach der Staatsangehörigkeit vorgenommen werden. Dazu wurde das Aggregat ,,Personen mit einer Staatsangehörigkeit aus einem der zugangsstärksten Herkunftsländern von Asylbewerbern“ oder kurz ,,Asylherkunftsländer“ gebildet. In das Aggregat wurden die nichteuropäischen Länder aufgenommen, die in den letzten Jahren zu den Ländern mit den meisten Asylanträgen gehörten; es umfasst folgende acht Länder: Afghanistan, Eritrea, Irak, Iran, Nigeria, Pakistan, Somalia und Syrien. 6 Quelle: Statistisches Bundesamt, Mikrozensus.
Jahresdurchschnittlich hatte die Bundesagentur für Arbeit 2016 rund 13.500 Jobangebote für IT-Kräfte im Bestand. Das waren 19 Prozent mehr als im Vorjahr und gleichzeitig der höchste Stand seit 2007; für frühere Jahre liegen keine vergleichbaren Angaben vor. Die Neuzugänge gemeldeter Stellen, die mehr über die Dynamik der Nachfrage aussagen, beliefen sich 2016 auf fast 42.000 Arbeitsstellen – ebenfalls die höchste Zahl an Stellenmeldungen seit 2007 (Abb. 5). Von den knapp 42.000 Stellenmeldungen im Jahr 2016 richtete sich der größte Teil an Experten, deren Qualifikation einem mindestens vierjährigen Studium entspricht (46 Prozent).7 Nicht ganz jedes dritte Stellenangebot wandte sich an Spezialisten, die über ein Anforderungsprofil verfügen, das üblicherweise durch eine Weiterbildung oder eine dreijährige Hochschulausbildung (wie z. B. ein Bachelorstudium) erworben wird.8 Jede vierte bis fünfte Stelle sollte mit einer Fachkraft mit Berufsausbildung besetzt werden.9
Wenige Befristungen Im Vergleich zum Durchschnitt aller Berufe fällt bei Stellenangeboten für Informatiker ein geringer Anteil an Befristungen auf. So wurde 2016 bei 89 Prozent der gemeldeten Stellen für IT-ler ein unbefristeter Arbeitsvertrag angeboten. Bei den Angeboten für akademische 7
Anforderungsniveau 4 – Experte (KldB 2010). Anforderungsniveau 3 – Spezialist (KldB 2010). 9 Anforderungsniveau 2 – Fachkraft (Klassifikation der Berufe 2010 – KldB 2010). 8
Tage länger als durchschnittlich bei Experten. Damit waren Stellen für IT-ler deutlich länger unbesetzt als Stellenangebote in anderen Berufsgruppen (Abb. 6). Tendenziell haben sich die Vakanzzeiten in den letzten Jahren deutlich erhöht. 2016 zeigt sich erstmals wieder eine merkliche Verringerung. Es bleibt jedoch abzuwarten, ob sich diese Entwicklung verstetigt oder ob es sich nur um ein vorübergehendes Phänomen handelt.
Punktueller Fachkräftemangel
Abb. 5 Gemeldete Arbeitsstellen für IT-Fachleute Jahresdurchschnittsbestand und Jahressumme an Zugängen
IT-Experten liegt der Anteil sogar noch leicht höher bei 91 Prozent. Zum Vergleich: Bei allen gemeldeten Arbeitsstellen sind 82 Prozent unbefristet, bei allen akademischen Experten 74 Prozent.
Viele Stellenmeldungen von IT-Unternehmen, aber auch aus dem öffentlichen Dienst Der mit Abstand größte Anteil der Stellenangebote für IT-Fachleute kam mit 32 Prozent von Unternehmen der IT-Branche. Jeweils sechs Prozent der Stellen wurden von Unternehmensberatungen und -zentralen sowie der öffentlichen Verwaltung gemeldet. Von Arbeitgebern im Groß- und Einzelhandel wurden vier Prozent gemeldet; von Herstellern von elektronischen und elektrischen Produkten, von Bildungseinrichtungen, einschließlich der Hochschulen, sowie von Architektur- und Ingenieurbüros kamen jeweils drei Prozent der Offerten. Knapp jede fünfte Stellenmeldung stammte von einem Zeitarbeitsunternehmen oder einer privaten Arbeitsvermittlung. Hier sind die genauen Einsatzgebiete für die gesuchten IT-Fachkräfte nicht bekannt.
Lange Vakanzzeiten Dass der Bedarf an qualifizierten IT-Fachkräften nicht immer ohne weiteres gedeckt werden kann, zeigt sich an einer langen Vakanzzeit. Diese Vakanzzeit umfasst den Zeitraum vom geplanten Besetzungstermin bis zur tatsächlichen Abmeldung des Stellenangebots bei der Bundesagentur für Arbeit. 2016 waren gemeldete Stellen für Informatiker auf Fachkraft- und SpezialistenEbene 116 Tage vakant. Das waren 17 Tage mehr als im Durchschnitt aller Berufe. Bei Experten dauerte die Stellenbesetzung 115 Tage; 26
Ein genereller Fachkräftemangel an IT-Fachleuten ist in Deutschland derzeit nicht erkennbar. Punktuelle Engpässe zeigen sich jedoch bei Softwareentwicklern, deren Kenntnisse einem mindestens vierjährigen Informatikstudium entsprechen (Experten). Hier standen 100 gemeldeten Arbeitsstellen rechnerisch lediglich 128 arbeitslose IT-Experten gegenüber. Die Vakanzzeit fiel mit 123 Tagen weit überdurchschnittlich aus. Gleichzeitig entsprach die Arbeitslosenquote mit weniger als 3 Prozent einem Stand, bei dem man üblicherweise von Vollbeschäftigung spricht. Ähnlich knapp ist die Fachkräftesi-
Abb. 6 Durchschnittliche Vakanzzeiten bei Abgang gemeldeter sozialversicherungspflichtiger Arbeitsstellen insgesamt und für IT-Fachleute (in Tagen*) Informatik_Spektrum_40_5_2017
483
{ FORUM / DER ARBEITSMARKT FÜR IT-FACHLEUTE IN DEUTSCHLAND
Abb. 7 Fachkräftemangel in der Softwareentwicklung und IT-Anwenderberatung (Expert/inn/en mit mind. vierjähriger Hochschulausbildung oder vergleichbarer Qualität)
tuation auch, wenn Experten in der IT-Anwendungsberatung gesucht wurden. Ein Mangel an hochqualifizierten Softwareentwicklern und IT-Anwendungsberatern war in nahezu allen Ländern auszumachen. Punktuell gingen die Engpässe noch darüber hinaus, so zum Beispiel in Rheinland-Pfalz, wo auch IT-Fachkräfte mit beruflicher Ausbildung knapp waren. In Hessen zeigte sich die Situation aus Arbeitgebersicht nicht ganz so angespannt – Anzeichen für Engpässe waren aber auch dort ersichtlich. In Berlin gab es keine Indizien, die für Fachkräftemangel sprechen (Abb. 7). Kein bundesweiter Fachkräftemangel ist derzeit erkennbar in der IT-Systemanalyse, im IT-Vertrieb, in der IT-Netzwerktechnik, in der ITKoordination, der IT-Administration und der IT-Organisation. Die unauffälligen Vakanzzeiten sprechen hier dafür, dass gemeldete Stellen in angemessener Zeit besetzt werden konnten.
484
Informatik_Spektrum_40_5_2017
Entwicklung der Arbeitslosigkeit Arbeitslosenzahl auf sehr geringem Niveau Die Zahl arbeitsloser IT-Kräfte ist 2016 merklich gesunken, nachdem sie in den vorangegangenen drei Jahren leicht angestiegen war. Rund 26.300 IT-Fachleute waren 2016 arbeitslos gemeldet. Gegenüber dem Vorjahr
waren dies 1.300 oder fünf Prozent weniger. Ein Rückblick auf die letzten Jahre zeigt, dass die Arbeitslosenzahl dynamisch auf das konjunkturelle Umfeld reagiert: Nach dem Zusammenbruch der ,,New Economy“ stieg die Arbeitslosigkeit im IT-Bereich stark an; bis zum Höchststand von 67.000 im Jahr 2004. Danach reduzierte sich die Arbeitslosigkeit – trotz stetig wachsender Absolventenkohorten. In den Jahren 2009 und 2010 kam es, bedingt durch die Wirtschaftskrise, zu einem leichten Anstieg der Arbeitslosigkeit. Dieser konnte in den beiden folgenden Jahren mehr als ausgeglichen werden. In den folgenden drei Jahren stieg die Zahl der arbeitslosen IT-ler leicht an, was auch auf steigende Absolventenzahlen zurückzuführen sein dürfte (Abb. 8). Da aber gleichzeitig auch die Zahl der Beschäftigten gestiegen ist, und das kräftiger als die Zahl der Arbeitslosen, ist das Niveau der Arbeitslosigkeit nach wie vor sehr gering und aktuell wieder rückläufig.
Geringe Arbeitslosenquote Fachleute mit einem Informatikberuf sind seltener arbeitslos als
Abb. 8 Durchschnittsbestand arbeitsloser IT-Fachleute
viele andere Berufsgruppen. Die Arbeitslosenquote10 betrug insgesamt etwa drei Prozent. Am niedrigsten fiel dabei mit rund zwei Prozent die Quote für die Teilgruppe der Experten mit einer vierjährigen akademischen Qualifikation oder vergleichbaren Kenntnissen aus.
Jeder Dritte hat einen Hochschulabschluss Jeder dritte arbeitslose IT-ler (33 Prozent) verfügte 2016 über einen Fachhochschul- oder Hochschulabschluss. Dementsprechend waren 31 Prozent der Arbeitslosen mit ITBerufen auf der Suche nach einer Stelle mit dem Anforderungsniveau ,,Experte“. Nicht ganz die Hälfte der Arbeitslosen (43 Prozent) suchte eine Tätigkeit mit dem Anforderungsniveau ,,Spezialist“ und jeder Vierte als ,,Fachkraft“ mit einer Berufsausbildung.11
Knapp jeder Dritte war langzeitarbeitslos 30 Prozent aller arbeitslosen Informatiker waren ein Jahr oder länger ohne Arbeit (über alle Berufe betrachtet 32 Prozent12 ). Informatiker, die eine Stelle als Experte suchten, waren weniger stark von Langzeitarbeitslosigkeit betroffen. Von ihnen waren 23 Prozent mindestens ein Jahr auf der Suche. Gegenüber dem Vorjahr ist die Zahl der langzeitarbeitslosen Informatiker um vier Prozent gesunken. 10 Die Arbeitslosenquote wird berechnet als Quotient der Zahl der Arbeitslosen, die einen IT-Beruf suchen und der Summe aus Erwerbstätigen, die einen IT-Beruf ausüben (Mikrozensus) und den Arbeitslosen. Die berufsspezifische Arbeitslosenquote ist als Schätzung zu verstehen, weil die Mikrozensusdaten auf Hochrechnungen basieren. Weitere Unschärfen können durch Spielräume bei der Zuordnung von ausgeübten Tätigkeiten bzw. Angaben zur gesuchten Tätigkeit (Arbeitslose) zur Klassifikation der Berufe entstehen. 11 Anforderungsniveaus laut Klassifikation der Berufe 2010 – siehe Ausführungen zu den gemeldeten Stellen. 12 Ohne Helfer.
Abb. 9 Studierende insgesamt und darunter 1. Fachsemester sowie bestandene Prüfungen im Studienbereich Informatik (ohne Lehramt)
Ältere überproportional arbeitslos Ein Blick auf die Altersstruktur lässt die Schlussfolgerung zu, dass es ältere Informatiker immer noch schwerer am Arbeitsmarkt haben. Rund 5.500 arbeitslose IT-Fachleute waren 2016 55 bis 64 Jahre alt. Ihre Zahl hat sich gegenüber dem Vorjahr fast nicht verändert, während im selben Zeitraum die Zahl der arbeitslosen IT-ler insgesamt um fünf Prozent abnahm. Auch die Arbeitslosenquote fiel für die Altersgruppe 55 bis 64 mit 5,4 Prozent vergleichsweise hoch aus. Jüngere haben dagegen einen besseren Stand am Arbeitsmarkt: Hier lag die entsprechende Arbeitslosenquote jeweils bei maximal 2,5 Prozent.13
Akademischer Nachwuchs in der Informatik Mehr erfolgreiche Abschlüsse Seit der Jahrtausendwende sind die Absolventenzahlen der Informatik13 Berechnung für folgende Altersgruppierungen: unter 35 Jahre, 35 bis unter 45 Jahre, 45 bis unter 55 Jahre, 55 und unter 65 Jahre. Die Altersgruppe der 65 Jahre und älter bleibt hier unberücksichtigt, da ihre Zahl aufgrund des sukzessiven Hinausschiebens der Regelaltersgrenze in der gesetztlichen Rentenversicherung zunimmt und dadurch Vorjahresvergleiche verzerrt sind.
studiengänge stetig gewachsen. Rund 24.500 Informatiker schlossen 2015 ihr Studium erfolgreich ab, neun Prozent mehr als im Vorjahr und so viele wie noch nie (Abb. 9). Die Hochschularten sind gleichmäßig in der Informatik vertreten. Mit einem Anteil von 51 Prozent hatten ein paar mehr Studierende ihre Prüfung an Fachhochschulen als an Universitäten abgelegt. Die Hälfte der Absolventen hatte Informatik ohne einen besonderen Schwerpunkt studiert; während ein knappes Drittel sich auf Wirtschaftsinformatik spezialisiert hatte. Mit weitem Abstand folgte als drittstärkstes Studienfach die Medieninformatik (9 Prozent). Der Frauenanteil lag insgesamt bei niedrigen 18 Prozent. Merklich stärker sind Informatikerinnen aber in den zahlenmäßig kleineren Studienfächern Bioinformatik (38 Prozent), Medizinische Informatik (35 Prozent), Computer- und Kommunikationstechniken (32 Prozent) und Medieninformatik (30 Prozent) vertreten. Der Anteil der Bachelorabschlüsse liegt mittlerweile bei Informatik_Spektrum_40_5_2017
485
{ FORUM / DER ARBEITSMARKT FÜR IT-FACHLEUTE IN DEUTSCHLAND
63 Prozent. Die meisten Angehörigen dieser Prüfungsgruppe treten jedoch nicht unmittelbar in das Erwerbsleben ein, da sie noch ein Masterstudium anschließen. Laut Absolventenbefragung des Hochschulinformationssystems (HIS) haben rund 62 Prozent der Informatik-Absolventen eine weitere akademische Qualifizierung angeschlossen.14 Berücksichtigt man dies, verkehrt sich das Plus bei den amtlichen Prüfungszahlen in den Jahren von 2009 bis 2012 in eine kontinuierlich rückläufige Zahl an Berufseinsteigern. Erst seit 2013 dürften wieder etwas mehr Informatikabsolventen als im jeweiligen Vorjahr neu in den Arbeitsmarkt eingetreten sein. Mit rund 15.000 Berufseinsteigern15 waren das 2015 acht Prozent mehr als im Vorjahr. Bei den kommenden Prüfungsjahrgängen dürfte sich die gestiegene Anfängerzahl in einer weiter zunehmenden Zahl junger IT-Berufseinsteiger niederschlagen. Herkömmliche Diplomabschlüsse wurden nur noch von 4 Prozent der Prüflinge erworben. Dafür hat sich der Masteranteil auf 28 Prozent erhöht. Bachelor-Prüflinge waren im Durchschnitt 23,9 Jahre alt, Masterabsolventen 26,3 Jahre. Der Promotion kommt in der Informatik eine eher nachgeordnete Bedeutung zu. Immerhin rund 1.100 Promotionsabschlüsse wurden aber 2015 erreicht. Die Promotionsintensität16 – errechnet als Relation zwischen den Promotionen im Jahr 2015 und den durchschnitt14 Quelle:
HIS – Hochschulinformationssystem ,,Übergang vom Bachelor- zum Masterstudium“, 2012 – Weitere acht Prozent planten noch später ein Masterstudium zu absolvieren. 15 Absolventen mit Diplomabschluss, Master- oder Promotionsabschluss sowie 38 % der Absolventen mit Bachelorabschluss. 16 Eigene Berechnungen auf Basis der Hochschulstatistik des Statistischen Bundesamtes.
486
Informatik_Spektrum_40_5_2017
lichen universitären Diplom- und Masterabschlüsse der Jahre 2010 bis 2012 – lag bei 18 Prozent. Der Durchschnitt über alle Studienbereiche liegt bei 30 Prozent.17
Weiter großes Interesse an Informatikstudiengängen Die Entwicklung der Studienanfängerzahlen ist eng verknüpft mit der wirtschaftlichen Entwicklung der Branche. Zur Zeit des IT-Booms um die Jahrtausendwende war das Interesse an Informatikstudiengängen deutlich angestiegen. Nach dem Platzen der ,,dot-com-Blase“ entschieden sich ab 2001 Jahr für Jahr weniger junge Menschen für ein Studium der Informatik. Seit 2007 ist dieser Trend gestoppt und die Neueinschreibungen nehmen kontinuierlich zu. Sie dürften in den nächsten Jahren zu einem steten Zuwachs des Fachkräftepotenzials beitragen. Im Studienjahr 2015/16 immatrikulierten sich im Studienbereich Informatik fast 69.000 Menschen.18 Das waren sieben Prozent mehr als ein Jahr zuvor. Der Frauenanteil unter den Studienanfängern steigt seit 2007 leicht, aber kontinuierlich an. Nach 17 Prozent im Jahr 2007 betrug er 2015 immerhin 25 Prozent. Insgesamt verzeichnete der Studienbereich Informatik im Studienjahr 2015/16 rund 194.000 Studierende.19 Das waren 12.000 oder sieben Prozent mehr als im Jahr zuvor. Der Anteil der Frauen belief sich auf 20 Prozent.
Hinweise zu statistischen Angaben Allgemeines Beschrieben werden in dieser Broschüre allgemeine Entwicklungen auf 17
Eigene Berechnungen, ohne Lehramt. Studierende 1. Fachsemester, ohne Lehramt. 19 Ohne Lehramt. 18
der Grundlage von Arbeitsmarktdaten der Statistik der Bundesagentur für Arbeit und des Statistischen Bundesamtes. Statistiken beschreiben allerdings immer nur eine durchschnittliche Grundtendenz. Je nach Region, Fachrichtung und persönlicher Situation kann die erlebte Realität anders aussehen. Auch die Anforderungen und die Konzessionsbereitschaft der Unternehmen und der Bewerber/innen spielen eine wichtige Rolle; diese sind statistisch nicht abbildbar.
Angaben zu Arbeitslosen Die Angaben zu Arbeitslosen beinhalten auch Daten der Jobcenter in kommunaler Trägerschaft (,,Optionskommunen“). Außer für die Jahre 2005 und 2006, für die keine Angaben zu Arbeitslosen nach Berufen von Seite der zugelassenen kommunalen Träger vorliegen, bilden alle Angaben die registrierte Arbeitslosigkeit vollständig ab.
Berufsspezifische Arbeitslosenquoten Die berufsspezifischen Arbeitslosenquoten in dieser Broschüre sind berechnet als Zahl der Arbeitslosen, die eine entsprechende Tätigkeit als ersten Zielberuf suchen, bezogen auf die Zahl der Erwerbstätigen, die laut Mikrozensus eine Tätigkeit in diesem Beruf ausüben und die der Arbeitslosen. Die berufsbezogene Arbeitslosenquote ist als Schätzung zu verstehen, weil die verwendeten Daten aus dem Mikrozensus aus einer Stichprobe hochgerechnet sind, die auf ein Prozent der Haushalte in Deutschland zurückgeht. Weitere Unschärfen entstehen außerdem durch Spielräume bei der Zuordnung der ausgeübten Tätigkeiten (von Erwerbstätigen) bzw. Angaben zur gesuchten Tätigkeit (Arbeits-
lose) zur Klassifikation der Berufe (KldB 2010).
Angaben zu gemeldeten Arbeitsstellen Diese Daten stellen keine Vollerfassung dar, da es in Deutschland keine Meldepflicht für offene Stellen gibt, sondern die Meldung auf Freiwilligkeit beruht. Nach Untersuchungen des IAB wird knapp jede zweite Stelle des ersten Arbeitsmarktes bei der Bundesagentur für Arbeit gemeldet, bei Akademikerstellen etwa jede vierte bis fünfte. Die Meldequoten unterscheiden sich jedoch nach Branchen und Berufen. Hierüber liegen allerdings keine differenzierten Informationen vor.
Angaben zu Vakanzzeiten gemeldeter Arbeitsstellen Die abgeschlossene Vakanzzeit misst die Zeit vom gewünschten Besetzungstermin bis zur Abmeldung einer Stelle bei der Agentur für Arbeit oder dem Jobcenter. Von Engpass oder Problemen bei der Besetzung von Arbeitsstellen kann gesprochen werden, wenn die Besetzung freier Stellen deutlich länger dauert als ,,üblich“ bzw. als von den Betrieben für vertretbar gehalten wird oder wenn die Suche mangels Erfolgsaussichten ganz aufgegeben wird. Weil sich die Stellenbesetzungsprozesse von in der Zeitarbeitsbranchen deutlich sich von denen anderer Branchen unterscheiden (z. B. aufgrund des häufig kurzfristigeren und Bedarfs), werden hier die Vakanzzeiten gemeldeter Stellen ohne die gemeldeten Stellen aus der Zeitarbeit betrachtet.
Angaben zu Berufen Die Berufsaggregate in dieser Broschüre basieren auf der KldB 2010 und sind in derselben Abgrenzung sowohl für gemeldete Arbeitsstel-
len und Arbeitslose (ab dem Jahr 2007) als auch für Erwerbstätige und sozialversicherungspflichtig Beschäftigte (ab dem Jahr 2012) verfügbar. Mit früheren Veröffentlichungen auf Grundlage der Klassifikation der Berufe 1988 bzw. 1992 sind sie nicht vergleichbar. Die Zuordnung zu einem Beruf richtet sich nach der ausgeübten Tätigkeit. Diese muss nicht unbedingt dem formalen Berufsabschluss entsprechen. So wird zum Beispiel ein Erwerbstätiger mit einem Informatik-Abschluss, der als Geschäftsführer arbeitet, statistisch nicht als Informatiker ausgewiesen, sondern in der Berufsgruppe Geschäftsführung. der Abschluss einer Fachakademie oder einer Berufsakademie, der Abschluss einer Fachschule der ehemaligen DDR sowie gegebenenfalls der Bachelorabschluss an einer Hochschule. Häufig kann auch eine entsprechende Berufserfahrung und / oder informelle berufliche Ausbildung ausreichend für die Ausübung des Berufes sein. Das Anforderungsniveau 2 ,,Fachkraft“ wird üblicherweise mit dem Abschluss einer zweibis dreijährigen Berufsausbildung erreicht.
Unterschiede zwischen den Angaben zur Erwerbstätigkeit und zur sozialversicherungspflichtigen Beschäftigung In vielen Berufsgruppen gibt es große Unterschiede zwischen den Angaben zu erwerbstätigen Personen und sozialversicherungspflichtig Beschäftigten. Dies hat mehrere Gründe: – Zum einen stellt die sozialversicherungspflichtige Beschäftigung, neben zum Beispiel Selbständigkeit,
Beamtenstatus und geringfügiger Beschäftigung, eine Untergröße der Erwerbstätigkeit dar. Insoweit liegt es auf der Hand, dass die Zahl der Erwerbstätigen in der Regel höher ausfällt als die Zahl der sozialversicherungspflichtig Beschäftigten. – Zum anderen gibt es merkliche Differenzen, die auf die unterschiedlichen statistischen Erhebungsmethoden zurückzuführen sind: Während die Statistik über die Erwerbstätigkeit auf Hochrechnungen aus dem Mikrozensus beruht (Quelle: Statistisches Bundesamt), resultiert die Statistik über die sozialversicherungspflichtige Beschäftigung (Quelle: Statistik der Bundesagentur für Arbeit) aus einer Vollerhebung im Wege des Meldeverfahrens zur Sozialversicherung. – Die Ergebnisse beider Statistiken weichen darüber hinaus aufgrund von Beurteilungsspielräumen bei der Zuordnung einer ausgeübten Tätigkeit zu einem Beruf laut Klassifikation der Berufe voneinander ab. – Ein weiterer Unterschied besteht darin, dass bei der Erwerbstätigkeit Jahresdurchschnitte angegeben werden (letzte Angaben von 2015). In der Beschäftigtenstatistik wird dagegen der Stichtag 30. Juni als Jahreswert verwendet. Letzte Angaben sind hier für das Jahr 2016 verfügbar. – Gemeinsam ist beiden Darstellungen, dass die ausgeübte Tätigkeit für die Berufszuordnung entscheidend ist und nicht der formale Abschluss.
Datenrevisionen und Einschränkungen Die Auswertungsprozesse in der Statistik werden kontinuierlich weiterentwickelt. Deshalb Informatik_Spektrum_40_5_2017
487
{ FORUM / BIG DATA UND WETTBEWERBSRECHT
kann es – auch über die Klassifikationsumstellung hinaus – zu Abweichungen im Vergleich zu früheren Veröffentlichungen kommen. Aufgrund von Daten-
verarbeitungsfehlern sind zudem nach den aktuell vorliegenden Erkenntnissen die endgültigen Werte der Berichtsmonate Juni 2016 leicht untererfasst.
Big Data und Wettbewerbsrecht Ursula Sury
Ausgangslage Unter Big Data versteht man jegliche Art von Umgang mit Informationen, deren Analyse, Auswertung, Anreicherung, Aggregierung etc. Häufig wird im Rahmen von Big Data Aktivitäten der Datenschutz und somit die Zulässigkeit der Bearbeitung personenbezogener Informationen diskutiert. Betrachtet man den Inhalt von Big Data Aktivitäten, so ist dieser aber viel umfassender. Da jegliche Informationen interessant sind, werden auch Informationen über Märke und Marktteilnehmer bearbeitet, welche miteinander im Wettbewerb stehen. Somit stellen sich regelmässig, und mit Sicherheit in Zukunft immer häufiger, auch wettbewerbsrechtliche Fragen.
Wettbewerb Wettbewerb unter Unternehmen ist insbesondere dann möglich, wenn deren gegenseitiges Verhalten nicht vorhersehbar ist. Damit dem so ist, müssen bestimmte Informationen, wie insbesondere genaue Ausgestaltung der Produkte, Preise, Mengen etc. jeweils geheim sein. Auf dieser Basis und diesem Hintergrund spricht man auch von Geschäftsund Fabrikationsgeheimnissen der Unternehmen, welche zum Beispiel
488
Informatik_Spektrum_40_5_2017
durch Arbeitnehmende absolut geheim zu halten sind. Weitere Akteure werden regelmässig mit sogenannten non-disclosure agreements (NDA) verpflichtet diese Geschäfts- und Fabrikationsgeheimnisse, mit denen sie im Kontakt kommen, geheim zu halten. In diesem Sinne könnte man auch sagen, dass das Bestehen von gegenseitigen Geschäftsund Fabrikationsgeheimnissen unter Mittbewerbern die Basis für Unvorhersehbarkeit von zukünftigem Handeln und somit von freiem Wettbewerb ist.
Informationsaustausch und Wettbewerb Sobald das Verhalten eines Mittbewerbers antizipiert werden kann und somit voraussehbar ist, kann sich ein koordiniertes Verhalten ergeben, was echten Wettbewerb ausschliesst. Der Anteil von Big Data daran kann sein, dass eben über Preise auf Mengen oder über Mengen auf Preise oder über Mengen auf Strategien oder über Preise auf Strategien etc. gefolgert werden kann und somit die Antizipationsmöglichkeiten noch präziser werden.
Vertikale und horizontale Wettbewerbsabreden Aus dem schweizerische Kartellrecht geht hervor, dass sowohl horizontale als auch vertikale Abreden als Wettbewerbsabreden qualifiziert werden.
Rundungen In der Regel sind alle Angaben auf ein Vielfaches von einhundert gerundet; bei Zahlen über 10.000 auf ein Vielfaches von 1.000.
Treffen Unternehmen auf gleicher Marktstufe, d. h. direkte Konkurrenten eine Abrede, so spricht man von horizontalen Abreden. Das Gegenstück dazu bilden vertikale Abreden, bei denen Abreden zwischen Unternehmen verschiedener Marktstufen, so zum Beispiel zwischen Hersteller und Verkäufer getroffen werden. In der Praxis stellt sich die Unterscheidung der beiden Formen nicht als einfaches Unterfangen dar und ist im Hinblick auf die gesetzliche Beurteilung von grosser Bedeutung, da sich die Kriterien für die Beurteilung ihrer Zulässigkeit in vielen Punkten unterscheiden.
Plattformen Ein solcher Austausch von Informationen ergibt sich immer häufiger über Plattformen von Verbänden, die ihren Mitgliedern derselben Branche verschiedene und auch neue Dienstleistung zur Verfügung stellen, um diese für das digitale Zeitalter fit zu machen. Über diese Plattformen werden somit nebst traditionellen Unterstützungsleistungen und Informationsaustausch auch neue Serviceleistungen angeboten, welche eben zu den oben beschriebenen Auswirkungen führen können.
Praxis der Wettbewerbsbehörden und Sanktionen Das schweizerische Kartellgesetz sieht eine Vielzahlt von Sanktionen sowohl gegenüber Unternehmen als
auch gegenüber natürlichen Personen vor, welche gegen kartellrechtliche Bestimmungen verstossen. Nebst zivilrechtlichen Ansprüchen wie Beseitigung, Unterlassung, Schadenersatz und Gewinnherausgabe stehen eine Vielzahl von Verwaltungs- und Strafsanktionen zur Verfügung. Die Verwaltungssanktionen können je nach Verstoss mit einem Betrag von bis zu 10 Prozent des in den letzten drei Geschäftsjahren in der Schweiz erzielten Umsatzes geahndet werden. Bei Verstössen im Zusammenhang mit Unternehmenszusammenschlüssen ist sogar eine Sanktionierung mit einem Betrag von bis zu einer Million Franken vorgesehen. Des Weiteren können bei Wiederhandlungen gegen einvernehmliche Regelungen und behördlichen Anordnungen Strafsanktionen im Sinne einer Busse von bis zu 100’000 Franken ausgesprochen werden. In der Praxis liegt für die Unternehmen das Hauptrisiko darin, dass die Wettbewerbsbehörden, bei bestehenden Anhaltspunkten für eine unzulässige Wettbewerbsbeschränkung, eine Untersuchung gegen sie einleiten und sie damit an den Pranger gestellt werden. Zudem erheben die Wettbewerbsbehörden aufgrund der Verfügung über die Untersuchung
von Wettbewerbsbeschränkungen und der Prüfung von Unternehmenszusammenschlüssen auch noch Gebühren.
Zusammenfassung – Unter Big Data versteht man jegliche Art von Umgang mit Informationen, deren Analyse, Auswertung, Anreicherung, Aggregierung etc. – Betrachtet man den Inhalt von Big Data Aktivitäten, so stellen sich regelmässig und mit Sicherheit in Zukunft immer häufiger auch wettbewerbsrechtliche Fragen. – Das Bestehen von gegenseitigen Geschäfts- und Fabrikationsgeheimnissen unter Mittbewerbern ist die Basis für Unvorhersehbarkeit von zukünftigem Handeln und somit von freiem Wettbewerb. – Kann das Verhalten eines Mittbewerbers antizipiert werden und ist es damit auch vorhersehbar, ergibt sich unter Umständen ein koordiniertes Verhalten, was echten Wettbewerb ausschliesst. Der Anteil an Big Data kann sein, dass die Antizipationsmöglichkeiten noch präziser werden. – Die Unterscheidung von horizontalen und vertikalen Abreden ist in der Praxis nicht einfach und zudem im Hinblick auf die gesetzliche Beurtei-
IT-Security live 2017 – Diskussion aktueller Herausforderungen für das IT-Sicherheitsmanagement Im bewährten Format mit hohem Diskussionsanteil trafen sich Experten aus der Praxis des ITSicherheitsmanagements am 21. und 22. April 2017 in Herrsching am Ammersee zur siebten ,,IT-Security live“ des German Chapter of the
ACM. Vorherrschende Themen waren die Minimierung von Schäden durch Krypto-Trojaner wie WannaCry, neue Schadszenarien durch unsicheres Internet of Things, das Zusammenfließen benachbarter Themengebiete, wie Security und
lung von grosser Bedeutung, da sich die Kriterien für die Beurteilung ihrer Zulässigkeit in vielen Punkten unterscheiden. – Der Austausch von Informationen wird in der Praxis immer häufiger über Plattformen vorgenommen. Dies kann ebenfalls zur Erweiterung der Antizipationsmöglichkeiten führen und somit den Wettbewerb ausschliessen. – Es bestehen eine Vielzahl von Sanktionsmöglichkeiten. Nebst zivilrechtlichen Ansprüchen enthält das schweizerische Recht auch noch Verwaltungs- und Strafsanktionen. – Hauptrisiko für die Unternehmen besteht in der Eröffnung einer Untersuchung durch die Wettbewerbsbehörden. Zudem werden den Unternehmen bei der Eröffnung einer Untersuchung Gebühren auferlegt. Ursula Sury ist selbständige Rechtsanwältin in Luzern, Zug und Zürich (CH) und Vizedirektorin an der Hochschule Luzern – Informatik. Sie ist zudem Dozentin für Informatikrecht an verschiedenen Nachdiplomstudien. Die Autorin ist hauptsächlich im Bereich Informatikrecht und Datenschutz tätig.
Safety sowie Datensicherheit und Datenschutz. Prof. Hartmut Pohl (softcheck GmbH) betonte in seiner Anmoderation: ,,Wenn wir so weiter machen, wie bisher, können wir auf den nächsten großen Schlag warten. Wir müssen unsere Strategie fundamental ändern. Wir dürfen nicht mehr reaktiv patchen, sondern proaktiv. Dazu müssen wir Threat Modeling nach ISO 27034-1 betreiInformatik_Spektrum_40_5_2017
489
{ FORUM / IT-SECURITY LIVE 2017
ben und die installierte Software auseinander nehmen. Durch Code Reading müssen wir bislang nicht erkannte Sicherheitslücken auffinden. Wie das im Einzelnen geht zeigte Lubomir Stroetmann (softcheck GmbH) mit seinem Beitrag ,,Internet of Dangerous Things“. Beispielhaft für den Einzug neuer IoT-Geräte mit ungenügendem Sicherheitsniveau in Heim- und Unternehmensnetze zeigte er mit einem Angriff auf eine Cloud fähige Steckdose, die über eine App bedient werden kann. Die lokale Kommunikation ist schlecht verschlüsselt, eine Authentifizierung findet nicht statt und kann von Angreifern leicht übernommen werden. In der anschließenden Diskussion waren die Teilnehmer einhellig der Meinung, dass Produkte dieser Art nicht in den Handel gebracht werden dürften und dass der Gesetzgeber aktiv werden müsste. Allerdings scheint die Zeit dafür noch nicht reif zu sein. Es fehlt bei den Anwendern der Leidensdruck, der erst einsetzt, wenn großflächige Schäden eingetreten sind. Eben die Vermeidung solcher Schäden kennzeichnen die Problemstellungen, die die Deutsche Bahn AG (,,das größte Werksgelände in Deutschland mit öffentlichem Zugang“) auf dem Weg zur Digitalisierung lösen muss. Christian Schlehuber (DB Netz AG) behandelte in seinem Impulsvortrag ,,Herausforderungen der Cyber-Sicherheit in deutschen Eisenbahn-Infrastrukturen“ das Zusammenwirken von Security und Safety. Damit in Zukunft in einer neuen Stellwerksgeneration kommerziell verfügbare IoT-Komponenten für die Signaltechnik verbaut werden können, müssen die beiden Risikoklassen
490
Informatik_Spektrum_40_5_2017
Security (materielle Schäden) vs. Safety (Schäden von Leib und Leben) einzeln betrachtet und in eine schalenförmige Sicherheitsarchitektur überführt werden. Da IoT-Geräte nicht gepatcht werden können, weil sie sonst die Zulassung durch das Eisenbahnbundesamt verlieren, muss der Nachweis geführt werden, dass Sicherheitspatches keine Rückwirkungen auf die Safety haben. Mit der neuen EU-DatenschutzGrundverordnung (DSGVO), die im kommenden Jahr wirksam wird, sowie dem IT-Sicherheitsgesetz, ergeben sich neue Rahmenbedingungen für das IT-Sicherheitsmanagement in den Unternehmen. Diese Situation beleuchtete Jörg Spilker (DATEV eG) in seinem Vortrag ,,EU-Datenschutzgrundverordnung – Das Zusammenwachsen der Managementsysteme von Datenschutz und Informationssicherheit.“ Die DSGVO setzt im Wesentlichen auf den bekannten Prinzipien des deutschen Datenschutzes auf. Neu ist hingegen ein durchgängig risikoorientierter Ansatz mit entsprechender Dokumentation und Nachweisführung der risikomindernden Maßnahmen. Die klassischen Ziele der Informationssicherheit Vertraulichkeit, Integrität und Verfügbarkeit sind im Gesetz verankert. Indem die Datenschutzsichtweisen in die Risiko- und Gefährdungsanalysen aufgenommen werden, ergeben sich Synergieeffekte und Möglichkeiten, um diese beiden Bereiche zusammenzuführen. Unternehmen können prinzipiell die Umsetzung der DSGV durch entsprechende Technikgestaltung auf der Grundlage eines bereits vorhandenen ISMS unterstützen. Inwieweit die Doppelrolle Datenschutzbeauftragter / IT-Security Manager vereinbar ist, muss in Abwägung der Ziele des Unterneh-
mens gegenüber den Rechten der Betroffenen diskutiert werden. Ein heißes Eisen, auch in Bezug zum vorangegangenen Thema, fasste Dennis Pilken (FAST-DETECT GmbH) mit seinem Beitrag ,,ITForensic Readiness – Was sollten Organisationen wissen“ an. Bei der Gegenüberstellung von Theorie – was ist prinzipiell machbar und mit welchen Methoden kann ein Sicherheitsvorfall aufgeklärt werden – und Praxis bei der Realisierung im Unternehmen ergeben sich eine Fülle von Problemen und Entscheidungen, die getroffen und abgestimmt werden müssen. IT-Forensic bedeutet Spurensicherung und kann daher nicht nach einem Sicherheitsvorfall stattfinden. Es muss vorher im Detail geklärt werden, welche Informationen gesammelt werden müssen und können, damit sie gerichtsverwertbar sind, lange bevor man sie benötigt. Damit das gelingen kann, sollte man frühzeitig den Betriebsrat einbinden, Einsichtnahme vorsehen und insgesamt die Forensiker in das Incident Management Team integrieren. Anhand eines Fallbeispiels – Angriff eines Innentäters, der zum Ausfall von Produktionsanlagen führte – konnte im Vortrag die Komplexität forensischer Aufklärung vor Augen geführt werden. Da Innentäter mehr Zugriffsrechte haben als externe Täter, können sie ihren Angriff besser verschleiern und Spuren leichter verwischen. Im Fallbeispiel steckte die Spur tief im crash dump eines Hypervisors. Die Situationen bei Industrie 4.0 mit IoT-Geräten werden zukünftig noch komplexer sein. Wegen des immensen Datenverkehrs und schlechter Zeitzuordnung sind die Aufzeichnungen dort praktisch nicht auswertbar. Um einen Wissensvorsprung gegenüber Angreifern zu bekom-
men, setzen Unternehmen vermehrt auf Zusammenarbeit ihrer Sicherheitsabteilungen, um früh Informationen zu Schwachstellen, Incidents und Schutzmaßnahmen über Unternehmensgrenzen hinweg zu teilen und zu analysieren. Unter dem weit gefassten Begriff der ,,Threat Intelligence Sharing Plattformen“ haben kommerzielle Anbieter in den letzten Jahren begonnen, private, semi-private und öffentliche Plattformen für diesen Zweck anzubieten. Mit dieser Thematik setzte sich Christian Sillaber (Universität Innsbruck) in seinem Vortrag ,,Data Quality in Threat Intelligence Platforms – The needle in the haystack“ auseinander. Im Rahmen seiner Forschung zur effektiven Verwendung dieser Plattformen in der IT-Security und Compliance hat er die Auswahl und Einführung einer solchen
inter-organisatorischen Plattform bei großen Unternehmen aus dem Finance- und Manufacturing-Umfeld methodisch begleitet. Er zeigte, dass der Weg zu einer effektiven Nutzung noch weit ist. Die meisten derzeit kommerziell erhältlichen Threat Intelligence Sharing Plattformen sind Datenhubs und stellen kaum echte ,,Intelligence“ im eigentliche Sinn bereit. Bestehende Datenqualitätsprobleme werden durch Threat Intelligence Sharing Plattformen massiv verschärft. Damit solche Plattformen einen Nutzen für das Unternehmen bringen, müssen die unternehmensinternen Prozesse eng mit der Plattform verzahnt werden. Die Verwendung als zusätzliche (passive) Informationsquelle steht den damit verbundenen Kosten meist nicht entgegen. In der Schlussrunde betonten alle Teilnehmer den immensen
Nutzen eines solchen Tagungsformats, das viel Raum lässt für intensive Diskussionen und Wissenserwerb durch Austausch von eigenen Erfahrungen. Eine große Rolle spielte dabei auch der freundschaftliche Austausch unter Kollegen beim Rahmenprogramm. Der Dank galt allen Referenten sowie dem eingespielten Organisations- und Moderatorenteam (Hartmut Goebel, Prof. Dr. Hans-Joachim Hof, Prof. Dr. Haio Röckle, Gerhard Schimpf und Dr. Jörg Schreck), die die Tagung für das German Chapter of the ACM vorbereitet und für einen reibungslosen Ablauf gesorgt haben. Hinweise zur Tagung finden sich unter http://www.it-security-live.org. Dort wird auch der CfP für die Tagung 2018 veröffentlicht werden. Gerhard Schimpf German Chapter of the ACM
i ics hardware. More details in the paper: Rhaleb Zayer, Markus Steinberger, Hans-Peter Seidel (2017) A GPU-Adapted Structure for Unstructured Grids Comput Graph Forum 36(2):495–507
Zum Titelbild
Original mesh (right) of a figure of a dancer from 1910 (courtesy of the Smithsonian) and its dual (left) obtained through sparse matrixmatrix multiplication applied to the mesh matrix and its transpose. In this way, classical mesh data structures are avoided in favor of a lean and efficient matrix algebra flavored representation suitable for use on modern graph-
Vorschläge für Titelbilder bitte an Prof. Deussen (
[email protected])
Informatik_Spektrum_40_5_2017
491