Kategorie Innovation & Technologie - 15. Januar 2016

Schatzsuche im Datenberg

Die Presse: Data Mining bedeutet wörtlich übersetzt Daten-Bergbau. Inwieweit ist Ihre Arbeit eine Schatzsuche?

Claudia Plant:Sehr stark, weil heutzutage immer mehr Daten erfasst werden, egal in welchem Lebensbereich – sei es in der Gesundheit oder auch, wenn man mit dem Smartphone unterwegs ist. Überall, wo man sich bewegt, hat man Möglichkeiten, Daten zu erheben. Sehr viele dieser Daten sind aber nicht nützlich. Es geht darum, aus dem großen Datenberg die wenigen Schätze zu heben, die für eine bestimmte Frage wirklich sinnvoll sind.

Wo sind Erkenntnisse schon im Alltag angekommen?

Etwa, wenn man bei Verdacht auf Alzheimer Gehirnscans macht, oder Beobachtungen von Angehörigen dazu sammelt, wie sich der Mensch im Alltag verhält. Das passiert bereits. Das Potenzial der vielen verschiedenen Datenquellen wird dabei noch längst nicht voll ausgeschöpft, nicht nur in der Diagnostik. Überhaupt ist den Menschen oft gar nicht bewusst, wie viele Daten vorliegen.

Wie findet man in diesem riesigen Datenberg die viel zitierte Nadel im Heuhaufen, also wirklich relevante Informationen?

Da gibt es verschiedene Ansätze. Ich clustere zum Beispiel Informationen, teile die Daten in verschiedene Gruppen ein. Das ist eine Fähigkeit, die der Mensch ganz natürlich perfekt beherrscht. Zeigt man kleinen Kindern Bilder von Pferden und Menschen, können sie diese unterscheiden. Auch wenn sie das Wort dafür noch gar nicht kennen, macht das Gehirn automatisch eine Kategorisierung. Es erkennt Gemeinsamkeiten und Unterschiede von Objekten. Clustering ist der Fachbegriff für Algorithmen, also Anweisungen, durch die der Computer das automatisch machen kann. Bei Millionen von Daten lässt sich das ja nicht manuell machen.

Gibt es für diese auch als Big Data bezeichneten Datenmassen schon die passenden statistischen Werkzeuge?

Das ist zum Teil offene Forschung. Grundsätzlich setzen wir Werkzeuge aus der Statistik und der Mathematik ein, um Muster oder Modelle zu entwickeln. Um diese anzuwenden, brauchen wir aktive Informatikforschung.

Der Datenberg wächst aber doch weit schneller als die Menge an Informationen, die sich herausfiltern lässt . . .

Ja, und damit ergeben sich ständig neue Herausforderungen. Wir können schon jetzt sehr viele Informationen in Echtzeit, also quasi „live“, gewinnen, brauchen aber noch schnellere Verfahren. Schon jetzt können wir mit relativ einfachen Verfahren viel Information aus Daten gewinnen. In der Forschung arbeiten wir an mächtigeren Verfahren und versprechen uns davon noch mehr Einsichten.

Verstehen Sie, dass sich viele Menschen fürchten, wenn Daten immer mehr über sie verraten?

Datenschutz und Privatheit sind ganz wichtige Themen. Es gilt, in der Zukunft gemeinsam mit Ethikern zu überlegen, was wir mit Daten machen dürfen. Zwar geben Personen ihr Einverständnis für Auswertungen, die heute Stand der Technik sind. Aber in ein paar Jahren können wir vielleicht noch ganz andere Zusammenhänge finden. Und damit wären die Personen eventuell gar nicht einverstanden.

Ein Beispiel?

Durch die Neurobildgebung kann man schon heute Personen aus Gehirnscans identifizieren. Man kann eine Gesichtsrekonstruktion machen und mit ziemlicher Sicherheit Rückschlüsse auf die Identität ziehen. Es geht heute vieles, was man noch vor einigen Jahren nicht für möglich gehalten hätte, und so wird es wohl auch weitergehen.

„Big Data without big theory is big shit“, heißt es. Was entgegnen Sie?

Ohne eine gute Theorie als Basis nach Zusammenhängen zu suchen ist schlecht, keine Frage. Es ist ganz wichtig, die Möglichkeiten und die Grenzen der Modelle, die man nutzt, zu kennen. Nichtsdestotrotz, ich sage: „Big Data, big Opportunities“. Vieles wird noch gar nicht voll ausgenutzt. Die Technologien verändern Unternehmen schon jetzt und werden das auch in Zukunft – vielleicht auf eine Art und Weise, die wir uns heute noch gar nicht vorstellen können. In der Wissenschaft wird Data Science bereits als nächstes Paradigma gehandelt.

Oft wird kritisiert, dass aus Zusammenhängen Schlüsse gezogen werden, die sich statistisch eigentlich nicht ziehen lassen.

Das ist ein häufiges Problem. Unser Gehirn spielt uns da manchmal einen Streich. Wir sehen gerne Zusammenhänge, weil das eine Art und Weise ist, wie wir unsere Welt begreifen und Dinge einordenbar machen. Da hilft nur eine sehr enge Kommunikation mit dem Anwender, der mit den Ergebnissen nicht alleingelassen werden darf. Es braucht Experten, die die Möglichkeiten, aber auch die Grenzen der Verfahren erklären. Das verhindert, dass zu weit reichende Schlüsse gezogen werden.

Was müssen diese „digitalen Goldgräber“ können?

Sie brauchen erstens Fähigkeiten aus der Informatik, müssen etwa sehr gut programmieren können. Zweitens brauchen sie eine solide Statistik-Ausbildung und sollten mit mathematischen Methoden vertraut sein. Und drittens müssen sie kommunikativ sein und sich in viele verschiedene Bereiche hineindenken können. Denn Datenwissenschaftler arbeiten mit Experten aus ganz unterschiedlichen Disziplinen. Ich habe zum Beispiel immer eng mit Neurowissenschaftlern zusammengearbeitet, aber auch mit Umweltsystemwissenschaftlern ein Projekt gemacht, bei dem es um Hochwasserrückhalteräume ging.

Der Bereich boomt, gibt es bereits einen Mangel an Experten?

Ja, die Aussichten für Absolventen in der Wirtschaft sind zurzeit glänzend. Auch ich hätte gerne manche meiner Leute aus München als Post-Docs mit nach Wien genommen. Allerdings sind die Angebote aus der Wirtschaft sehr attraktiv, es gibt spannende Aufgaben und deutlich mehr Gehalt.

Was wollten Sie eigentlich als Kind werden? Data Mining war ja damals noch kein Thema . . .

Zuerst Tierärztin und später Psychologin. Auf Umwegen bin ich dann in die Informatik gekommen und habe gemerkt, dass mir das gefällt. Da habe ich gedacht: Das will ich machen.

(Von Alice Grancy, Die Presse)

INFObox: Claudia Plant ist eine der Rednerinnen beim vom Technologieministerium mitveranstalteten Jahresopening der Österreichischen Computer Gesellschaft am Dienstag, 19. Jänner, ab 16 Uhr, in Wien (1., Wollzeile 1). Die Teilnahme ist kostenlos, Anmeldung bis 18. Jänner unter www.ocg.at/opening.

Claudia Plant, geboren 1975 in München, befasst sich damit, wie sich aus großen Datenmengen Wissen gewinnen lässt. Nach Auslandsaufenthalten in Singapur und den USA leitete die Informatikerin zuletzt eine Forschungsgruppe am Helmholtz-Zentrum an der TU München. Seit Jänner 2016 ist sie als erste Professorin für Data Mining an der Uni Wien tätig. In ihrer Forschung will sie Verfahren entwickeln, die die Lebensqualität der Menschen verbessern.