Mit Data Train zu neuen Erkenntnissen

Sie sind heterogen, nicht immer einfach zu handhaben und sekündlich werden es mehr: Ohne Daten entsteht kein neues Wissen. Wie aber kann die Wissenschaft sie nachhaltig nutzen, aus ihnen neue, reproduzierbare Erkenntnisse gewinnen und Innovationen entwickeln? Mit „Data Train – Training in Research Data Management and Data Science“ hat die U Bremen Research Alliance ein interdisziplinäres Weiterbildungsangebot für Promovierende geschaffen, das Kompetenzen im Umgang mit Forschungsdaten und bei der Datenwertschöpfung vermittelt.

Von Rainer Busch

01. Jun 2021

Beispielbild Data Train
Daten, Daten, nichts als Daten: Auffindbar, zugänglich, interoperabel und wiederverwendbar sollen sie sein.   © Jens Lehmkühler / U Bremen Research Alliance

Katharina Friz hat sich Einiges vorgenommen. Gleich mit drei Krisen in 29 Ländern beschäftigt sich die Wirtschaftswissenschaftlerin: der Finanzkrise 2008 / 2009, der Krim-Krise 2015 und der latent schwelenden Umweltkrise. Welche wirtschaftlichen Auswirkungen haben diese Krisen insbesondere auf das Innovationsverhalten von Unternehmen in Russland, aber auch in den anderen Transformationsländern? Also in denjenigen Staaten in Mittel- und Osteuropa sowie in Asien, die einst zum Einflussbereich der Sowjetunion gehörten und den Übergang von der Zentralverwaltungswirtschaft in eine marktwirtschaftliche Wirtschaftsordnung erlebten? Das untersucht die 27-Jährige in ihrer Doktorarbeit an der Universität Bremen.

„Ich arbeite empirisch“, sagt Katharina Friz. Daten bilden die Basis für ihre Promotion. Sie stammen etwa von der Europäischen Bank für Wiederaufbau und Entwicklung oder auch von dem russischen Umfrageinstitut Levada. Es handelt sich um Word-, Excel- und PDF-Dateien oder einfach nur um Zahlenreihen, die sie mithilfe einer Statistiksoftware auswertet. „Sobald man in die Datenwelt eintaucht, merkt man, wie groß sie eigentlich ist, und dann kann es schnell kompliziert werden“, erzählt sie. Wie kommt man an die richtigen Daten? Wie wertet man sie aus? Wie verlässlich sind sie? Wie verwaltet man sie nachhaltig? Das seien Fragen, die sie in ihrem Wissenschaftsalltag beschäftigen.

„Sobald man in die Datenwelt eintaucht, merkt man, wie groß sie eigentlich ist, und dann kann es schnell kompliziert werden."

Logo Data Train
Data Train - Training in Research Data Managment and Data Science   © U Bremen Research Alliance

Um sie besser beantworten zu können, um sich mit anderen Promovierenden auszutauschen und über den Tellerrand der eigenen Disziplin zu blicken, nimmt die wissenschaftliche Mitarbeiterin in der Arbeitsgruppe von Prof. Dr. Jutta Günther an Data Train teil. Dieses Programm hat die U Bremen Research Alliance mit Unterstützung des Landes Bremen ins Leben gerufen. „Forschende aller Fachrichtungen brauchen grundlegende Kenntnisse im Umgang mit den Daten. Mit Data Train wollen wir den Teilnehmenden ein fundiertes Wissen vermitteln“, sagt Prof. Dr. Iris Pigeot, stellvertretende Vorsitzende der U Bremen Research Alliance und Initiatorin des Angebots.

Das Management von Daten ist von zunehmender Relevanz. Immer mehr, mehr, mehr Daten werden produziert. In jeder Sekunde werden 9000 Tweets versendet, 1000 Fotos auf Instagram gepostet, sammeln Sensoren zum Beispiel Bewegungs-, Umwelt- und Gesundheitsdaten. Von jetzt 64 auf 175 Zettabyte im Jahr 2025 wächst der Datenberg, wird geschätzt, wobei ein Zettabyte eine Zahl mit einundzwanzig Nullen ist.

Nicht alle, aber viele dieser Daten haben für die Wissenschaft einen enormen Wert. So leistet etwa die Verknüpfung von GPS-Daten, die von Handys erzeugt werden, mit Gesundheitsdaten einen wertvollen Beitrag zur Bekämpfung der Corona-Pandemie. Wer die Techniken des Forschungsdatenmanagements und Data-Science-Anwendungen beherrscht, hat einen Vorsprung nicht nur in der wissenschaftlichen Arbeit bei der Suche nach Innovationen und neuen Erkenntnissen. Diese Fähigkeiten sind auch außerhalb der Universitäten und Forschungsinstitute enorm gefragt. Die Wirtschaft sucht händeringend Menschen mit Datenkompetenzen.

Dabei muss man nicht zwangsweise Expertin oder Experte für komplexe Methoden der Datenanalyse sein und die Programmierung von Algorithmen oder maschinelles Lernen beherrschen, obwohl auch diese Themen Bestandteil des Ausbildungsprogramms sind. „Das Gute an dem Angebot ist, dass es flexibel ist. Die Teilnehmenden können nach ihren Bedürfnissen Schwerpunkte setzen, auch gezielt nur einzelne Kurse besuchen und es lässt sich gut in die Arbeit für die Promotion integrieren“, sagt Katharina Friz.

„Zusätzlich zu den Kursen wollen wir den Teilnehmenden eine Plattform für Austausch und Vernetzung zur Verfügung stellen."

Drei interdisziplinäre Abschnitte, die ineinander übergehen, umfasst Data Train. Den Auftakt macht der „Starter Track“: interaktive, zweistündige Online-Vorlesungen zu grundlegenden Themen wie Data Science, Big Data, Datenmanagement und -sicherheit. Es folgt der „Operator Track Data Steward“, in dem es in mehrtägigen Hands-on-Workshops um das Dokumentieren, Verwalten, Vorprozessieren und Harmonisieren von Daten geht. Im letzten Abschnitt, dem „Operator Track Data Scientist“, geht es schließlich um die Vermittlung umfassender Methoden aus der Mathematik, Statistik und Informatik zur Datenauswertung wie maschinelles Lernen oder auch die Visualisierung von Daten.

„Zusätzlich zu den Kursen wollen wir den Teilnehmenden eine Plattform für Austausch und Vernetzung zur Verfügung stellen“, erläutert Dr. Tanja Hörner, die Programmkoordinatorin. „Außerdem bieten wir inspirierende Vorträge über Daten aus Wirtschaft, Gesellschaft sowie allen Bereichen der Wissenschaft und werden digitale Aus- und Weiterbildungsmaterialien zur Verfügung stellen.“ Ein gutes Dreivierteljahr dauert das Programm, das im März 2021 begonnen hat. Ist ein Abschnitt, genannt Track, abgeschlossen, er halten die Teilnehmenden einen Nachweis über alle absolvierten Kurse. Im Frühjahr 2022 startet dann ein neuer Durchgang.

Ein zentraler Bestandteil der Ausbildung ist die Vermittlung der FAIR-Prinzipien: Findable, Accessible, Interoperable und Reusable – also auffindbar, zugänglich, interoperabel und wiederverwendbar – müssen die Daten sein. Das hört sich einfacher an, als es ist. Denn die Daten sind äußerst heterogen und es gilt, gemäß den rechtlichen und ethischen Rahmenbedingungen zu handeln. Dabei kann es sich um Fotos handeln, um Text- oder Audiodateien, um Filme, Zahlen oder Tabellen in den unterschiedlichsten Formaten.

„Jeder spricht über Daten, aber es sind die Metadaten, auf die es ankommt“, betont Prof. Dr. Frank Oliver Glöckner. Der Professor für Erdsystem-Datenwissenschaften am Fachbereich Geowissenschaften der Universität Bremen und Leiter des Bereichs Daten am Rechen- und Datenzentrum des Alfred-Wegener- Institutes in Bremerhaven ist einer der Architekten des Programms – ebenso wie Prof. Dr. Rolf Drechsler, Sprecher des Data Science Centers der Universität Bremen. Insgesamt engagieren sich mehrere Dutzend Forschende aus der U Bremen Research Alliance für Data Train und vermitteln in den Kursen ihr Wissen – ohne zusätzliche Entlohnung übrigens. Auch allianz- externe Forschungseinrichtungen und Wirtschafts- unternehmen unterstützen Data Train mit Beiträgen.

Doch zurück zu den Metadaten: Das sind Informationen, die eine Datei beschreiben – im Falle eines Fotos etwa, wer es wann, wo und mit welcher Blende aufgenommen hat und was darauf zu sehen ist. Im Falle eines Buches ist das der Name der Autorin oder des Autors, die Auflage, das Erscheinungsjahr, der Verlag und die ISBN. Metadaten beschreiben also einen Datensatz. „Sie müssen wie gesagt den FAIR-Datengrundsätzen entsprechen, maschinenlesbar und interpretierbar sein“, sagt Glöckner.

„Für mich wäre es schön gewesen, wenn es das Angebot schon zu Beginn meiner Promotion gegeben hätte."

Katharina Friz hat ihre ersten Veranstaltungen im „Starter Track“ absolviert, sie hat sie als bereichernd empfunden. Darunter ist auch eine Vorlesung von Philosophie-Professor Dr. Dr. Norman Sieroka zum kritischen Denken im Umgang mit Daten gewesen. „Das war mal ein ganz anderer, sehr lehrreicher Blickwinkel.“ Spätestens Ende des Jahres wird die Nachwuchswissenschaftlerin ihre Promotion abgeschlossen haben, gerade in der Schlussphase gibt es viel zu tun. Ob sie Data Train bis zum Ende absolviert, ob sie auch beim Data Steward und Data Scientist dabei sein wird, weiß sie noch nicht. „Für mich“, sagt sie, „wäre es schön gewesen, wenn es das Angebot schon zu Beginn meiner Promotion gegeben hätte.“

www.uni-bremen.de/data-train

Daten-Metropole Bremen

Für neue wissenschaftliche Erkenntnisse und Innovationen in Forschung und Gesellschaft ist der systematische, nachhaltige Zugang zu digitalisierten Datenbeständen unverzichtbar. Die an verschiedenen Stellen auf unterschiedliche Weise gesammelten Daten müssen so verfügbar gemacht werden, dass sie auch für Dritte leicht und geordnet auffindbar sind und über die Grenzen einzelner Datenbanken, Fachdisziplinen und Länder hinweg analysiert und verknüpft werden können.

Um dies zu erreichen, hat die Bundesregierung den Aufbau einer Nationalen Forschungsdateninfrastruktur (NFDI) beschlossen. 90 Millionen Euro stellen Bund und Länder im Zeitraum bis 2028 zur Verfügung. In drei Ausschreibungsrunden sollen bis zu 30 Konsortien gebildet werden. Gleich an vier der ersten neun Konsortien sind Mitgliedseinrichtungen der U Bremen Research Alliance führend beteiligt, und zwar für die Bereiche Biodiversitätsforschung, Gesundheit, Ingenieurswesen, Sozial- und Wirtschaftswissenschaften. Darüber hinaus agiert das Data Science Center der Universität Bremen als zentraler Knotenpunkt für datengetriebene Forschung, für alle Fragestellungen in Bezug auf Data Science und fördert die interdisziplinäre Zusammenarbeit.