Direkt zum Inhalt

FAIR-Prinzipien bei Forschungs- und Metadaten

Warum sie für die Gesundheitsforschung der Zukunft wegweisend sind

1. Definition: Die FAIR-Prinzipien einfach erklärt

Die sogenannten FAIR-Prinzipien wurden erstmals 2016 in einem Nature-Artikel veröffentlicht [1], werden seitdem von der „GO FAIR“-Initiative vorangetrieben und sind bereits für zahlreiche Forschungseinrichtungen weltweit Standard.

Dabei handelt es sich um ein aus vier Grundsätzen bestehendes Konzept, das den Austausch und die Wiederverwendbarkeit von Forschungsdaten fördern soll. „FAIR“ ist ein englisches Akronym, bei dem jeder Buchstabe für einen der vier Grundsätze steht.

Die vier Grundsätze der FAIR-Prinzipien lauten:

Abbildung der FAIR-Prinzipien
Die FAIR-Prinzipien

F steht für Findable, A für Accessible, I für Interoperable und R für Reusable. Den FAIR-Prinzipien zufolge sollten die Forschungsdaten also auffindbar, zugänglich, interoperabel und wiederverwendbar sein.

2017 hat die Europäische Kommission die FAIR-Prinzipien in ihre Förderrichtlinien („EU Horizon 2020“) aufgenommen. Wird ein Antrag für dieses Förderprogramm gestellt, ist die Anwendung der Prinzipien somit verpflichtend.

Weitere Institutionen, die eine Förderung an die Umsetzung der FAIR-Prinzipien knüpfen, finden Sie hier.

Um die Notwendig- und Sinnhaftigkeit dieses Ansatzes besser nachvollziehen zu können, lohnt der Blick aufs Detail:

2. Die Kriterien der FAIR-Data-Prinzipien

Um die FAIR-Prinzipien in Gänze verstehen zu können, ist es wichtig, sich zuvor kurz die Begriffe „Metadaten“ und „Identifier“ klarzumachen:

Metadaten sind strukturierte Informationen über Forschungsdaten und können beispielsweise der Name von Autor:innen, des Projekts oder der untersuchten Stichprobe sowie andere Angaben hierzu sein.


Bei den sogenannten Identifiern (oder auch Identifikatoren) handelt es sich um eine eindeutige Zeichenfolge – ähnlich einem URL-Link –, die direkt einer digitalen Ressource zugeordnet ist. Die in der Gesundheitsforschung genutzten Identifier sind dauerhaft und unabhängig vom physischen Speicherort eines Datensatzes. Das Problem von defekten Links kann so umgangen werden.

2.1. Auffindbarkeit

Unter dem Grundsatz der Auffindbarkeit („Findability“) versteht man das Zusammenspiel folgender Aspekte {7]:

  1. Eindeutige Identifizierung: (Meta-)Daten erhalten einen global eindeutigen und dauerhaften Identifier.
  2. Umfassende Beschreibung: Alle Daten werden mit detaillierten Metadaten beschrieben.
  3. Verknüpfung der Metadaten: Metadaten enthalten den Identifier der beschriebenen Daten.
  4. Durchsuchbarkeit: (Meta-)Daten werden in einem durchsuchbaren Verzeichnis registriert.

Diese Maßnahmen sorgen dafür, dass Datensätze leicht auffindbar sind, unabhängig davon, ob Wissenschaftler zuvor mit diesen Daten gearbeitet haben. Es wird transparent, welche Datensätze existieren, wo sie gespeichert sind und welche Art von Daten sie enthalten. Umfangreiche Metadaten erleichtern die Suche nach den Daten erheblich, da sie die Datensätze umfassend beschreiben und somit Forscher bei der Entscheidung unterstützen, ob die sich hinter den gefundenen Metadaten befindlichen Datensätze für die vorliegende Forschungsfrage relevant sind oder nicht.

Durch die einheitliche Kennzeichnung der Daten mit globalen Identifiern wird sichergestellt, dass alle Forscher weltweit die notwendigen Daten leicht finden und nutzen können.

2.2. Zugänglichkeit

Unter dem Grundsatz der Zugänglichkeit („Accessibility“) versteht man das Zusammenspiel folgender Aspekte [7]:

  • 1: (Meta)-Daten sind über ihren Identifier mithilfe eines standardisierten Kommunikationsprotokolls abrufbar.
    • 1.1: Das Protokoll ist offen, frei und universell implementierbar.
    • 1.2: Das Protokoll unterstützt, wo notwendig, die Authentifizierung und Rechteverwaltung. 2:
  • 2. Metadaten sind/bleiben verfügbar, auch für den Fall, dass die zugehörigen Forschungsdaten nicht mehr vorhanden sind.

Mithilfe der entsprechenden Software kann also von überall auf der Welt eingesehen werden, welche Datensätze existieren und wie es um die Zugangsrechte bestellt ist [4].

Handelt es sich beispielsweise um sensible Gesundheitsdaten, die von externen Personen nicht ohne weiteres eingesehen werden dürfen, kann das System dies anzeigen und gegebenenfalls bei der Kontaktierung helfen. Da es sich in der Gesundheitsforschung natürlich immer um ausgesprochen schützenswerte Daten handelt, ist dieser Aspekt stets von großer Bedeutung [4].

Der Vorteil der Metadaten ist, dass sie stets zugänglich sind, auch wenn die eigentlichen Forschungsdaten nicht zur Verfügung stehen. Außenstehende wissen dann zumindest grob, welche Art der Ergebnisse dort einmal bestanden haben oder sogar weiterhin – bei entsprechendem Zugriffsrecht – bestehen [4].

2.3. Interoperabilität

Der Grundsatz der Interoperabilität („Interoperability“) lässt sich am besten mit dem Zusammenspiel folgender Aspekte erklären [7].

  1. (Meta-)Daten nutzen eine formale, zugängliche, gemeinsam genutzte und breit anwendbare Sprache für die Wissensrepräsentation.
  2. (Meta-)Daten benutzten Vokabularien, welche den FAIR-Prinzipien folgen.
  3. (Meta-)Daten beinhalten qualifizierte Verweise auf andere (Meta-)Daten.

Am Ende ergibt es wenig Sinn, Forschungsdaten für einen späteren Austausch aufzubewahren, wenn diese für andere Personen schlicht nicht verständlich sind.

Dies erhält eine besondere Relevanz vor dem Hintergrund, dass zunehmend Computersysteme automatisiert Datensätze durchforsten und analysieren sollen. Die Computersysteme müssen folglich erfassen können, ob die entsprechenden Daten inhaltlich mit anderen Datensätzen kombiniert werden können.

In einer für Menschen allein nicht mehr fassbaren Datenflut ist dieses Prinzip somit unerlässlich.

2.4. Wiederverwendbarkeit

Unter dem Grundsatz der Wiederverwend- oder Nachnutzbarkeit („Reusability“) versteht man das Zusammenspiel folgender Aussagen [7]:

  • 1: (Meta-)Daten sind detailliert beschrieben und enthalten präzise, relevante Attribute.
    • 1.1: (Meta-)Daten enthalten eindeutige und zugreifbare Angaben zur Nutzungslizenz.
    • 1.2: (Meta-)Daten enthalten detaillierte Informationen über die Entstehung (Provenance).
    • 1.3: (Meta-)Daten entsprechen den fachgebietsrelevanten Community-Standards.

Damit andere Wissenschaftler:innen die Forschungsdaten zu einem späteren Zeitpunkt – und womöglich mit einer komplett anderen Forschungsfrage – wiederverwenden können, muss für sie klar verständlich sein, wie die Daten entstanden sind und welche Nutzungsbedingungen vorliegen.

Auch dies sollte bereits automatisiert für Computersysteme erfassbar sein.

3. Vorteile der FAIR-Prinzipien im Forschungsdatenmanagement

Die FAIR-Prinzipien gehen mit einer ganzen Reihe an Vorteilen einher. Zu den wichtigsten zählen Folgende.

  • Datensätze werden leichter auffindbar und gehen seltener verloren.
  • Dadurch werden auch die ursprünglichen „Erschaffer“ des Datensatzes für andere besser sichtbar.
  • Daten können erneut genutzt werden. Doppelte Erhebungen oder Mehrfacharbeit werden daher vermieden. Dies macht die Forschung effizienter.
  • Forschungsergebnisse werden durch das Teilen von zugehörigen Daten nachvollziehbarer.
  • Ist der Datensatz erst einmal für andere Wissenschaftler:innen „durchforstbar“, können diese auf neue Forschungsfragen stoßen und so zum wissenschaftlichen Fortschritt beitragen. Durch die Nachnutzung können also ganz neue Impulse für die Forschung entstehen. Zudem können bestehende Forschungsergebnisse mit weiteren  Studienergebnissen angereichert werden.
  • Auch die Sekundärforschung – also die Arbeit mit bereits vorhandenem Datenmaterial, aber häufig für andere Untersuchungszwecke – gelangt so an wesentlich größere Datensätze.

Im Wesentlichen kommt es also zu einer Transparenz- und Effizienzsteigerung.

Die folgenden Aspekte sollten dabei besondere Erwähnung finden.

3.1. Neue Erkenntnisse durch gutes Datenmanagement

H3: 3.1. Neue Erkenntnisse durch gutes Datenmanagement

Durch die Anwendung der FAIR-Prinzipien wird ein regelrechter Kulturwandel in der Forschungsgemeinschaft angestoßen, bei dem Datensilos erfolgreich aufgebrochen werden. Austausch und Handhabung von Daten werden immens vereinfacht.

Zudem ist gutes Datenmanagement keineswegs ein Selbstzweck. Es ist vielmehr das Schlüsselelement, wenn es darum geht, Wissenszuwachs und Erkenntnisgewinn systematisch zu beschleunigen.

Denn so wie Forschungsdaten bisher veröffentlicht und damit mit der Wissenschafts-Community geteilt wurden, war es nur schwer möglich, den maximalen Ertrag aus dem geleisteten Aufwand zu ziehen. Schließlich konnten nur die ursprünglichen „Datenerheber“ – meist einmalig – eine Auswertung ihrer Daten vornehmen.

Statt also – wie bisher – nur über die wichtigsten Ergebnisse der eigenen Datenauswertungen zu berichten, werden dank der FAIR-Prinzipien die weltweit erfassten Datensätze immer weiter zusammenwachsen.

Und vier Augen sehen bekanntlich mehr als zwei – Tausende dann sowieso.

3.2. Die Rolle von maschineller Datenverarbeitung

Die FAIR-Prinzipien sind auch deswegen so wegweisend, weil wir uns im Zeitalter der technologischen Transformation befinden. Die schiere Zahl an verfügbaren Daten ist für das menschliche Gehirn schlichtweg nicht mehr fassbar.

Computersysteme und KI-Algorithmen können genau diese Lücke schließen und Wissenschaftler:innen aktiv bei den Arbeitsschritten unterstützen, zu denen sie allein gar nicht mehr in der Lage wären.

Voraussetzung hierfür ist jedoch, dass die Daten – und zwar sowohl die Forschungs- als auch die Metadaten – für die Computersysteme korrekt interpretierbar sind. Ein grundlegendes Element der FAIR-Prinzipien.

4. FAIR-Prinzipien in der Deutschen Forschungsgemeinschaft (DFG)

Auch die deutsche Wissenschaft hat sich längst den FAIR-Prinzipien gegenüber geöffnet. So hat beispielsweise die Deutsche Forschungsgemeinschaft (DFG) 2019 ihre Standards „zur Sicherung guter wissenschaftlicher Praxis“ grundlegend überarbeitet.

Darin heißt es fortan: „Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrunde liegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien („Findable, Accessible, Interoperable, Re-Usable“) folgend – zugänglich in anerkannten Archiven und Repositorien.“

5. „Open Access” bei Forschungsdaten

Ein häufiges Missverständnis liegt in der Annahme, „FAIRe“ Daten entsprächen automatisch „Open Data“ – also frei verfüg- und nutzbaren Daten. Dies ist jedoch derzeit nicht der Fall [4, 11, 12].

Hintergrund sind dabei meist wirtschaftliche sowie rechtliche Gründe. Viele wissenschaftliche Institutionen wollen mit dem zögerlichen Teilen der Daten entweder einem Kontrollverlust bei der Datenverwertung oder einem erhöhten Zeitaufwand für die Aufbereitung der Daten vorbeugen [4, 11, 13].

Die aktuell teils noch gängigen Einschränkungen beim Datenzugriff sind jedoch durchaus mit den FAIR-Prinzipien vereinbar. Voraussetzung hierfür ist jedoch, dass – ganz im Sinne des Wiederverwendbarkeits-Prinzipis („R“) – die Bedingungen und Wege zum Zugang für Andere ersichtlich sind [4, 11, 13].

Dank Vorteilen wie einer deutlich erleichterten Zusammenarbeit werden „Open Access“- und „Open Data“-Ansätze jedoch immer geläufiger [4, 11].

Das Zusammenwachsen der Forschungswelt dürfte also auch nach erfolgreicher FAIR-Prinzipien-Umsetzung weiter voranschreiten.

6. FAIR-Prinzipien für eine bessere Gesundheitsforschung

Spätestens seit Beginn der Corona-Pandemie ist überdeutlich geworden, wie essenziell der globale Austausch von Daten für das Gesundheitssystem ist. Denn nur wenn wirklich alle verfügbaren Informationen in die Auswertungen einfließen, können daraus – schnellstmöglich – die richtigen Schlüsse gezogen werden [16].

Dabei stehen Wissenschaftler:innen immer wieder vor dem Dilemma, dass Gesundheitsdaten zu Recht ein höchst schützenswertes Gut sein sollten. Gleichzeitig aber „blinde Flecken“ entstehen, wenn wichtige Informationen der Forschung vorenthalten werden [16].

Die FAIR-Prinzipien bieten daher auch für die Gesundheitsforschung ein immenses Potenzial.

Ist beispielsweise die Studienpopulation einer Forschungsgruppe zu klein, um statistisch fundierte Aussagen treffen zu können, kann der globale Austausch von Daten genau den Unterschied machen. Das ist höchst relevant für Menschen mit seltenen Erkrankungen und auch für marginalisierte Minderheiten [16].

Für die personalisierte Medizin – also den Ansatz, die Gesundheit eines jeden Menschen individuell zu betrachten – ist es ebenfalls unabdingbar, über so viele Informationen wie möglich zu verfügen. So können vermeintlich unerklärliche „statistische Ausreißer“ plötzlich Sinn ergeben, wenn sie in einem größeren Datenkontext beleuchtet werden [16].

Und nicht zuletzt ist es auch im Gesundheitsbereich für den erfolgreichen Einsatz von modernen KI-Algorithmen entscheidend, dass die relevanten Datensätze leicht auffindbar, vollständig sowie – weltweit interoperabel – verwertbar sind [16].

Die FAIR-Prinzipien machen es möglich.

Die Inhalte dieses Artikels geben den aktuellen wissenschaftlichen Stand zum Zeitpunkt der Veröffentlichung wieder und wurden nach bestem Wissen und Gewissen verfasst. Dennoch kann der Artikel keine medizinische Beratung und Diagnose ersetzen. Bei Fragen wenden Sie sich an Ihren Allgemeinarzt.

Ursprünglich veröffentlicht am

FAQs

1. Was sind die FAIR-Prinzipien?

Die FAIR-Prinzipien stehen für Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Diese Grundsätze, die 2016 eingeführt wurden, sollen den Austausch und die Wiederverwendbarkeit von Forschungsdaten verbessern.

2. Warum sind die FAIR-Prinzipien wichtig für die Gesundheitsforschung?

Die FAIR-Prinzipien verbessern die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Forschungsdaten. Dadurch werden wissenschaftliche Erkenntnisse schneller und präziser gewonnen, was die Gesundheitsversorgung erheblich verbessert.

3. Bedeutet FAIR automatisch, dass alle Daten frei zugänglich sind?

Nein, FAIR bedeutet nicht automatisch, dass alle Daten frei zugänglich sind. Der Zugang zu FAIR-Daten kann durch Zugriffskontrollen eingeschränkt sein, um ethische und rechtliche Vorgaben zu erfüllen.

4. Welche Vorteile bieten die FAIR-Prinzipien?

Die FAIR-Prinzipien erleichtern die Auffindbarkeit von Datensätzen und verhindern deren Verlust. Durch die Vermeidung mehrfacher Erhebungen wird die Forschung effizienter. Forschungsergebnisse werden nachvollziehbarer, wenn die zugehörigen Daten veröffentlicht werden. Zudem können neue Forschungsfragen entdeckt und bestehende Ergebnisse durch weitere Studien ergänzt werden. Die Zusammenarbeit innerhalb und zwischen Forschungsprojekten wird dadurch erleichtert.

5. Wie tragen die FAIR-Prinzipien zur Verbesserung der Gesundheitsforschung bei?

Die Anwendung der FAIR-Prinzipien ermöglicht den globalen Austausch und die Kombination von Gesundheitsdaten. Dies ist besonders relevant für seltene Erkrankungen und die personalisierte Medizin, da größere Datenmengen zu präziseren Forschungsergebnissen führen.

6. Was sind Metadaten und Identifier?

Metadaten sind strukturierte Informationen über Forschungsdaten, wie der Name der Autoren oder der Name des Projekts. Identifier sind eindeutige Zeichenfolgen, die digitalen Ressourcen zugeordnet sind und sicherstellen, dass Daten unabhängig von ihrem physischen Speicherort auffindbar sind.

7. Wie wird die Auffindbarkeit von Daten gewährleistet?

Daten und Metadaten werden mit global eindeutigen Identifikatoren versehen und in durchsuchbaren Verzeichnissen registriert. Detaillierte Metadaten erleichtern die Suche und helfen Forschern zu entscheiden, ob ein Datensatz relevant ist.

8. Was bedeutet Zugänglichkeit in den FAIR-Prinzipien?

Zugänglichkeit bedeutet, dass Daten über standardisierte Kommunikationsprotokolle abrufbar sind, die offen, frei und universell implementierbar sind. Metadaten bleiben in der Regel verfügbar, auch wenn die eigentlichen Forschungsdaten nicht mehr existieren.

9. Was versteht man unter Interoperabilität?

Interoperabilität bedeutet, dass Daten und Metadaten eine formale, zugängliche und gemeinsame Sprache nutzen, die von verschiedenen Systemen verstanden werden kann. Dies ist wichtig für die automatisierte Datenanalyse durch Computersysteme.

10. Wie wird die Wiederverwendbarkeit der Daten sichergestellt?

Daten und Metadaten müssen detailliert beschrieben und relevante Attribute enthalten sowie Angaben zur Nutzungslizenz und zur Entstehung (Provenance). Sie müssen den Standards der jeweiligen Forschungsgemeinschaft entsprechen.

11. Gibt es Beispiele für die Umsetzung der FAIR-Prinzipien in Deutschland?

Ja, die Deutsche Forschungsgemeinschaft (DFG) hat die FAIR-Prinzipien in ihre Standards zur Sicherung guter wissenschaftlicher Praxis aufgenommen. Wissenschaftler werden ermutigt, ihre Forschungsdaten in anerkannten Archiven und Repositorien zugänglich zu machen.

12. Wie ist der Zusammenhang zwischen "Open Access" und FAIR-Daten?

FAIR bedeutet nicht automatisch "Open Access". Während die FAIR-Prinzipien den Zugang und die Nutzung von Daten erleichtern, können wirtschaftliche und rechtliche Gründe den freien Zugang einschränken. Wichtig ist, dass die Bedingungen und Wege zum Zugang klar ersichtlich sind.

Verwandte Artikel

Data4Life

Digitale Lösungen für eine gesündere Welt