Zum Hauptinhalt springen

Handlungsempfehlungen zum Umgang mit Forschungsdaten und Forschungssoftware

I. Arbeiten mit Forschungsdaten und Forschungssoftware

Die Anforderungen der guten wissenschaftlichen Praxis an redliches, methodisch korrektes, sorgfältiges, sicheres und durch gute Dokumentation nachvollziehbares Arbeiten gelten auch für den Umgang mit Forschungsdaten und Forschungssoftware. Wesentliche überfachliche Elemente des sicheren und gut dokumentierten Arbeitens sind im Folgenden aufgeführt.

Zur Planung und strukturierten Dokumentation eines Forschungsvorhabens, in welchem Daten oder Software entstehen bzw. nachgenutzt werden, wird empfohlen, Datenmanagementpläne (DMP) bzw. Softwaremanagementpläne (SMP) als Instrumente des Projekt- und Qualitätsmanagements einzusetzen und diese regelmäßig zu aktualisieren. DMP und SMP unterstützen den nachhaltigen Umgang mit Forschungsdaten bzw. wissenschaftlicher Software.

Bei Projekten, die besondere Anforderungen an die zentral betriebene Infrastruktur stellen, können die Zentralen Einrichtungen die Vorlage eines DMP bzw. SMP fordern.

Die Universität Potsdam empfiehlt ebenfalls die detaillierte Beschreibung des geplanten Forschungsprozesses und der Forschungsmethoden (vgl. Open Methods, Open-Science-Leitlinien[i]). Der geplante Forschungsprozess inklusive der Forschungsfragen, Forschungsmethoden sowie der Datenerhebung, -verarbeitung und -analyse können beispielsweise in einer Studien-Präregistrierung veröffentlicht werden. Dies trägt zu verbesserter Transparenz, Nachvollziehbarkeit und Reproduzierbarkeit bei.

Projektleitungen wird empfohlen, Ressourcen für das Daten- bzw. Softwaremanagement (z. B. Kosten für Personal, benötigte Hard- und Software, Nutzungs- und Lizenzgebühren, etc.) bereits bei der Erstellung von Förderanträgen zu berücksichtigen.

(1) Datenauswahl. Es wird empfohlen, frühzeitig festzulegen, welche Daten veröffentlicht bzw. archiviert und welche weiterhin bei den Forschenden gespeichert werden. Dabei ist es sinnvoll, Haltefristen zu definieren. Nicht mehr benötigte, weder veröffentlichungs- noch archivwürdige Daten sollten regelmäßig gelöscht werden. Insbesondere gilt für Forschungsdaten, die auf eine bestimmte oder bestimmbare Person bezogen werden können, der Grundsatz der Speicherbegrenzung: Die Speicherung ist nur so lange zulässig, wie für den jeweiligen Zweck erforderlich. Die Daten sind zu anonymisieren, sobald dies nach dem Forschungszweck möglich ist.[ii] Sollte Anonymisierung nicht möglich sein, ist zumindest Pseudonymisierung geboten.

(2) Softwareauswahl. Es wird empfohlen, frühzeitig festzulegen, welche Forschungssoftware bzw. welcher Code wiederverwendet oder neu erstellt und welcher veröffentlicht bzw. archiviert wird. Die Auswahl zur Publikation und/oder Archivierung kann nach verschiedenen Kategorien geschehen, z. B. Skripte, die zur Durchführung von Analysen in wissenschaftlicher Software geschrieben wurden, Skripte für die Ausführung von Workflows, Software zur Implementierung eines neuen Algorithmus oder Software mit fortlaufendem Wert für die Forschung.

(3) Rechteinhaberschaft von Daten. Forschungsdaten fallen oft nicht unter das Urheberrecht oder verwandte Schutzrechte, in bestimmten Fällen können aber auch mehrere Rechte entstehen, die ggf. verschiedenen Personen zukommen. Inhaberschaft und Nutzungsrechte an Forschungsdaten sind deswegen vielfach unklar, was ihre Nachnutzung einschränken kann. Es wird daher empfohlen, zu jedem Vorhaben mit mehreren Beteiligten die Rechteinhaberschaft, die Absicht zur Datenveröffentlichung und das gegenseitige Einräumen der relevanten Nutzungsrechte frühzeitig zu dokumentieren.

(4) Rechteinhaberschaft von Software. Computerprogramme und Software sind urheberrechtlich geschützt. Durch Lizenzverträge und Softwarelizenzen können Rechte zur Nutzung der Software an andere übertragen werden. Der Urheberrechtsschutz bleibt trotz Übertragung erhalten. Freizügige Open-Source-Lizenzen sind beispielsweise die MIT-Lizenz (https://mit-license.org/) oder die Apache-Lizenz (https://www.apache.org/licenses/LICENSE-2.0.html).

(5) Einhaltung ethischer Standards. Ethische Standards für Forschungsvorhaben sind einzuhalten. Die strukturierte Aufbereitung und Verfügbarmachung von Forschungsergebnissen soll im Sinne der guten wissenschaftlichen Praxis die Berücksichtigung disziplinspezifischer forschungsethischer Aspekte gewährleisten, wie etwa die Wahrung von Persönlichkeitsrechten. Darüber hinaus sind ggf. disziplinspezifische Ethikrichtlinien oder die CARE-Prinzipien (Collective Benefit, Authority to Control, Responsibility and Ethics)[iii] zu beachten. In bestimmten Fällen kann die Einbeziehung der Ethik-Kommission angemessen sein.

(6) Sichere Speicherung. Datenverlust ist durch Einsatz geeigneter Speicherdienste bzw. Speichermedien und angemessenes Back-up vorzubeugen. Dies gilt ebenfalls für erzeugte Forschungssoftware und Analyseskripte. Die Nutzung von hochschul- bzw. wissenschaftseigenen Speicherdiensten (vgl. Open Infrastructure, Open-Science-Leitlinien) wird empfohlen, von der Nutzung lokaler Speichermedien und kommerzieller Speicherdienste als Privatkund*in wird abgeraten. In vielen Fällen ist die Nutzung eines Versionierungsdienstes sinnvoll. Das notwendige Maß an Datensicherheit ist durch geeignete technische und organisatorische Maßnahmen sicherzustellen, z. B. durch Zugangsbeschränkungen oder die Pseudonymisierung von personenbezogenen Daten, die nicht anonymisiert werden können. Die Leitlinie zur Informationssicherheit ist zu berücksichtigen.[iv]

(7) Dokumentation und Einsatz von Standards. Für die Bereitstellung und Nachnutzbarkeit von Forschungsdaten bzw. Forschungssoftware und die Reproduzierbarkeit von Forschungsergebnissen ist es notwendig, den Entstehungskontext und die benutzten Werkzeuge zu dokumentieren (vgl. Open Methods, Open-Science-Leitlinien). 7.1 Forschungsdaten. Im Sinne von Interoperabilität und langfristiger Lesbarkeit wird empfohlen, freie Standard-Datenformate zu nutzen. Im Sinne der Nachvollziehbarkeit wird die frühzeitige Festlegung und Dokumentation von Konventionen für Dateibenennung und Ordnerhierarchien, die Nutzung von – wenn möglich, fachspezifischen – Metadatenstandards und die Erfassung relevanter Metadaten bereits ab Beginn des Forschungsprozesses empfohlen.

7.2 Forschungssoftware. Im Sinne von Interoperabilität sollte Forschungssoftware mit weiterer Software Daten oder Metadaten austauschen können, z. B. über ein Application Programming Interface (API).  Im Sinne der Nachvollziehbarkeit werden eine Dokumentation und Nutzung softwarespezifischer Metadaten sowie eine Versionierung empfohlen.

II. Veröffentlichung und Zitation von Forschungsdaten und -software

Die Regelungen der guten wissenschaftlichen Praxis zum Publizieren gelten sinngemäß auch für Daten- und Softwareveröffentlichungen. Forschungsdaten und -software, die eine wesentliche Grundlage veröffentlichter Erkenntnisse bilden, sollen zeitnah zugänglich gemacht und mit der Textpublikation verknüpft werden.

Forschungsdaten und -software mit hohem Nachnutzungspotenzial sollen unabhängig von ihrer Verwendung für eine Textpublikation qualitätsgesichert veröffentlicht werden. Zur Verbesserung der Nachvollziehbarkeit und zur Anerkennung der zugrunde liegenden Leistung der Datenerzeuger*innen sollen nachgenutzte Forschungsdaten und Forschungssoftware zitiert werden. 

Nach Möglichkeit sollen Text-, Daten- und Softwarepublikationen als Open-Access-Publikationen veröffentlicht werden, um den unbeschränkten und kostenfreien Zugang zu wissenschaftlichen Publikationen zu gewährleisten (vgl. Open Access, Open-Science-Leitlinien).

Unzulässig sind die Beschränkung der Veröffentlichung auf Daten, welche die Hypothese der Autor*innen stützen, die Fragmentierung von Daten- und Softwareveröffentlichungen mit dem Ziel, die Anzahl der Publikationen zu erhöhen, und die Mehrfachpublikation ohne Offenlegung der Vorveröffentlichung. Bei der Veröffentlichung und Zitation von Forschungsdaten und -software sollen folgende Punkte beachtet werden:

(1) Ort der Veröffentlichung. Zur Veröffentlichung sollen vorrangig etablierte fach-, datentyp- oder softwarespezifische Repositorien und Datenzentren genutzt werden. Für Forschungsdaten kommen auch Datenbanken in Frage. Es sollen Infrastrukturen genutzt werden, in denen die Daten oder Forschungssoftware eigenständig, d. h. unabhängig von einer Textpublikation, gehalten werden und referenzierbar sind.

(2) Aufbereitung und Verfügbarkeit.

2.1 Aufbereitung und Verfügbarkeit von Forschungsdaten. Forschungsdaten sollen in einer Verarbeitungsstufe (Rohdaten oder bereits weiter strukturierte Daten) zugänglich gemacht werden, die die Nachvollziehbarkeit der Forschungsergebnisse sowie eine sinnvolle Nachnutzung durch Dritte ermöglicht. Es wird empfohlen, bei der Aufbereitung der Daten und bei der Auswahl des Veröffentlichungsortes konsequent die FAIR-Prinzipien für Daten zu beachten, gemäß derer die Forschungsdaten auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und nachnutzbar (Reusable) aufbereitet und aufbewahrt werden.[v] Im Kern stellen die vier Prinzipien folgende Anforderungen:

a. Auffindbarkeit: Die Daten sind ausreichend mit relevanten Metadaten beschrieben und werden durch ein eindeutiges persistentes Identifikationsmerkmal (z. B. einen DOI) referenziert.

b. Zugänglichkeit: Die Daten sind für Menschen und Maschinen lesbar und werden in einem vertrauenswürdigen Repositorium vorgehalten.

c. Interoperabilität: Die Metadaten nutzen ein formalisiertes, frei verfügbares, weit verbreitetes und inhaltlich passendes Vokabular zur Wissensrepräsentation.

d. Nachnutzbarkeit: Die Daten stehen unter einer eindeutigen Lizenz zur Verfügung, enthalten korrekte Angaben zur Provenienz und sind nachvollziehbar dokumentiert.[vi]

2.2 Aufbereitung und Verfügbarkeit von Forschungssoftware. Selbst programmierte Forschungssoftware soll durch Publikation des Quellcodes öffentlich zugänglich gemacht werden. Der Quellcode von öffentlich zugänglicher Forschungssoftware soll über einen persistenten Identifikator auffindbar, zitierbar und nachvollziehbar dokumentiert sein.[vii]

Es wird empfohlen, bei der Aufbereitung der Forschungssoftware und bei der Auswahl des Veröffentlichungsortes konsequent die FAIR-Prinzipien für Forschungssoftware zu beachten, gemäß derer die Forschungssoftware auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und nachnutzbar (Reusable) aufbereitet und aufbewahrt werden.[viii] Im Kern stellen die vier Prinzipien folgende Anforderungen:

a. Auffindbarkeit: Die Forschungssoftware ist für Mensch und Maschine auffindbar. Sie ist ausreichend mit relevanten Metadaten beschrieben, ist versioniert und wird durch ein eindeutiges persistentes Identifikationsmerkmal (z. B. einen DOI) referenziert.

b. Zugänglichkeit: Die Forschungssoftware ist für Mensch und Maschine über offene, freie Kommunikationsprotokolle zugänglich. Metadaten bleiben verfügbar, auch wenn die Forschungssoftware nicht mehr zugänglich ist.

c. Interoperabilität: Die Forschungssoftware kann Daten oder Metadaten mit weiterer Software austauschen, z. B. über ein Application Programming Interface (API).

d. Nachnutzbarkeit: Die Forschungssoftware ist sowohl ausführbar als auch nachnutzbar (nachvollziehbar, modifizierbar, integrierbar). Sie steht unter einer eindeutigen Lizenz zur Verfügung und enthält korrekte Angaben zur Provenienz.

(3) Autor*innenschaft: Autor*in ist, wer einen genuinen, nachvollziehbaren Beitrag zu dem Inhalt einer wissenschaftlichen Daten- oder Softwareveröffentlichung leistet. Ein solcher Beitrag liegt insbesondere bei wissenschaftserheblicher Mitwirkung an der Erarbeitung, Erhebung, Beschaffung oder Bereitstellung der Daten, der Software oder der Quellen vor.[ix]

(4) Freie Lizenzierung und offener Zugang. Forschungsdaten und -software sollen unter etablierten, standardisierten und möglichst freien Lizenzen zur Verfügung gestellt werden. Auch Zugangsbedingungen und ggf. Embargoperioden sollen nach dem Prinzip „so offen wie möglich, so geschlossen wie nötig“ gestaltet werden. Bei der Lizenzierung bieten die folgenden Punkte konkrete Orientierung:

a. Lizenzierung und Attribution: Die Pflicht zur Attribution nachgenutzter wissenschaftlicher Leistungen ergibt sich aus der guten wissenschaftlichen Praxis. Lizenzen und Freigaben für Daten und Software, die eine Nennung der Autor*innen nicht vertraglich vorschreiben, entbinden nicht von dieser Pflicht. Die bevorzugte Möglichkeit, Daten- und Softwarezitation zu fördern, ist nicht die Vergabe einer restriktiven Lizenz, sondern die Angabe einer Zitationsempfehlung.

b. Öffentliche Forschungsdaten: Für Forschungsdaten, die öffentlich zugänglich gemacht werden, haben sich Creative-Commons-Lizenzen etabliert. Lizenzen können nur von Rechteinhaber*innen vergeben werden. Die Universität Potsdam empfiehlt Creative-Commons-Lizenzen für Forschungsdaten.  Beispiele für empfohlene Creative-Commons-Lizenzen sind:

  • CC0 („Creative Commons Zero 1.0 Universal“): Daten werden als rechtefrei gekennzeichnet. Die Daten dürfen ohne Namensnennung der ursprünglichen Autor*innen vervielfältigt, verändert und weiterverbreitet werden, auch zu kommerziellen Zwecken.
  • CC BY 4.0 („Namensnennung 4.0 International“): Die Namen der ursprünglichen Autor*innen müssen genannt werden, die Daten dürfen vervielfältigt, verändert und weiterverbreitet werden.

Weniger empfohlen werden Creative-Commons-Lizenzen mit Bedingungen, die über das Element „Namensnennung“ hinausgehen, da diese aufgrund der strengen formalen Anforderungen an Urheber- und Rechteangaben die Nachnutzung einschränken, z. B. CC BY-NC („noncommercial use“: nur nicht-kommerzielle Nutzung), CC BY-SA („share alike“: Weitergabe nur unter gleichen Bedingungen) oder CC BY-ND („no derivatives“: keine Bearbeitung möglich).

Weitere Informationen zu Creative-Commons-Lizenzen sind unter https://creativecommons.org/ abrufbar.

c. Beschränkt zugängliche Forschungsdaten: Die Lizenzierung von Forschungsdaten, zu denen nur beschränkter Zugang gewährt werden kann, soll in Absprache mit dem zuständigen Datenzentrum unter Nutzung der dort üblichen Lizenzen erfolgen.

d. Forschungssoftware: Die Universität Potsdam empfiehlt möglichst offene Lizenzen für Software-Publikationen. Etablierte freie Softwarelizenzen sind beispielsweise die MIT-Lizenz, die BSD-Lizenz oder die GNU General Public Licence.

Unterstützung bei der Wahl einer geeigneten Softwarelizenz bietet die Website https://choosealicense.com/. Nachgenutzte Software von Dritten kann die zu vergebenden Lizenzen einschränken.

(5) Publikationsnachweis. Qualitätsgesicherte, von der jeweiligen Fachcommunity anerkannte und eigenständig referenzierbare Daten- und Softwareveröffentlichungen von Mitgliedern und Angehörigen der Universität Potsdam sollen von den Autor*innen an die Universitätsbibliothek gemeldet werden, damit sie im Publikationsnachweis der Universität geführt werden können.

(6) Zitation. Wo sich zur Zitation von Daten oder Software noch keine fachspezifischen Standards etabliert haben und keine Vorgaben des Publikationsorgans vorhanden sind, empfiehlt die Universität Potsdam die folgende Zitationsweise.

6.1 Zitation von Forschungsdaten. Zur Orientierung bei der Zitation von Forschungsdaten können die Data Citation Principles der Data Citation Synthesis Group von FORCE11 dienen.[x]

6.2 Zitation von Forschungssoftware. Zur Orientierung bei der Zitation von Software können die Software Citation Principles der Software Citation Working Group von FORCE11 dienen.[xi]

III. Verträge und Kooperationen

(1) Bei der Verhandlung von Förderverträgen, insbesondere bei privater Förderung, Kooperationsverträgen und Lizenzverträgen, sollen Mitglieder und Angehörige der Universität Potsdam die Grundsätze der Forschungsdaten- und Forschungssoftware-Policy der Universität Potsdam, insbesondere in Bezug auf Offenheit und Nachnutzbarkeit von Forschungsdaten und -software, so weit wie möglich berücksichtigen. Bei der Übertragung von Nachnutzungs-, Veröffentlichungs- und Verwertungsrechten soll darauf geachtet werden, dass die Daten oder die Forschungssoftware für wissenschaftliche Zwecke frei verfügbar bleiben, insbesondere sollen kommerziellen Akteur*innen keine ausschließlichen Rechte eingeräumt werden.

(2) Einrichtungsübergreifende Forschungskooperationen sollen sich an der Forschungsdaten- und Forschungssoftware-Policy der Universität Potsdam orientieren, soweit die anderen Beteiligten keine gleichwertigen oder strengeren Vorgaben vereinbaren. Strukturierte Projektverbünde sollen im Rahmen ihrer Governance frühzeitig klare und verbindliche Regelungen zum gemeinsamen Forschungsdaten- bzw. -softwaremanagement sowie zur Offenheit und Nachnutzbarkeit ihres Forschungsoutputs treffen.

IV. Institutionelle Verantwortung

(1) Den Fakultäten wird empfohlen zu prüfen, ob Qualifikationsarbeiten in Zukunft Aussagen zur Datenverfügbarkeit (data availability statements) bzw. zur Verfügbarkeit von Forschungssoftware enthalten sollen und ggf. eine Regelung mit geeignetem Grad an Verbindlichkeit zu treffen.

(2) Den Studienkommissionen wird empfohlen, die Curricula auf angemessene Berücksichtigung des praktischen Umgangs mit Forschungsdaten und -software als übergreifenden Studieninhalt bereits im grundständigen Studium zu überprüfen und ggf. für eine stärkere Berücksichtigung zu sorgen.

(3) Sofern dies notwendig ist, um die institutionelle Archivierung von Forschungsdaten bzw. -software an der Universität Potsdam zu ermöglichen, benennen die Bereiche Verantwortliche.

 


[i] Universität Potsdam (2023). Open-Science-Leitlinien der Universität Potsdam. https://doi.org/10.25932/publishup-59489

[ii] Dazu sind mindestens alle direkt identifizierenden Merkmale zu entfernen bzw. der im Rahmen der Pseudonymisierung erstellte Personenschlüssel zu vernichten. Weitere Maßnahmen können erforderlich sein. Daten sind erst dann anonym, wenn „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren Person zugeordnet werden können“ (§ 3 BbgDSG).

[iii]Carroll, S. R. et al. (2020). The CARE Principles for Indigenous Data Governance. Data Science Journal, 19(1), 43. doi.org/10.5334/dsj-2020-043

[iv] Universität Potsdam (2023). Leitlinie zur Informationssicherheit der Universität Potsdam. https://www.uni-potsdam.de/fileadmin/projects/ambek/Amtliche_Bekanntmachungen/2023/Ausgabe_12/ambek-2023-12-587-588.pdf [Zuletzt abgerufen am 29.08.2025]

[v]Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18

[vi]Ligue des Bibliothèques Européennes de Recherche (2017). Implementing FAIR Data Principles: The Role of Libraries. libereurope.eu/wp-content/uploads/2020/09/LIBER-FAIR-Data.pdf[Zuletzt abgerufen am 29.08.2025]

[vii] In der Softwareentwicklung übliche Versionierungsdienste bzw. Repositorien erfüllen diese Voraussetzungen meist nicht, da sie weder eine Bestandsgarantie noch persistente Identifikatoren (wie DOIs) bieten. Die zu zitierenden Versionen (Releases) der Software sollten daher zusätzlich in einem geeigneten wissenschaftlichen Repositorium abgelegt werden. Bei GitHub ist dies über eine Schnittstelle sehr einfach möglich: https://guides.github.com/activities/citable-code/ [Zuletzt abgerufen am 29.08.2025]

[viii]Chue Hong, N. P. et al. (2022). FAIR Principles for Research Software (FAIR4RS Principles) (1.0). https://doi.org/10.15497/RDA00068

[ix] Wann ein Beitrag genuin, nachvollziehbar und wissenschaftserheblich ist, hängt von dem jeweiligen Fachgebiet ab. Im Rahmen der disziplinspezifischen Publikationskultur ist es möglich, dass sich die Autor*innen einer Textpublikation von den Autor*innen der Publikationen der Daten und Software, die der Textpublikation zugrunde liegen, unterscheiden.

[x]Data Citation Synthesis Group (2014). Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11. doi.org/10.25490/a97f-egyk

[xi]Smith, A. M. et al. (2016). Software citation principles. PeerJ Computer Science, 2:e86 https://doi.org/10.7717/peerj-cs.86