Big Data in der Biologie - die Herausforderungen

Do, 25.04.2019 - 12:03 — Redaktion

Mit Hilfe neuester Technologien ist es möglich geworden biologische Vorgänge in Zellen, Organen und Organismen experimentell im Detail zu erfassen. Daraus resultieren immer größer werdende Datensätze - Big Data. Deren Verfügbarkeit und Nutzbarmachung kann viele Disziplinen der Lebenswissenschaften umgestalten und neue Wege der Forschung eröffnen. Big Data werfen aber auch grundlegende, wissenschaftstheoretische Fragen auf: Was ist beispielsweise ein guter Datensatz, und wie kann aus Big Data verlässliches Wissen extrahiert werden? Um solche und andere Fragen zu beantworten, bedarf es einer Kooperation zwischen Biologen, Datenwissenschaftlern und Wissenschaftstheoretikern.*

Bereits seit langem sind die Lebenswissenschaften mit großen Datenmengen umgegangen; die neuen experimentellen Möglichkeiten haben nun aber die Datenmengen, die gespeichert und analysiert werden müssen, enorm gesteigert. Zwar hat sich auch die den Forschern zur Verfügung stehende Rechnerleistung mit der Zeit verbessert, doch Menge und Heterogenität der Daten schlagen üblicherweise mehr zu Buche als vorhandene Strategien und Mittel zur Datenerhebung und - Analyse. Abbildung 1.

Abbildung 1. Das Wachstum von Datenmengen zu Big Data . Diese sind charakterisiert durch das Daten-Volumen (die Menge an erzeugten und gespeicherten Messdaten), die Varietät der Daten und die Geschwindigkeit ihrer Generierung und Prozessierung (Bild von Redn. eingefügt. Quelle: Wikipedia;Ender005 CC BY-SA 4.0)

Das derzeit nutzbare Datenvolumen, insbesondere in den Bereichen "Omics" (Genomis, Proteomics, etc., Anm. Redn.) wirft zudem grundlegende Fragen zum Forschungsprozess auf, etwa welche Rolle hier die Theorie spielt, welche Bedeutung Zusammenhängen beigemessen wird und welchen Zweck das Know-how bei der Interpretation der Daten hat.

Beispielsweise gibt es eine breite Debatte darüber, in welchem Umfang Wissenschaftler mit den Protokollen und Instrumenten vertraut sein müssen, die zur Generierung der Daten verwendet werden, und auch mit der relevanten Biologie von untersuchten Organismen, um Daten interpretieren zu können. Ebenfalls umstritten ist das Ausmaß, in dem Algorithmen kausale Zusammenhänge in Daten zuverlässig identifizieren können: entdeckt man, dass ein bestimmter Genpfad häufig mit einem bestimmten phänotypischen Merkmal verbunden ist, bedeutet das noch lange nicht nicht, dass man versteht warum dies der Fall ist und ob das Gen kausal den Phänotyp verursacht.

Es gibt viele andere Fragen, die für Wissenschaftstheoretiker von Interesse sind:

Verlässt man sich auf Big Data, wie ändert dies die gesamte Idee der biologischen Entdeckung und was zählt dann als biologisches Wissen?
Welche Rolle spielen Theorien in der datenintensiven Forschung und in welcher Relation steht Big Data-Biologie zu Hypothesen gesteuerter Forschung, die beobachtet und untersucht?
Wie beeinflusst die automatisierte Datenanalyse die Zuverlässigkeit der Ergebnisse?
Was ist der Unterschied zwischen Daten und statistischem Rauschen und was sind Daten überhaupt?

Biologen denken vielleicht, dass solche Fragen zwar interessant und wichtig sind, mit ihrem Arbeitsalltag aber kaum zu tun haben, für diesen wohl irrelevant sind.

Der folgende Text möchte dieser Ansicht entgegenwirken und einige der wichtigsten Herausforderungen in der Verwendung von Big Data in der Biologie herausstreichen.

Big Data-Biologie trifft auf biologischen Pluralismus

Die Biologie ist bekanntermaßen nach ihren Methoden, Instrumentarium, Konzepten und Zielen in Bereiche unterteilt. Selbst innerhalb ein und desselben Teilbereichs widersprechen sich aber unterschiedliche Arbeitsgruppen häufig hinsichtlich der bevorzugten Terminologie, der Modellorganismen und der experimentellen Methoden und Protokolle. Folglich kann sich ein Begriff auf verschiedene Vorgänge beziehen, aber es können auch unterschiedliche Definitionen für denselben Begriff gelten. Diese tiefgreifende Fragmentierung, die Philosophen als Pluralismus bezeichnen, spiegelt sich in den zahlreichen und Bereichs-spezifischen Standards wider, mit denen Daten generiert, gespeichert, gemeinsam genutzt und analysiert werden.

Wege zur Bekämpfung des Pluralismus zu finden, ist eine der größten Herausforderungen für die Big Data-Biologie.

Man kann diese Schwierigkeiten leicht als rein technische Fragen abtun, die man überwinden kann, indem man beispielsweise kompatible Datenbanken und Dateiformate verwendet, um Daten aus unterschiedlichen Quellen zu integrieren, sodass sie bei einer Vielzahl von Forschungskontexten verwendet und wiederverwendet werden können.

Es gibt jedoch tiefere konzeptionelle und philosophische Schwierigkeiten.

Zugriff auf Big Data

Auf Datenbanken muss über ein gemeinsames Abfragesystem zugegriffen werden. Dies wirft die Frage auf, welche Terminologien verwendet werden sollten, um die Daten zu klassifizieren und mit anderen Daten zu integrieren. Welche Auswirkungen hat eine solche Auswahl? Der beträchtliche Arbeitsaufwand bei der Entwicklung verlässlicher Abfragesysteme für biologische Datenbanken spricht für die Schwierigkeit dieser Aufgabe: Diese Schwierigkeit zeigt sich auch in den lebhaften Debatten über die Definitionen von Begriffen wie "Pathogen" und "Metabolismus" in der Gene Ontology - Datenbank (http://geneontology.org/; The Gene Ontology Consortium, 2019).

Die Auswirkungen auf die Big-Data-Biologie sind erheblich. Das computergestützte Data-Mining (Datenschürfen) von Big Data ist keineswegs „das Ende der Theorie“, sondern beinhaltet erhebliche theoretische Zugeständnisse. Die Auswahl und Definition von Schlüsselwörtern, die zum Klassifizieren und Abrufen von Daten verwendet werden, sind für die nachfolgende Interpretation enorm wichtig. Das Verknüpfen verschiedener Datensätze bedeutet, über die Konzepte zu entscheiden, durch welche die Natur am besten dargestellt und untersucht wird. Mit anderen Worten, die Netzwerke der Konzepte, die mit Daten in Infrastrukturen von Big-Data-verbunden sind, sollten als Theorien betrachtet werden: als Sichtweisen auf die biologische Welt, die wissenschaftliches Denken und Forschungsrichtungen leiten, die aber häufig überarbeitet werden, um neue Entdeckungen zu berücksichtigen. Die Suche nach Datenintegration im großen Maßstab macht es für alle biologischen Disziplinen erforderlich, solche Theorien zu identifizieren und deren Auswirkungen für die Modellierung und Analyse von Big Data zu diskutieren.

Klassifizierungen und Terminologien

Philosophen haben lange die theoretische Bedeutung von Praktiken zu Klassifizierungen und Bezeichnungen in der Biologie diskutiert - oft in Zusammenarbeit mit Taxonomen und gelegentlich mit Molekular- und Entwicklungsbiologen. Beispielsweise haben Forscher dem Konzept des Gens mehrfache Bedeutungen zugeschrieben; Philosophen haben es als Teil einer umfassenderen Untersuchung der geistigen Grundlagen und Auswirkungen des "molekularen Zugs" definiert, der die letzten 50 Jahre der biologischen Forschung dominiert hat.

Diese Studien zeigten, dass biologische Konzepte - egal wie beiläufig sie auch definiert werden - immer in breitere theoretische Vorstellungen eingebettet sind, wie die Natur arbeitet.

Dies bedeutet nicht, dass die Big-Data-Biologie vollständig durch bereits bestehende Hypothesen bestimmt wird. Sie greift vielmehr auf aktuelle Theorien und Hypothesen zurück, lässt diese jedoch keine Forschungsergebnisse vorgeben. Es ist auch wichtig zu beachten, dass Beobachtungen und Messungen unabhängig von der verwendeten Methode immer in einem bestimmten Rahmen liegen. Unabhängig davon, wie standardisiert wird, werden die zur Erstellung dieser Daten verwendeten Instrumente so gebaut, dass sie bestimmten Forschungsprogrammen entsprechen. Dies bedeutet also: wir müssen akzeptieren, dass keine Daten als „roh“ anzusehen sind, d.i. unbeeinflusst von menschlicher Interpretation.

Darüber hinaus können Daten unterschiedlich verarbeitet werden. Es ist daher wichtig, die konzeptionellen Entscheidungen zu verstehen, welche die Generierung und Klassifizierung von Daten geprägt haben. Forscher, die Big Data verwenden, müssen erkennen, dass die theoretischen Strukturen, welche die Produktion und Verarbeitung der Daten beeinflusst haben, ihre zukünftige Verwendung beeinflussen werden.

Man könnte fragen, ob Pluralismus ein Hindernis für die Integration von Daten aus verschiedenen Quellen und für die Gewinnung verlässlichen und genauen Wissens aus diesen Daten darstellt. Wissenschaftstheoretiker haben argumentiert, dass Pluralismus tatsächlich von Vorteil sein kann, wenn versucht wird Wissen über die hochkomplexen und variablen Prozesse in den Lebenswissenschaften zu gewinnen. Divergierende Traditionen der Forschung entstehen durch jahrhundertelange Feinjustierung von Instrumenten, um einen bestimmten Prozess oder eine bestimmte Spezies so detailliert wie möglich untersuchen zu können. Dies macht es zwar schwieriger, diese Tools und das daraus resultierende Wissen zu verallgemeinern, stellt jedoch auch sicher, dass die gesammelten Daten robust und die Schlussfolgerungen genau sind.

Für die Big-Data-Biologie ist es entscheidend, auf diesem Erbe aufzubauen, indem Wege geschaffen werden, mit Daten aus verschiedenen Quellen zu arbeiten, ohne deren Herkunft falsch zu interpretieren oder deren Einsichten in die Komplexität des Lebens einzubüßen.

Zur Beurteilung der Datenqualität

Biologen zeigen oft ein Unbehagen bezüglich der Qualität von Daten und Metadaten, die in Online-Datenbanken gefunden werden, insbesondere wenn die betreffenden Datenbanken nicht von Experten auf dem jeweiligen Gebiet und/oder für den jeweiligen Organismus kuratiert werden. Viele Datenbanken werden nicht einem Peer-Review unterzogen oder kuratiert, und selbst wenn sie es sind, sind Qualitäts- und Zuverlässigkeitsbewertungen häufig für bestimmte Forschungsbereiche spezifisch und können nicht ohne weiteres auf andere Forschungsbereiche oder andere Arten von Studien im selben Forschungsbereich übertragen werden.

Das Potenzial für einen Verlust der Datenqualität wächst, je mehr Datenbanken interoperabel werden, da eine umfassende Datenverbindung es unzuverlässigen Datenquellen ermöglicht, die Gesamtzuverlässigkeit von Online-Datensammlungen zu beeinträchtigen.

Dies ist ein weiterer Bereich, in dem Pluralismus ein Problem für die Big Data-Biologie zu sein scheint. Weist ein mangelnder Konsens hinsichtlich der Beurteilung der Qualität von Daten auf eine deutliche Schwäche hin, wie die Biologie Big Data-Forschung betreiben kann (und sollte)?

Eine mögliche Antwort besteht darin, dass man den Datenkomplex, auf den sich das Problem bezieht, in Frage stellt. Daten an sich als gut oder schlecht zu verstehen - unabhängig von Kontext und Untersuchungszielen - bedeutet, sie als statische Repräsentationen der Natur zu betrachten, die nützlich sind, weil sie ein Merkmal der Welt zu einem bestimmten Zeitpunkt und an einem bestimmten Ort genau und objektiv dokumentieren. Diese Sichtweise motiviert sicherlich die Suche nach endgültigen, universellen und kontextunabhängigen Methoden zur Beurteilung, welche Daten zuverlässig sind und welche es nicht sind. Dabei wird jedoch nicht berücksichtigt, dass Daten häufig extensiv erarbeitete Artefakte sind, die aus sorgfältig geplanten Interaktionen mit der Welt resultieren. Es wird auch der Beobachtung nicht gerecht, dass Biologen unterschiedliche Ansichten davon haben, was als verlässliche Daten oder überhaupt als Daten gilt. Was für eine Gruppe (und/ oder einen Forschungszweck) als Rauschen gilt, kann eine andere Gruppe daher als Daten betrachten.

Daten sind "relational"

Basierend auf diesen Erkenntnissen argumentiert die Autorin, dass Daten „relational“ - in Beziehung zu etwas zu sehen - sind: Mit anderen Worten, die Objekte, die am besten als Daten dienen, können sich je nach den Standards, Zielen und Methoden ändern, die zum Generieren, Verarbeiten und Interpretieren dieser Objekte als Beweismittel verwendet werden. Dies erklärt, warum sich die Beurteilung der Datenqualität immer auf eine bestimmte Untersuchung bezieht. Es ist auch darauf zurückzuführen, dass die Forscher nur ungern Datenquellen vertrauen, deren Herkunft nicht eindeutig dokumentiert ist, und dem damit verbundenen Drang, Metadaten über die Herkunft von Daten zu sammeln.

Datenwissenschaftler unterschätzen manchmal, wie wichtig es ist, Datenbanken mit den physischen Proben zu verknüpfen, aus denen die Daten ursprünglich gesammelt wurden (wie Gewebeproben, Zell- und Mikrobenkulturen). Es hat sich gezeigt, dass der Zugang zu Originalproben die Reproduzierbarkeit von Daten verbessert und Forschern bessere Möglichkeiten bietet, Experimente zu replizieren und Daten wiederzuverwenden. Der Zugang zu Originalproben bietet auch einen konkreten Punkt an dem sich Forschungstraditionen und -ansätze berühren, Unterschiede identifiziert und kritisch untersucht werden können.

Das Akzeptieren einer "relationalen" Sicht auf Daten bedeutet einen Übergang von generischen Ansätzen zur Datenkuration hin zu kontextsensitiven Ansätzen, die fein abgestimmte Deskriptoren für die Daten enthalten, auch wenn dies das Forschungstempo verlangsamen kann.

Schlussfolgerungen

Zweifellos hat Big Data Mining eine starke heuristische Funktion: Es ist oft der erste Schritt in jeder biologischen Untersuchung, um die Richtung und den Umfang der Forschung zu bestimmen. (Abbildung 2)

Abbildung 2. Big Data - Ein erster Schritt zu neuen Untersuchungen in den Lebenswissenschaften. (Bild: Pixabay, gemeinfrei.)

Mithilfe von Big Data können Biologen Muster und Trends effektiver erkennen, und in der Tat beginnen Philosophen zu erkunden, wie Data Mining dazu beitragen kann, mechanistische Hypothesen zu erforschen, zu entwickeln und zu überprüfen. Gleichzeitig zeigt die "relationale" Sicht, wie die Interpretation und Zuverlässigkeit der Schlussfolgerungen aus Big Data von zwei entscheidenden Faktoren abhängt: erstens von einem regelmäßigen Vergleich mit anderen Forschungsmethoden, Modellen und Ansätzen; und zweitens davon, dass die Daten in einen Kontext zur Sichtweise, den Zielen und Methoden des Untersuchers gesetzt werden.

Um eine "relationale" Sicht auf Daten zu haben, muss man die werte- und theorielastige Geschichte von Datenobjekten ernst nehmen. Dies fördert auch die Bemühungen, diese Historie in Datenbanken zu dokumentieren, so dass spätere Datennutzer die Qualität der Daten für sich selbst und nach ihren eigenen Standards beurteilen können.

Die automatisierte Datenanalyse bietet eine aufregende Aussicht auf biologische Entdeckungen. Menschliches Urteilsvermögen wird dabei keineswegs entbehrlich - die wachsende Leistungsfähigkeit von Rechenalgorithmen erfordert einen proportionalen Anstieg von kritischem Denken. Die Zusammenarbeit von Wissenschaftstheoretikern und Biologen kann dabei wesentliche Überlegungen fördern, welche Teile des Daten-Suchens und der Datenintegration mithilfe von Algorithmen durchgeführt werden sollten und wie Ergebnisse interpretiert werden sollten. Die Zusammenarbeit zwischen Philosophen und Bioinformatikern (und anderen Arten von Datenwissenschaftlern) kann der Entwicklung von Dateninfrastrukturen dienen, welche die Herkunft der Daten gebührend erfassen, und die Benutzer anregen, die Qualität und Relevanz der Daten in Bezug auf ihre Forschungsfragen einzuschätzen.

*Der von Sabine Leonelli (University Exeter, UK) stammende Artikel ist am 5, April 2019 unter dem Titel: " The challenges of big data biology" in den Collections "Philosophy of Biology" in eLife 2019;8:e47381 doi: 10.7554/eLife.47381. erschienen. Der unter einer cc-by-Lizenz stehende Text wurde von der Redaktion möglichst wortgetreu aus dem Englischen übersetzt, durch Abbildungen ergänzt, enthält aber keine Literaturzitate. Diese können im Originaltext nachgesehen werden.

Weiterführende Links:

Sabine Lionelli homepage: https://socialsciences.exeter.ac.uk/sociology/staff/leonelli/biography/

Artikel zu verwandten Themen in ScienceBlog.at:

Peter Schuster; 28.03.2013: Wie Computermethoden die Forschung in den Naturwissenschaften verändern
Peter Schuster; 03.01.2014: Computerwissenschafter — Marketender im Tross der modernen Naturwissenschaften
Gottfried Schatz; 24.10.2014: Das Zeitalter der “Big Science”
Manfred Jeitler; 13.11.2015: Big Data - Kleine Teilchen. Triggersysteme zur Untersuchung von Teilchenkollisionen im LHC.
Norbert Bischofberger; 24.05.2018: Auf dem Weg zu einer Medizin der Zukunft.