News
Neues aus der Welt der Wissenschaft
 
ORF ON Science :  News :  Leben 
 
"Data mining": Sinnsuche im Meer biologischer Daten  
  Dass die griechischen Philosophen als die Vorläufer der modernen Wissenschaftler gelten, ist heute nur mehr an historischen Überlieferungen zu erkennen. Während erstere Liebhaber der einsamen Grübelei waren, werden letztere durch eine wahre Datenflut überschwemmt. Allein in den Biowissenschaften entstehen jährlich 450.000 Publikationen. Wie man solche Datenmengen bewältigen kann, zeigen Forscher, die sich dem "Data mining" verschrieben haben - einer Sinnsuche im Meer wissenschaftlicher Daten.  
Wissenschaft: Der Ursprung
Als einer der Gründerväter der Wissenschaft gilt der griechische Philosoph, Mathematiker und Astronom Thales von Milet (624-543 v. Chr.). Wir verdanken ihm nicht nur den berühmten mathematischen Lehrsatz von den rechten Winkeln im Halbkreis, sondern auch eine nicht minder bekannte Anekdote, die die Geburtsstunde der Philosophie kennzeichnen soll.
...
Die Anekdote: Der Philosoph im Brunnen
Nach dieser Anekdote hat Thales einmal nachts den Sternenhimmel beobachtet und ist dabei in einen Brunnen gefallen. Eine zufällig vorbeigekommene thrakische Magd hat ihn daraufhin mit folgenden Worten verspottet: Er wolle wohl wissen, was am Himmel vor sich gehe, dabei bliebe ihm doch selbst das verborgen, was vor seinen Füßen liege.

Der große Platon sah diese Anekdote bereits als den Standardvorwurf, der bis heute an das (philosophische bzw. wissenschaftliche) Erkenntnisstreben gerichtet ist: "Der gleiche Spott trifft alle, die in der Philosophie leben. Denn in Wahrheit bleibt einem solchen der Nächste und der Nachbar verborgen." Allerdings: Thales hat als erster Grieche eine Sonnenfinsternis vorhergesagt - so weltfremd können seine Forschungen wohl doch nicht gewesen sein.
...
Wissenschaft: Von der Berufung ...
Ob der Spott der thrakischen Magd nun berechtigt war oder nicht - eines steht fest: Thales war als Wissenschaftler noch ein echter Amateur. Zum einen im engeren Wortsinn: Wissenschaft war damals noch eine reine Privatangelegenheit.

Denn der "Wissenschaftler" als Berufsbezeichnung ist eine Erfindung der Moderne. Heute verbindet man daher mit dem Begriff "amateurhaft" das Gegenteil von "professionell". In seiner usprünglichen Bedeutung kennzeichnet der Begriff "Amateur" jedoch eine Tätigkeit mit Hingabe, eine Passion. (Dieser Wortsinn findet sich noch immer im lateinischen "amator", für "Liebhaber").
... zum Beruf
Heute ist der Wissenschaftler vom Typus "Thales" weitgehend ausgestorben. Wissenschaft bedeutet in der Zeit der Genomentschlüssler (Typus "Graig Venter") die Produktion von Daten und Information nach industriellem Maßstab.

Einige Zahlen: Weltweit sind ungefähr drei Millionen Menschen in der Forschung tätig, Tendenz steigend. Insgesamt gibt es geschätzte 100.000 wissenschaftliche Fachmagazine, die Zahl der Publikationen wächst täglich um mindestens 20.000.

Allein im biomedizinischen Bereich ist die Datenmenge schier erdrückend. Die bibliografische Datenbank "Medline" umfasst etwa elf Millionen Abstracts von wissenschaftlichen Papieren (im Fachjargon kurz "papers" genannt), jährlich werden derer 450.000 hinzugefügt.
Datenflut als Problem
So stellt sich die Frage: Wer soll das alles lesen? Eine neue Wissenschaftsdisziplin, deren Forschungsfokus am häufigsten mit den Begriffen "Knowledge discovery" und "Data mining" bezeichnet wird, nimmt sich dieser Informationsflut an und versucht Ordnung ins Daten-Chaos zu bringen.

Das Ziel: Die Daten sollen so aufgearbeitet werden, dass man findet, was man sucht. Und - so paradox es klingen mag: Selbst wenn man noch nicht weiß, was man sucht - mit "Data mining" findet man zumindest gute Fragen.
...
Beispiele für biologische Datenbanken
Ausgangspunkt des "Data mining" bilden die Inhalte elektronischer Datenbanken. Da gibt es zunächst solche Datenbanken, die sich auf die Erfassung wissenschaftlicher Publikationen beschränken. Ein Beipiel hierfür wäre etwa das kommerzielle, wöchentlich aktualisierte Verzeichnis Current Contents des amerikanischen Insitute for Scientific Information (ISI).

Wer gerne gratis in den unendlichen Weiten der Fachartikel und Periodika stöbert, hat dazu in den Datenarchiven der National Center of Biotechnology Information die Möglichkeit. Diese Plattform der Informationsvermittlung bietet nicht nur textbezogene ("PubMed") sondern auch biologische Daten über Gen- und Aminosäurensequenzen ("BLAST"), 3D-Strukturen von Molekülen ("Structure") u.v.m.

Eine der weltweit größten Genomdatenbanken beherbergt das Institute for Genomic Research in Maryland. Als Beispiele europäischer Institutionen, die sich der Erfassung und Aufbewahrung einschlägiger Informationen verschrieben haben, wären etwa das European Molecular Biology Laboratory in Heidelberg oder das Swiss Institute of Bioinformatics zu nennen.
...
Die Suche nach Antworten ...
Arno Lukas, von der auf Datenanalyse spezialisierten Firma "Emergentec", beschreibt die grundsätzliche Problemstellung im Zeitalter der Informationsflut folgendermaßen: "Wenn jemand viele Daten produziert, dann will er den Wert dieser Informationen sichern."

Dies geschehe, so Lukas, traditionell durch das Ablegen dieser Informationen in einer Datenbank und das so genannte "Reporting" - die Formulierung einer bestimmten Frage:

"Wenn ich z.B. nach Eiweißstoffen mit einem bestimmten isoelektrischen Punkt suche, dann kann ich eine Datenbank durch relativ einfache Fragestellungen daraufhin durchsuchen. In diesem Fall weiß man allerdings bereits, was man will."
->   Emergentec
... und die Suche nach Fragen
Die Methoden des "Data minings" sind vor allem auch dann gefragt, wenn man noch nicht einmal das weiß. "Wenn man wissen möchte, ob in einer Datenbank noch mehr Informationen enthalten sind, als man zuvor gedacht hat", so Lukas, dann treten die "Daten-Mineure" von "Emergentec" in Aktion.

Dementsprechend definiert man "Data mining" als jenen Prozess, der verborgene Muster, Trends und Regeln in großen Datensätzen freilegt. Die angewandten Methoden sind vielfältig: Sie reichen von statistischen Methoden ("Cluster-" und "Diskriminanzanalyse") bis hin zu Entscheidungsbaum-Verfahren und neuronalen Netzen.
"Functional Genomics": Das Puzzle zusammensetzen
In der biologischen Disziplin der "Functional Genomics" befasst man sich mit ganz ähnlichen Problemen: Im Rahmen der Sequenzierung der Genome von Fruchtfliege, Fadenwurm, Mensch und Maus bediente man sich so genannter "high-throughput" Technologien.

Soll heißen: Die Basensequenzen der einzelnen Genome wurden wie am Fließband produziert, ihre biologische Interpretation lässt aber noch auf sich warten.
Vom "Was" zum "Wie" und "Wo"
Hier setzen die Genetiker der neuen Generation an. Diese interessieren sich nicht nur für rohe Sequenzdaten, sondern möchten das Genom-Puzzle auch wieder zusammensetzen.

In biologischen Begriffen: Man möchte nicht nur wissen, aus welchen Basen das Erbgut besteht, sondern auch erfahren, wann wo in der Zelle welches Protein wie verwendet oder abgebaut wird.
Ein neues Paradigma
Dem entspricht ein neues Forschungsparadigma, wie Luca Bernardi, Esther Ratsch und ihre Mitarbeiter vom European Media Research Laboratory in Heidelberg in einem Übersichtsartikel ausführen: "Functional Genomics" betrachtet die Zelle als Netzwerk von Funktionen.

Und diese sind nur dann im Meer biologischer Rohdaten aufzuspüren, wenn man ihnen mit den Werkzeugen das "Data mining" zu Leibe rückt.
...
Weiterführende Literatur
Eine Artikelserie mit dem Titel "Mining Information for Functional Genomics" erschien in der Fachzeitschrift "IEEE Intelligent Systems" (Band 17, Heft 3, auf den Seiten 66-80).
->   IEEE Intelligent Systems
...
Robert Czepel, science.ORF.at
->   European Media Laboratory
 
 
 
ORF ON Science :  News :  Leben 
 

 
 Übersicht: Alle ORF-Angebote auf einen Blick
01.01.2010