DNA-Sequenzdatenanalyse – Einstieg in die Bioinformatik

In meinem letzten Artikel habe ich die Grundlagen der DNA, der Nukleotide und ihrer Anordnung vorgestellt. Sie fragen sich vielleicht, wie wir die genaue Reihenfolge der Nukleotide eines DNA-Moleküls bestimmen können. Hier kommt die DNA-Sequenzierung ins Spiel.

Unter Sequenzierung versteht man die Bestimmung der genauen Reihenfolge der Nukleotide eines bestimmten DNA-Moleküls. Sie wird verwendet, um die Reihenfolge der vier Basen Adenin (A), Guanin (G), Cytosin (C) und Thymin (T) in einem DNA-Strang zu bestimmen.

Die DNA-Sequenzierung wird verwendet, um die Sequenz einzelner Gene, ganzer Chromosomen oder ganzer Genome eines Organismus zu bestimmen. Die DNA-Sequenzierung ist inzwischen auch die effizienteste Methode zur Sequenzierung von RNA oder Proteinen.

DNA-Molekül (Bildquelle: https://.com)

Geschichte der Sequenzierung

Die Arbeit des britischen Biochemikers Frederick Sanger legte den Grundstein für die Sequenzierung von Proteinen. Im Jahr 1955 hatte Sanger die Sequenz aller Aminosäuren des Insulins fertiggestellt. Seine Arbeit lieferte den Beweis, dass Proteine aus chemischen Einheiten mit einem bestimmten Muster bestehen und nicht aus einem Gemisch von Substanzen.

Frederick Sanger (Bildquelle: https://en.wikipedia.org/wiki/DNA_sequencing)

Später wurde 1977 von Frederick Sanger und seinen Kollegen eine Methode namens Sanger-Sequenzierung entwickelt, bei der die DNA durch die Erzeugung von Fragmenten sequenziert werden konnte. Es war die am weitesten verbreitete Sequenzierungsmethode für etwa 40 Jahre.

Ganzgenomsequenzierung und Sequenzzusammenbau

Eine DNA-Sequenzierungsreaktion erzeugt eine Sequenz, die mehrere hundert Basen lang ist. Gensequenzen sind in der Regel Tausende von Basen lang. Das größte bekannte Gen ist dasjenige, das mit der Duchenne-Muskeldystrophie assoziiert ist. Es hat eine Länge von etwa 2,4 Millionen Basen. Um ein ganzes Gen zu untersuchen, verwenden Wissenschaftler eine einfache Strategie, die als Shotgun-Sequenzierung bekannt ist. Die lange DNA-Sequenz wird aus einer Reihe von kürzeren, sich überlappenden Sequenzen zusammengesetzt. Schauen wir uns an, was bei der Shotgun-Sequenzierung passiert.

Shotgun Sequencing

Shotgun Sequencing

Spezielle Maschinen, so genannte Sequenziermaschinen, werden eingesetzt, um kurze, zufällige DNA-Sequenzen aus einem bestimmten Genom zu extrahieren, das wir bestimmen wollen (Zielgenom). Die derzeitigen DNA-Sequenzierungstechnologien können nicht ein ganzes Genom auf einmal lesen. Sie lesen kleine Stücke von 20 bis 30000 Basen, je nach der verwendeten Technologie. Diese kurzen Stücke werden als Reads bezeichnet. Mithilfe spezieller Software werden diese Reads entsprechend ihrer Überlappung zusammengesetzt, um fortlaufende Stränge, so genannte Contigs, zu erzeugen. Bei diesen Contigs kann es sich um das gesamte Zielgenom selbst oder um Teile des Genoms handeln (wie in der obigen Abbildung gezeigt).

Der Prozess des Ausrichtens und Zusammenfügens von Fragmenten aus einer längeren DNA-Sequenz, um die ursprüngliche Sequenz zu rekonstruieren, wird als Sequenzzusammenbau bezeichnet.

Um die gesamte Genomsequenz zu erhalten, müssen wir möglicherweise immer mehr zufällige Reads erzeugen, bis die Contigs mit dem Zielgenom übereinstimmen.

Sequenzassemblierungsproblem

Das Sequenzassemblierungsproblem kann wie folgt beschrieben werden.

Finden Sie bei einer Menge von Sequenzen die Zeichenkette minimaler Länge, die alle Mitglieder der Menge als Teilzeichenfolgen enthält.

Bildquelle: http://www.homolog.us/Tutorials/index.php?p=1.3&s=1

Dieses Problem wird durch das Vorhandensein von sich wiederholenden Sequenzen im Genom sowie durch Substitutionen oder Mutationen innerhalb dieser Sequenzen noch komplizierter.

Das Sequenzassemblierungsproblem kann wie folgt mit einem realen Szenario verglichen werden.

Angenommen, man nimmt viele Kopien eines Buches, lässt jede von ihnen durch einen Schredder mit einem anderen Messer laufen und versucht dann, den Text des Buches wieder zusammenzusetzen, indem man die geschredderten Teile einfach zusammenklebt. Es ist offensichtlich, dass diese Aufgabe ziemlich schwierig ist. Darüber hinaus gibt es auch noch einige praktische Probleme. Das Originalexemplar kann viele sich wiederholende Absätze enthalten, und einige Schnipsel können während des Schredderns so verändert worden sein, dass sie Tippfehler enthalten. Es können auch Teile aus einem anderen Buch eingefügt worden sein, und einige Fetzen können völlig unkenntlich sein.

Das klingt sehr verwirrend und ist ziemlich unmöglich durchzuführen. Dieses Problem ist als NP-vollständig bekannt. NP-vollständige Probleme sind Probleme, deren Status unbekannt ist. Es wurde noch kein Polynomialzeitalgorithmus für ein NP-vollständiges Problem entdeckt, und es konnte auch noch niemand beweisen, dass es für keines dieser Probleme einen Polynomialzeitalgorithmus gibt. Es gibt jedoch gierige Algorithmen zur Lösung des Sequenzzusammensetzungsproblems, bei denen sich Experimente in der Praxis als recht gut erwiesen haben.

Eine gängige Methode zur Lösung des Sequenzzusammensetzungsproblems und zur Analyse von Sequenzdaten ist die Sequenzausrichtung.

Sequenzausrichtung

Die Sequenzausrichtung ist eine Methode zur Anordnung von DNA-, RNA- oder Proteinsequenzen, um Bereiche der Ähnlichkeit zu identifizieren. Die festgestellte Ähnlichkeit kann auf funktionale, strukturelle oder evolutionäre Beziehungen zwischen den Sequenzen zurückzuführen sein.

Vergleicht man zwei Sequenzen, spricht man von einem paarweisen Sequenzabgleich. Vergleicht man mehr als zwei Sequenzen, so spricht man von einem multiplen Sequenzabgleich.

Next-Generation Sequencing

Next-Generation Sequencing (NGS), auch bekannt als High-Throughput Sequencing, ist der Sammelbegriff für viele verschiedene moderne Sequenzierungstechnologien, wie zum Beispiel,

  • Illumina (Solexa) Sequenzierung
  • Roche 454 Sequenzierung
  • Ion torrent Proton / PGM Sequenzierung
  • SOLiD Sequenzierung

Diese neuen Technologien ermöglichen es uns, DNA und RNA viel schneller und kostengünstiger zu sequenzieren als die früher verwendete Sanger-Sequenzierung und haben die Genomforschung revolutioniert.

Abschließende Überlegungen

Die Analyse von Sequenzdaten ist zu einem sehr wichtigen Aspekt im Bereich der Genomik geworden. Die Bioinformatik hat die Aufgabe der Analyse für Biologen sehr erleichtert, indem sie verschiedene Softwarelösungen bereitstellt und die mühsame manuelle Arbeit erspart.

Hier finden Sie eine Liste von Softwaretools, die für die DNA-Sequenzierung verwendet werden. Außerdem finden Sie hier eine Liste von Software für den Sequenzabgleich.

Ich hoffe, Sie haben eine grundlegende Vorstellung von der Analyse von Sequenzdaten bekommen.

In meinem nächsten Artikel werde ich Ihnen die Details des paarweisen Sequenzabgleichs und einige gängige Algorithmen vorstellen, die in diesem Bereich verwendet werden.

Da ich noch sehr neu auf diesem Gebiet bin, würde ich gerne Ihren Rat hören. 😇

Danke fürs Lesen… 😃

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.