FÜR GENAUERE INFORMATIONEN DIE NOTIZEN ANKLICKEN! In der Bioinformatik werden Sequenzen auf unterschiedlichste Weisen miteinander verglichen, um so etwas über die Zielsequenz herauszufinden. In diesem Mindmap werden die wichtigsten Algorithmen wie Needleman-Wunsch-Algorithmus etc. erklärt, um einen Überblick über die Möglichkeiten der Bioinformatik zu erlangen. Voraussetzung ist das genaue Verständnis von Nukleotid- und Aminosäuresequenzen.
Heuristische Algorithmen sind zwar ungenauer als andere Algorithmen, arbeiten dafür jedoch viel schneller. Die Idee ist, dass - bevor mit Algorithmen das optimale Alignment gesucht wird - schon möglichst viele nicht optimale Alignments herausgefiltert werden.
FASTA bei globalen Alignments
Nota:
Ablauf:
1. "k-Tupel", also übereinstimmende Regionen zweier Sequenzen mit der Länge k, suchen
2. Jene k-Tupel, die sich nicht verlängern lassen, durch einen neuen Score herausfiltern
3. Die übrig gebliebenen k-Tupel möglichst zusammenfassen und verbinden (Gaps sind erlaubt)
4. Erst jetzt mit Needleman-Wunsch-Algorithmus das optimale Alignment finden!
Wie kann ich FASTA nutzen?
fasta (s.
blast p/n)
ssearch
(sensitiver als
fasta)
fast x/y
(s. blast
x)
t fast x/ t fasta
(s. t blast n)
fast f bei gemischten
Peptidsequenzen in
Protein DB
t fast f bei gemischten
Peptidsequenzen in
DNA DB
BLAST bei lokalen Alignments
Nota:
"Basic Local Alignment Search Tool"
Ablauf:
1. Mit maximalem Score alle Matches berechnen
2. Diese mit einem Cut-off-Score auf die signifikanten Matches ("Wörter") limitieren
3. Mit dem Seed-Alignment die Datenbank nach jenen Wörtern durchsuchen
4. Wörter in den Datenbanken erweitern (man nennt sie dann HSPs = High Scoring Segment Pairs) und mit der Zielsequenz vergleichen, dabei HSPs mit einem Score kleiner dem Cut-off-Score verwerfen (da zu unterschiedlich)
5. Von den übrig gebliebenen HSPs die statistische Signifikanz berechnen
6. HSPs möglichst zusammenfassen
7. Smith-Waterman-Algorithmus -> optimale Alignments berechnen und nach ihrer statistischen Signifikanz sortieren
Idee: Es wird in der Zielsequenz nach einer
Kernähnlichkeit ("Wort") gesucht, die sich auch in
anderen Sequenzen der Datenbank wiederfindet.
Wie kann ich das BLAST-Programm nutzen?
(Zielsequenz -> Datenbank)
blast p
(Protein
->
Protein)
blast n
(Nukleinsäure
->
Nukleinsäure)
blast x
(Übersetzte
Nukleinsäure
-> Protein)
Nota:
Sensitiver als blast n, da nicht nur die Nukleotidsequenz verglichen wird, sondern auch Proteineigenschaften.
Wird oft bei ESTs (Expressed Sequence Tags) verwendet, da hier die Introns schon herausgeschnitten wurden.
t blast n
(Protein ->
Übersetzte
Nukleinsäure)
Nota:
Alle 6 Leserahmen müssen hier verglichen werden! Dadurch erhöhte Sensitivität, da mehr homologe Proteine gefunden werden können.
t blast x
(Übersetzte
Nukleinsäure ->
Übersetzte
Nukleinsäure)
Nota:
Hier wird das Problem der vielen Leseraster komplett gelöst, indem ALLE Leseraster (insg. 12) miteinander verglichen werden.
Bewertung der Ergebnisse
E-Value sollte möglichst klein sein
E = erwartete Anzahl von Hits mit
gleichem/ besserem Score
bit-Score sollte möglichst groß sein
Prozentuale Identität möglichst hoch
Die prozentuale Identität kann nie Null werden, da
immer eine Grundwahrscheinlichkeit vorliegt. Diese
sinkt jedoch bei steigender Sequenzlänge.
Dynamisches Programmieren
Nota:
Das "Hintergrundrauschen" muss herausgefiltert werden, deswegen verwendet man überlappende Fenster einer bestimmten Residuenlänge um auch die Umgebung auf Treffer zu untersuchen.
Wird effektiver, wenn man Substitutionsmatritzen verwendet!
Needleman-Wunsch-Algorithmus bei globalen
Alignments
Smith-Waterman-Algorithmus bei lokalen
Alignments
Dotplot (einfachste, ungenauste
Methode)
Tipp: Zum Finden von Repeats im Protein einfach ein Dotplot mit sich selber aufstellen!
Gaps werden bestraft
Nota:
Gapstrafe = gap opening penalty + gap extension penalty*(n-1)
-> je nach Gaplänge wird unterschiedlich bestraft
Durch Veränderungen im genetischen Code (Mutationen) können Aminosäuren ausgetauscht/ substituiert werden. Manche dieser Substitutionen sind akzeptiert, da sich dadurch die Proteinstruktur nicht bzw. nur wenig ändert (-> hoher Score). Andere Substitutionen verändern die Struktur und Funktion eines Proteins und werden deswegen nicht erhalten bzw. konserviert (kleiner, negativer Score).
PAM bei globalen Alignments
Nota:
Point Accepted Mutations, auch MDM (Mutation Data Matrix)
Analyse bekannter Alignments
PAM 250 erlaubt 250 Mutationen pro 100 Residuen,
PAM 120 erlaubt 120 Mutationen pro 100 Residuen
Nota:
Je größer die Zahl (120, 250), desto größer die evolutionäre Distanz
(PAM1-Matrix)^2=PAM2-Matrix,
(PAM2-Matrix)^2=PAM3-Matrix etc.
Wie wird der Score von PAM berechnet?
Exposure = Anfälligkeit = Anteil
Residuum*absolute Mutationszahl pro 100
Residuen
Total Exposure = Totale
Anfälligkeit = Summe aller
Anfälligkeiten
Mutabilität eines Residuums =
Mutationen von Residuum /
Totale Anfälligkeit des
Residuums
d.h. Wie oft mutiert die
Aminosäure im Vergleich zu
den anderen Aminosäuren?
Mutationswahrscheinlichkeit = M(a,b) =
[Konstante*Mutabilität*A (a,b)]/Summe A (a,b)
Score s (a,b) =
10*log(Mutationswahrscheinlichkeit/Aufrtreten
von a durch Zufall)
BLOSUM bei lokalen Alignments
Nota:
"Block Substitution Matrix", betrachtet nur Sequenzen die hochkonserviert sind.
Um Sequenzen gleichmäßig zu repräsentieren,
werden ähnliche Sequenzen in Blocks (Cluster)
zusammengefasst
z.B. BLOSUM 62: Ähnlichkeit
im Cluster = C = 62 %
In einem Cluster an einer Position
hat jede Aminosäure ein
Gewicht
Nota:
z.B. wenn an Pos. 4 in einem Cluster von 7 Alignments 2x Leucin vorkommt, hat Leucin an dieser Position ein Gewicht von 2/7
Beim Austausch A/B
wird f (a,b) berechnet
Nota:
f(a,b)=
[Gewicht a Cluster 1*Gewicht b Cluster 2]
+ [Gewicht b Cluster 1*Gewicht a Cluster 2]
+ [Gewicht a Cluster 1*Gewicht b Cluster 3]
+ [Gewicht b Cluster 1*Gewicht a Cluster 3]
+ ...
q(a,b)=f(a,b)/
#alignierte Paare
Log-odds-Score:
s(a,b)=log[q(a,b)/e(a,b)]
Nota:
mit e(a,b) = p(a)*p(b)
Alignment = Vergleich von Sequenzen
Ist Aminosäuresequenz oder Nukleotidsequenz besser zu vergleichen?
Aminosäurensequenz besser zu vergleichen, da bei 20
Aminosäuren ähnliche Muster auf Verwandtschaft schließen lassen
Nukleotidsequenz eher schlecht zu vergleichen, da sich bei nur 4
Basen Muster zufällig wiederholen und nicht auf Gemeinsamkeiten
der Sequenzen schließen lassen
Nota:
+ gen. Code ist redundant, -> stumjme mutationen verändern das Alignment, aber nicht das Protein!
lokales vs. globales Alignment
globales Alignment = komplette Sequenz (z.B. ganzes
Genom) vergleichen, bei sehr ähnlichen Proteinen
Nota:
größere Stichprobe
lokales Alignment = Sequenzausschnitt (z.B.
Proteindomäne) vergleichen, i.d.R. viel konservierter
Präzision wird durch
multiples Alignment erreicht
Motif = konserviertes Element
multiples Alignment: Mehr als 2 Sequenzen
werden miteinander verglichen
Score (Alignment) = Summe aller Scores (Positionen)