Zusammenfassung der Ressource
Bioinformatik -
Zusammenfassung
- Datenbanksuche mit heuristischen Algorithmen,
Anmerkungen:
- Heuristische Algorithmen sind zwar ungenauer als andere Algorithmen, arbeiten dafür jedoch viel schneller. Die Idee ist, dass - bevor mit Algorithmen das optimale Alignment gesucht wird - schon möglichst viele nicht optimale Alignments herausgefiltert werden.
- FASTA bei globalen Alignments
Anmerkungen:
- Ablauf:
1. "k-Tupel", also übereinstimmende Regionen zweier Sequenzen mit der Länge k, suchen
2. Jene k-Tupel, die sich nicht verlängern lassen, durch einen neuen Score herausfiltern
3. Die übrig gebliebenen k-Tupel möglichst zusammenfassen und verbinden (Gaps sind erlaubt)
4. Erst jetzt mit Needleman-Wunsch-Algorithmus das optimale Alignment finden!
- Wie kann ich FASTA nutzen?
- fasta (s.
blast p/n)
- ssearch
(sensitiver als
fasta)
- fast x/y
(s. blast
x)
- t fast x/ t fasta
(s. t blast n)
- fast f bei gemischten
Peptidsequenzen in
Protein DB
- t fast f bei gemischten
Peptidsequenzen in
DNA DB
- BLAST bei lokalen Alignments
Anmerkungen:
- "Basic Local Alignment Search Tool"
Ablauf:
1. Mit maximalem Score alle Matches berechnen
2. Diese mit einem Cut-off-Score auf die signifikanten Matches ("Wörter") limitieren
3. Mit dem Seed-Alignment die Datenbank nach jenen Wörtern durchsuchen
4. Wörter in den Datenbanken erweitern (man nennt sie dann HSPs = High Scoring Segment Pairs) und mit der Zielsequenz vergleichen, dabei HSPs mit einem Score kleiner dem Cut-off-Score verwerfen (da zu unterschiedlich)
5. Von den übrig gebliebenen HSPs die statistische Signifikanz berechnen
6. HSPs möglichst zusammenfassen
7. Smith-Waterman-Algorithmus -> optimale Alignments berechnen und nach ihrer statistischen Signifikanz sortieren
- Idee: Es wird in der Zielsequenz nach einer
Kernähnlichkeit ("Wort") gesucht, die sich auch in
anderen Sequenzen der Datenbank wiederfindet.
- Wie kann ich das BLAST-Programm nutzen?
(Zielsequenz -> Datenbank)
- blast p
(Protein
->
Protein)
- blast n
(Nukleinsäure
->
Nukleinsäure)
- blast x
(Übersetzte
Nukleinsäure
-> Protein)
Anmerkungen:
- Sensitiver als blast n, da nicht nur die Nukleotidsequenz verglichen wird, sondern auch Proteineigenschaften.
Wird oft bei ESTs (Expressed Sequence Tags) verwendet, da hier die Introns schon herausgeschnitten wurden.
- t blast n
(Protein ->
Übersetzte
Nukleinsäure)
Anmerkungen:
- Alle 6 Leserahmen müssen hier verglichen werden! Dadurch erhöhte Sensitivität, da mehr homologe Proteine gefunden werden können.
- t blast x
(Übersetzte
Nukleinsäure ->
Übersetzte
Nukleinsäure)
Anmerkungen:
- Hier wird das Problem der vielen Leseraster komplett gelöst, indem ALLE Leseraster (insg. 12) miteinander verglichen werden.
- Bewertung der Ergebnisse
- E-Value sollte möglichst klein sein
- E = erwartete Anzahl von Hits mit
gleichem/ besserem Score
- bit-Score sollte möglichst groß sein
- Prozentuale Identität möglichst hoch
- Die prozentuale Identität kann nie Null werden, da
immer eine Grundwahrscheinlichkeit vorliegt. Diese
sinkt jedoch bei steigender Sequenzlänge.
- Dynamisches Programmieren
Anmerkungen:
- Das "Hintergrundrauschen" muss herausgefiltert werden, deswegen verwendet man überlappende Fenster einer bestimmten Residuenlänge um auch die Umgebung auf Treffer zu untersuchen.
Wird effektiver, wenn man Substitutionsmatritzen verwendet!
- Needleman-Wunsch-Algorithmus bei globalen
Alignments
- Smith-Waterman-Algorithmus bei lokalen
Alignments
- Dotplot (einfachste, ungenauste
Methode)
- Tipp: Zum Finden von Repeats im Protein einfach ein Dotplot mit sich selber aufstellen!
- Gaps werden bestraft
Anmerkungen:
- Gapstrafe = gap opening penalty + gap extension penalty*(n-1)
-> je nach Gaplänge wird unterschiedlich bestraft
- Gap opening penalty:
Hohe Strafe
- Gap extension penalty:
Kleine Strafe
- Substitutionsmatritzen (= Aminosäure-Austauschmatritzen)
Anmerkungen:
- Durch Veränderungen im genetischen Code (Mutationen) können Aminosäuren ausgetauscht/ substituiert werden. Manche dieser Substitutionen sind akzeptiert, da sich dadurch die Proteinstruktur nicht bzw. nur wenig ändert (-> hoher Score). Andere Substitutionen verändern die Struktur und Funktion eines Proteins und werden deswegen nicht erhalten bzw. konserviert (kleiner, negativer Score).
- PAM bei globalen Alignments
Anmerkungen:
- Point Accepted Mutations, auch MDM (Mutation Data Matrix)
- Analyse bekannter Alignments
- PAM 250 erlaubt 250 Mutationen pro 100 Residuen,
PAM 120 erlaubt 120 Mutationen pro 100 Residuen
Anmerkungen:
- Je größer die Zahl (120, 250), desto größer die evolutionäre Distanz
- (PAM1-Matrix)^2=PAM2-Matrix,
(PAM2-Matrix)^2=PAM3-Matrix etc.
- Wie wird der Score von PAM berechnet?
- Exposure = Anfälligkeit = Anteil
Residuum*absolute Mutationszahl pro 100
Residuen
- Total Exposure = Totale
Anfälligkeit = Summe aller
Anfälligkeiten
- Mutabilität eines Residuums =
Mutationen von Residuum /
Totale Anfälligkeit des
Residuums
- d.h. Wie oft mutiert die
Aminosäure im Vergleich zu
den anderen Aminosäuren?
- Mutationswahrscheinlichkeit = M(a,b) =
[Konstante*Mutabilität*A (a,b)]/Summe A (a,b)
- Score s (a,b) =
10*log(Mutationswahrscheinlichkeit/Aufrtreten
von a durch Zufall)
- BLOSUM bei lokalen Alignments
Anmerkungen:
- "Block Substitution Matrix", betrachtet nur Sequenzen die hochkonserviert sind.
- Um Sequenzen gleichmäßig zu repräsentieren,
werden ähnliche Sequenzen in Blocks (Cluster)
zusammengefasst
- z.B. BLOSUM 62: Ähnlichkeit
im Cluster = C = 62 %
- In einem Cluster an einer Position
hat jede Aminosäure ein
Gewicht
Anmerkungen:
- z.B. wenn an Pos. 4 in einem Cluster von 7 Alignments 2x Leucin vorkommt, hat Leucin an dieser Position ein Gewicht von 2/7
- Beim Austausch A/B
wird f (a,b) berechnet
Anmerkungen:
- f(a,b)=
[Gewicht a Cluster 1*Gewicht b Cluster 2]
+ [Gewicht b Cluster 1*Gewicht a Cluster 2]
+ [Gewicht a Cluster 1*Gewicht b Cluster 3]
+ [Gewicht b Cluster 1*Gewicht a Cluster 3]
+ ...
- q(a,b)=f(a,b)/
#alignierte Paare
- Log-odds-Score:
s(a,b)=log[q(a,b)/e(a,b)]
Anmerkungen:
- Alignment = Vergleich von Sequenzen
- Ist Aminosäuresequenz oder Nukleotidsequenz besser zu vergleichen?
- Aminosäurensequenz besser zu vergleichen, da bei 20
Aminosäuren ähnliche Muster auf Verwandtschaft schließen lassen
- Nukleotidsequenz eher schlecht zu vergleichen, da sich bei nur 4
Basen Muster zufällig wiederholen und nicht auf Gemeinsamkeiten
der Sequenzen schließen lassen
Anmerkungen:
- + gen. Code ist redundant, -> stumjme mutationen verändern das Alignment, aber nicht das Protein!
- lokales vs. globales Alignment
- globales Alignment = komplette Sequenz (z.B. ganzes
Genom) vergleichen, bei sehr ähnlichen Proteinen
Anmerkungen:
- lokales Alignment = Sequenzausschnitt (z.B.
Proteindomäne) vergleichen, i.d.R. viel konservierter
- Präzision wird durch
multiples Alignment erreicht
- Motif = konserviertes Element
- multiples Alignment: Mehr als 2 Sequenzen
werden miteinander verglichen
- Score (Alignment) = Summe aller Scores (Positionen)