Bioinformatik - Zusammenfassung

Beschreibung

FÜR GENAUERE INFORMATIONEN DIE NOTIZEN ANKLICKEN! In der Bioinformatik werden Sequenzen auf unterschiedlichste Weisen miteinander verglichen, um so etwas über die Zielsequenz herauszufinden. In diesem Mindmap werden die wichtigsten Algorithmen wie Needleman-Wunsch-Algorithmus etc. erklärt, um einen Überblick über die Möglichkeiten der Bioinformatik zu erlangen. Voraussetzung ist das genaue Verständnis von Nukleotid- und Aminosäuresequenzen.
Svenja
Mindmap von Svenja, aktualisiert more than 1 year ago
Svenja
Erstellt von Svenja vor fast 11 Jahre
440
2

Zusammenfassung der Ressource

Bioinformatik - Zusammenfassung
  1. Datenbanksuche mit heuristischen Algorithmen,

    Anmerkungen:

    • Heuristische Algorithmen sind zwar ungenauer als andere Algorithmen, arbeiten dafür jedoch viel schneller. Die Idee ist, dass - bevor mit Algorithmen das optimale Alignment gesucht wird - schon möglichst viele nicht optimale Alignments herausgefiltert werden.
    1. FASTA bei globalen Alignments

      Anmerkungen:

      • Ablauf: 1. "k-Tupel", also übereinstimmende Regionen zweier Sequenzen mit der Länge k, suchen 2. Jene k-Tupel, die sich nicht verlängern lassen, durch einen neuen Score herausfiltern 3. Die übrig gebliebenen k-Tupel möglichst zusammenfassen und verbinden (Gaps sind erlaubt) 4. Erst jetzt mit Needleman-Wunsch-Algorithmus das optimale Alignment finden!
      1. Wie kann ich FASTA nutzen?
        1. fasta (s. blast p/n)
          1. ssearch (sensitiver als fasta)
            1. fast x/y (s. blast x)
              1. t fast x/ t fasta (s. t blast n)
                1. fast f bei gemischten Peptidsequenzen in Protein DB
                  1. t fast f bei gemischten Peptidsequenzen in DNA DB
                2. BLAST bei lokalen Alignments

                  Anmerkungen:

                  • "Basic Local Alignment Search Tool" Ablauf: 1. Mit maximalem Score alle Matches berechnen 2. Diese mit einem Cut-off-Score auf die signifikanten Matches ("Wörter") limitieren 3. Mit dem Seed-Alignment die Datenbank nach jenen Wörtern durchsuchen 4. Wörter in den Datenbanken erweitern (man nennt sie dann HSPs = High Scoring Segment Pairs) und mit der Zielsequenz vergleichen, dabei HSPs mit einem Score kleiner dem Cut-off-Score verwerfen (da zu unterschiedlich) 5. Von den übrig gebliebenen HSPs die statistische Signifikanz berechnen 6. HSPs möglichst zusammenfassen 7. Smith-Waterman-Algorithmus -> optimale Alignments berechnen und nach ihrer statistischen Signifikanz sortieren
                  1. Idee: Es wird in der Zielsequenz nach einer Kernähnlichkeit ("Wort") gesucht, die sich auch in anderen Sequenzen der Datenbank wiederfindet.
                    1. Wie kann ich das BLAST-Programm nutzen? (Zielsequenz -> Datenbank)
                      1. blast p (Protein -> Protein)
                        1. blast n (Nukleinsäure -> Nukleinsäure)
                          1. blast x (Übersetzte Nukleinsäure -> Protein)

                            Anmerkungen:

                            • Sensitiver als blast n, da nicht nur die Nukleotidsequenz verglichen wird, sondern auch Proteineigenschaften. Wird oft bei ESTs (Expressed Sequence Tags) verwendet, da hier die Introns schon herausgeschnitten wurden.
                            1. t blast n (Protein -> Übersetzte Nukleinsäure)

                              Anmerkungen:

                              • Alle 6 Leserahmen müssen hier verglichen werden! Dadurch erhöhte Sensitivität, da mehr homologe Proteine gefunden werden können.
                              1. t blast x (Übersetzte Nukleinsäure -> Übersetzte Nukleinsäure)

                                Anmerkungen:

                                • Hier wird das Problem der vielen Leseraster komplett gelöst, indem ALLE Leseraster (insg. 12) miteinander verglichen werden.
                            2. Bewertung der Ergebnisse
                              1. E-Value sollte möglichst klein sein
                                1. E = erwartete Anzahl von Hits mit gleichem/ besserem Score
                                2. bit-Score sollte möglichst groß sein
                                  1. Prozentuale Identität möglichst hoch
                                    1. Die prozentuale Identität kann nie Null werden, da immer eine Grundwahrscheinlichkeit vorliegt. Diese sinkt jedoch bei steigender Sequenzlänge.
                                3. Dynamisches Programmieren

                                  Anmerkungen:

                                  • Das "Hintergrundrauschen" muss herausgefiltert werden, deswegen verwendet man überlappende Fenster einer bestimmten Residuenlänge um auch die Umgebung auf Treffer zu untersuchen. Wird effektiver, wenn man Substitutionsmatritzen verwendet!
                                  1. Needleman-Wunsch-Algorithmus bei globalen Alignments
                                    1. Smith-Waterman-Algorithmus bei lokalen Alignments
                                      1. Dotplot (einfachste, ungenauste Methode)
                                        1. Tipp: Zum Finden von Repeats im Protein einfach ein Dotplot mit sich selber aufstellen!
                                        2. Gaps werden bestraft

                                          Anmerkungen:

                                          • Gapstrafe = gap opening penalty + gap extension penalty*(n-1) -> je nach Gaplänge wird unterschiedlich bestraft
                                          1. Gap opening penalty: Hohe Strafe
                                            1. Gap extension penalty: Kleine Strafe
                                          2. Substitutionsmatritzen (= Aminosäure-Austauschmatritzen)

                                            Anmerkungen:

                                            • Durch Veränderungen im genetischen Code (Mutationen) können Aminosäuren ausgetauscht/ substituiert werden. Manche dieser Substitutionen sind akzeptiert, da sich dadurch die Proteinstruktur nicht bzw. nur wenig ändert (-> hoher Score). Andere Substitutionen verändern die Struktur und Funktion eines Proteins und werden deswegen nicht erhalten bzw. konserviert (kleiner, negativer Score).
                                            1. PAM bei globalen Alignments

                                              Anmerkungen:

                                              • Point Accepted Mutations, auch MDM (Mutation Data Matrix)
                                              1. Analyse bekannter Alignments
                                                1. PAM 250 erlaubt 250 Mutationen pro 100 Residuen, PAM 120 erlaubt 120 Mutationen pro 100 Residuen

                                                  Anmerkungen:

                                                  • Je größer die Zahl (120, 250), desto größer die evolutionäre Distanz
                                                  1. (PAM1-Matrix)^2=PAM2-Matrix, (PAM2-Matrix)^2=PAM3-Matrix etc.
                                                  2. Wie wird der Score von PAM berechnet?
                                                    1. Exposure = Anfälligkeit = Anteil Residuum*absolute Mutationszahl pro 100 Residuen
                                                      1. Total Exposure = Totale Anfälligkeit = Summe aller Anfälligkeiten
                                                        1. Mutabilität eines Residuums = Mutationen von Residuum / Totale Anfälligkeit des Residuums
                                                          1. d.h. Wie oft mutiert die Aminosäure im Vergleich zu den anderen Aminosäuren?
                                                          2. Mutationswahrscheinlichkeit = M(a,b) = [Konstante*Mutabilität*A (a,b)]/Summe A (a,b)
                                                            1. Score s (a,b) = 10*log(Mutationswahrscheinlichkeit/Aufrtreten von a durch Zufall)
                                                          3. BLOSUM bei lokalen Alignments

                                                            Anmerkungen:

                                                            • "Block Substitution Matrix", betrachtet nur Sequenzen die hochkonserviert sind.
                                                            1. Um Sequenzen gleichmäßig zu repräsentieren, werden ähnliche Sequenzen in Blocks (Cluster) zusammengefasst
                                                              1. z.B. BLOSUM 62: Ähnlichkeit im Cluster = C = 62 %
                                                                1. In einem Cluster an einer Position hat jede Aminosäure ein Gewicht

                                                                  Anmerkungen:

                                                                  • z.B. wenn an Pos. 4 in einem Cluster von 7 Alignments 2x Leucin vorkommt, hat Leucin an dieser Position ein Gewicht von 2/7
                                                                  1. Beim Austausch A/B wird f (a,b) berechnet

                                                                    Anmerkungen:

                                                                    • f(a,b)= [Gewicht a Cluster 1*Gewicht b Cluster 2] + [Gewicht b Cluster 1*Gewicht a Cluster 2] + [Gewicht a Cluster 1*Gewicht b Cluster 3] + [Gewicht b Cluster 1*Gewicht a Cluster 3] + ...
                                                                    1. q(a,b)=f(a,b)/ #alignierte Paare
                                                                      1. Log-odds-Score: s(a,b)=log[q(a,b)/e(a,b)]

                                                                        Anmerkungen:

                                                                        • mit e(a,b) = p(a)*p(b)
                                                            2. Alignment = Vergleich von Sequenzen
                                                              1. Ist Aminosäuresequenz oder Nukleotidsequenz besser zu vergleichen?
                                                                1. Aminosäurensequenz besser zu vergleichen, da bei 20 Aminosäuren ähnliche Muster auf Verwandtschaft schließen lassen
                                                                  1. Nukleotidsequenz eher schlecht zu vergleichen, da sich bei nur 4 Basen Muster zufällig wiederholen und nicht auf Gemeinsamkeiten der Sequenzen schließen lassen

                                                                    Anmerkungen:

                                                                    • + gen. Code ist redundant, -> stumjme mutationen verändern das Alignment, aber nicht das Protein!
                                                                  2. lokales vs. globales Alignment
                                                                    1. globales Alignment = komplette Sequenz (z.B. ganzes Genom) vergleichen, bei sehr ähnlichen Proteinen

                                                                      Anmerkungen:

                                                                      • größere Stichprobe
                                                                      1. lokales Alignment = Sequenzausschnitt (z.B. Proteindomäne) vergleichen, i.d.R. viel konservierter
                                                                        1. Präzision wird durch multiples Alignment erreicht
                                                                          1. Motif = konserviertes Element
                                                                        2. multiples Alignment: Mehr als 2 Sequenzen werden miteinander verglichen
                                                                          1. Score (Alignment) = Summe aller Scores (Positionen)
                                                                          Zusammenfassung anzeigen Zusammenfassung ausblenden

                                                                          ähnlicher Inhalt

                                                                          Bioinformatik - Vorwissen
                                                                          Svenja
                                                                          Bioinformatik - Datenbanken
                                                                          Svenja
                                                                          Sequenzmotife, Genomanalyse und Proteinfaltungsproblem
                                                                          Svenja
                                                                          Homologiemodellierung
                                                                          Svenja
                                                                          Wirtschaft
                                                                          Céline Rüegg
                                                                          Zeiten Englisch
                                                                          Janine Egli
                                                                          Laborgeräte
                                                                          Stefan Pw
                                                                          PRINT WS16/17 Uni Wien
                                                                          Cecilie von Heintze
                                                                          PR 2018/19 GESKO VO 7-12
                                                                          Adrienne Tschaudi
                                                                          Vetie Histopatho 2016
                                                                          Alena Gesing
                                                                          Vetie Chirurgie 2020
                                                                          Henriette Greiner