Sequenzmotife, Genomanalyse und Proteinfaltungsproblem

Seite 1

PROSITEenthält Motife und Muster von Proteinsequenzen

GENREGULATIONRegulierende Sequenzen im Genom: Regulatoren, Promotor (TATA+SDS)

MOTIFE= kurze (wiederkehrende) Muster der DNA.

PROKARYOTENweniger Transkriptionsfaktoren, längere Motife, mehr codierende Sequenzen, nicht so ausgeklügelte Genregulation wie Eukaryoten

SEQUENZLOGOstellt Wahrscheinlichkeit von Nukleotiden je nach Position dar, Maß der Konservierung

KONSENSUSSEQUENZ"beste" Sequenz, kann aus I-Werten berechnet werden

KONSERVIERUNGI = Maß der KonservierungI = 2+Summe [f(Base b an Pos. i) log f (b,i)]Perfekte Konservierung: I = 2 bits2 Basen zu je 50 %: I = 1 bitAlle Basen gleich wahrscheinlich: I = 0 bitsI (seq) = Maß der Konservierung einer gesamten Sequenz

KLEIN-SAMPLE-KORREKTURI (seq) ist nie Null, d.h. wenn man kleine Sequenzen vergleicht ist es unmöglich dass sie sich immer komplett unterscheiden!

HINTERGRUNDHÄUFIGKEITENJeder Organismus hat unterschiedliche Basenhäufigkeiten.Mensch: 41 % GC-GehaltE. coli: 51 % GC-GehaltS. cerevisiae: 38 % GC-Gehalt

WEBLOGOerstellt Sequenzlogos

HIDDEN-MARKOV-MODELLgibt an, welche Sequenz wie wahrscheinlich ist (zeigt also auch Präferenzen)Score berechenbar: Alle Wahrscheinlichkeiten des Modells aufmultiplizieren

LOG-ODDS-SCORE= HMM, aber angepasst an Sequenzlänge und Hintergrundhäufigkeit. Hoher log-odds-Score ist gut!log-odds(Sequenz) = log[Wahrsch./0,25^L]mit L = Längenparameter und 0,25=Durchschnittsvorkommen einer Base (variiert bei anderer Hintergrundhäufigkeit)

Was muss ich über Sequenzmotife wissen?

Was muss ich über die Genomanalyse wissen?

GENOMkomplette vererbliche Information eines Organismus, codiert in DNA (Viren: teils RNA)Gene + nicht codierende Sequenzen

NUKLEARES GENOMGenom ohne DNA aus Mitochondrien/ Plastiden (Mitochondrium: ca. 17 kb beim Menschen, Chloroplasten: ab 120 kb)

INHALTE DES MENSCHLICHEN NUKLEAREN GENOMS Exons Introns Pseudogene DNA Transposons Mikrosatelliten Retrotransposons (LINE, SINE, LTR Elemente)

#GENEBei Bakterien: ca. 1000 Gene pro MB

NCBI= National Centre for Biotechnology Informationbeinhaltet u.A. Genome verschiedener Organismenbietet Zugang zu vielen Datenbanken

CDS= Coding Sequence = übersetzte DNA (je nach Organismus unterschiedlich)

SHOTGUN SEQUENCINGPrinzip: Terminationsbasen werden bei der Replikation zufällig eingebaut, es werden Fragmente unterschiedlichster Länge produziertZusatz: Je nach Base VOR der Terminationsbase leuchtet das Fragment in eienr anderen Farbe --> Genomsequenzierung!

CLONE-BY-CLONE SHOTGUN SEQUENCINGDas zu sequenzierende Gen wird "gemappt", d.h. vor der Sequenzierung in Regionen unterteilt, welche wiederum jeweils kloniert werden. Es entstehen so mehrere Klonserien (Contigs), die einzeln sequenziert werden und am Ende (per Alignment) zusammengefügt werden.

WHOLE GENOME SHOTGUN SEQUENCINGKein Mapping, d.h. die Gene werden (nach Replikation) sofort sequenziert, stattdessen helfen Markierungen beim Sortieren

LIBRARY=komplettes Genom beim Shotgun Sequencing

SHOTGUN SEQUENCE ASSEMBLY= automatisiertes Zusammenfügen der berechneten Sequenzen, dabei helfen Marker bei der Positionsbestimmung

HYBRID SHOTGUN SEQUENCING= Kombination aus Whole genome und Clone-by-clone Sequencing

ESTs= expressed sequence tags= sequenzierte cDNAbeinhaltet also nicht Promotoren/ Introns/ ...

cDNADNA -> mRNA -> cDNA= DNA-Version der mRNA (mit reverser Transkriptase), also nur die "transkribierte" DNA

GENANZAHLEntscheidend ist nicht die zahl der Gene, sondern deren Komplexität! Reis hat mehr Gene als der Mensch, aber der mensch hat ein größeres Transkriptom

DAS EUKARYOTISCHE GENOM26 % Introns1,5 % proteincodierend5 % Duplikationen3 % Repeats13 % SINEs, 20 % LINEs (short/ long interspersed nuclear elements)

Was muss ich über Proteinstrukturen wissen?

RMSD= Root Mean Square DeviationMaß für die Richtgkeit einer Strukturvorhersage, je kleiner desto besser; beruht auf Atompositionen

DOPPELT DYNAMISCHES PROGRAMMIEREN= Alignen + Strukturüberlagerung2 Level: Unteres und oberes Level, das optimale Alignment vom unteren Level wird im oberen Level weiter optimiertOptimales Alignment wird in einer Zusammenfassungsmatrix dargestellt

DISTANZMATRIXDotplot, zeigt den Atomabstand an. Kleiner Abstand = Dot, Großer Abstand = kein DotInteragierende Atome bilden hier parallele Linien, die als Strukturen zu deuten sind (und immer eine Diagonale)

MIT DISTANZMATRITZEN VERGLEICHENÄhnliche Proteine haben ähnliche Doppellinien in ihrer Matrix, jedoch evtl. mit verschiedenen Abständen (da Insertionen).Durch entfernen der Insertionen in der Distanzmatrix sind Homologien erkennbar!Problem der fehlerhaften Strukturüberlagerung wird entfernt!

Was muss ich über Proteinfaltungen und Strukturvorhersagen wissen?

ANFINSONS PARADOGMADie komplette Information der 3D-Struktur ist schon inder Primärstruktur festgelegt

LEVINTHALS PARADOXONDie optimale Proteinstruktur zu berechnen ist (noch) unmöglich, da zu zeitaufwendigEs hilft aber, die Proteinumgebung zu kennen (z.B. wässrige Umgebung bei hydrophoben AS -> hydrophober Kollaps)

VARIABLEN1. Bindungsbegriff (Valenzbindungen)2. Dehnungsbegriff (flexible Moleküle)3. Nichtbindungsbegriff (andere Interaktionen wie VDW)

POTENTIALENERGIEOBERFLÄCHEStruktur-Energie-Beziehunglokale, möglichste globale Tiefpunkte werden gesucht da stabil (aber: MultiminimumsproblemMolekularmechanik mit Monte-Carlo-Simulation (von verschiedenen Punkten starten) und Simulated Annealing (Optimieren)

Neue Seite

Nächster

Sequenzmotife, Genomanalyse und Proteinfaltungsproblem

Beschreibung

Zusammenfassung der Ressource

Seite 1

ähnlicher Inhalt

	Erstellt von Svenja vor fast 11 Jahre