PROSITEenthält Motife und Muster von Proteinsequenzen
GENREGULATIONRegulierende Sequenzen im Genom: Regulatoren, Promotor (TATA+SDS)
MOTIFE= kurze (wiederkehrende) Muster der DNA.
PROKARYOTENweniger Transkriptionsfaktoren, längere Motife, mehr codierende Sequenzen, nicht so ausgeklügelte Genregulation wie Eukaryoten
SEQUENZLOGOstellt Wahrscheinlichkeit von Nukleotiden je nach Position dar, Maß der Konservierung
KONSENSUSSEQUENZ"beste" Sequenz, kann aus I-Werten berechnet werden
KONSERVIERUNGI = Maß der KonservierungI = 2+Summe [f(Base b an Pos. i) log f (b,i)]Perfekte Konservierung: I = 2 bits2 Basen zu je 50 %: I = 1 bitAlle Basen gleich wahrscheinlich: I = 0 bitsI (seq) = Maß der Konservierung einer gesamten Sequenz
KLEIN-SAMPLE-KORREKTURI (seq) ist nie Null, d.h. wenn man kleine Sequenzen vergleicht ist es unmöglich dass sie sich immer komplett unterscheiden!
HINTERGRUNDHÄUFIGKEITENJeder Organismus hat unterschiedliche Basenhäufigkeiten.Mensch: 41 % GC-GehaltE. coli: 51 % GC-GehaltS. cerevisiae: 38 % GC-Gehalt
WEBLOGOerstellt Sequenzlogos
HIDDEN-MARKOV-MODELLgibt an, welche Sequenz wie wahrscheinlich ist (zeigt also auch Präferenzen)Score berechenbar: Alle Wahrscheinlichkeiten des Modells aufmultiplizieren
LOG-ODDS-SCORE= HMM, aber angepasst an Sequenzlänge und Hintergrundhäufigkeit. Hoher log-odds-Score ist gut!log-odds(Sequenz) = log[Wahrsch./0,25^L]mit L = Längenparameter und 0,25=Durchschnittsvorkommen einer Base (variiert bei anderer Hintergrundhäufigkeit)
Was muss ich über Sequenzmotife wissen?
Was muss ich über die Genomanalyse wissen?
GENOMkomplette vererbliche Information eines Organismus, codiert in DNA (Viren: teils RNA)Gene + nicht codierende Sequenzen
NUKLEARES GENOMGenom ohne DNA aus Mitochondrien/ Plastiden (Mitochondrium: ca. 17 kb beim Menschen, Chloroplasten: ab 120 kb)
INHALTE DES MENSCHLICHEN NUKLEAREN GENOMS Exons Introns Pseudogene DNA Transposons Mikrosatelliten Retrotransposons (LINE, SINE, LTR Elemente)
#GENEBei Bakterien: ca. 1000 Gene pro MB
NCBI= National Centre for Biotechnology Informationbeinhaltet u.A. Genome verschiedener Organismenbietet Zugang zu vielen Datenbanken
CDS= Coding Sequence = übersetzte DNA (je nach Organismus unterschiedlich)
SHOTGUN SEQUENCINGPrinzip: Terminationsbasen werden bei der Replikation zufällig eingebaut, es werden Fragmente unterschiedlichster Länge produziertZusatz: Je nach Base VOR der Terminationsbase leuchtet das Fragment in eienr anderen Farbe --> Genomsequenzierung!
CLONE-BY-CLONE SHOTGUN SEQUENCINGDas zu sequenzierende Gen wird "gemappt", d.h. vor der Sequenzierung in Regionen unterteilt, welche wiederum jeweils kloniert werden. Es entstehen so mehrere Klonserien (Contigs), die einzeln sequenziert werden und am Ende (per Alignment) zusammengefügt werden.
WHOLE GENOME SHOTGUN SEQUENCINGKein Mapping, d.h. die Gene werden (nach Replikation) sofort sequenziert, stattdessen helfen Markierungen beim Sortieren
LIBRARY=komplettes Genom beim Shotgun Sequencing
SHOTGUN SEQUENCE ASSEMBLY= automatisiertes Zusammenfügen der berechneten Sequenzen, dabei helfen Marker bei der Positionsbestimmung
HYBRID SHOTGUN SEQUENCING= Kombination aus Whole genome und Clone-by-clone Sequencing
ESTs= expressed sequence tags= sequenzierte cDNAbeinhaltet also nicht Promotoren/ Introns/ ...
cDNADNA -> mRNA -> cDNA= DNA-Version der mRNA (mit reverser Transkriptase), also nur die "transkribierte" DNA
GENANZAHLEntscheidend ist nicht die zahl der Gene, sondern deren Komplexität! Reis hat mehr Gene als der Mensch, aber der mensch hat ein größeres Transkriptom
DAS EUKARYOTISCHE GENOM26 % Introns1,5 % proteincodierend5 % Duplikationen3 % Repeats13 % SINEs, 20 % LINEs (short/ long interspersed nuclear elements)
Was muss ich über Proteinstrukturen wissen?
RMSD= Root Mean Square DeviationMaß für die Richtgkeit einer Strukturvorhersage, je kleiner desto besser; beruht auf Atompositionen
DOPPELT DYNAMISCHES PROGRAMMIEREN= Alignen + Strukturüberlagerung2 Level: Unteres und oberes Level, das optimale Alignment vom unteren Level wird im oberen Level weiter optimiertOptimales Alignment wird in einer Zusammenfassungsmatrix dargestellt
DISTANZMATRIXDotplot, zeigt den Atomabstand an. Kleiner Abstand = Dot, Großer Abstand = kein DotInteragierende Atome bilden hier parallele Linien, die als Strukturen zu deuten sind (und immer eine Diagonale)
MIT DISTANZMATRITZEN VERGLEICHENÄhnliche Proteine haben ähnliche Doppellinien in ihrer Matrix, jedoch evtl. mit verschiedenen Abständen (da Insertionen).Durch entfernen der Insertionen in der Distanzmatrix sind Homologien erkennbar!Problem der fehlerhaften Strukturüberlagerung wird entfernt!
Was muss ich über Proteinfaltungen und Strukturvorhersagen wissen?
ANFINSONS PARADOGMADie komplette Information der 3D-Struktur ist schon inder Primärstruktur festgelegt
LEVINTHALS PARADOXONDie optimale Proteinstruktur zu berechnen ist (noch) unmöglich, da zu zeitaufwendigEs hilft aber, die Proteinumgebung zu kennen (z.B. wässrige Umgebung bei hydrophoben AS -> hydrophober Kollaps)
VARIABLEN1. Bindungsbegriff (Valenzbindungen)2. Dehnungsbegriff (flexible Moleküle)3. Nichtbindungsbegriff (andere Interaktionen wie VDW)
POTENTIALENERGIEOBERFLÄCHEStruktur-Energie-Beziehunglokale, möglichste globale Tiefpunkte werden gesucht da stabil (aber: MultiminimumsproblemMolekularmechanik mit Monte-Carlo-Simulation (von verschiedenen Punkten starten) und Simulated Annealing (Optimieren)
Neue Seite
Want to create your own Notes for free with GoConqr? Learn more.