El objetivo de este artículo es revisar algunos
aspectos de chips de ADN en mediciones de
expresión génica, describir los enfoques analíticos
comunes, y familiarizarse con datos generados por
el aprendizaje de estas tecnologías.
Biología detrás de las
mediciones de microarrays
de expresión génica
La información de la secuencia de nuestro
genoma sirve como base para el desarrollo de
microarrays de ADN.
En general, un microarray (o chip) se
compone de miles de secuencias de
ADN (sondas), correspondientes a
segmentos de genes que se colocan en
posiciones específicas
Al marcar un cADN con un colorante fluorescente la cuantificación de la
intensidad de la señal de fluorescencia permite evaluar la cantidad de
hibridación
El conocimiento de la secuencia de nucleótidos de
un gen no conduce directamente al conocimiento
en relación con el nivel de expresión de ese gen.
la expresión de genes varía
de acuerdo con el
desarrollo etapa, el tejido,
la edad y las condiciones
ambientales
La expresión génica es un
paso intermedio antes de
la ensamblaje de las
proteínas a partir de sus
componentes básicos
INTRODUCCIÓN
Los Microarrays
miden y analizan la
expresión de miles
de genes
La medición de la expresión génica: El objetivo de las tecnologías de
microarrays de ADN es medir el nivel de expresión para grandes
conjuntos de genes, de manera global.
Con el crecimiento del uso de chips de ADN han crecido
las bases de datos y con ayuda de estas los ingenieros
biomédicos están buscando alternativas para el
tratamiento de enfermedades de todo tipo.
Recoger datos sirve para probar nuevos
algoritmos con el fin de optimizar el
reconocimiento de patrones y aplicarlos a
los algoritmos.
Hay dos plataformas de microarrays
comunes para la investigación de la
expresión génica: ADN complementario
(ADNc) y microarrays de ADN.
Como acceder a los datos?
Los datos publicados por lo general
constituyen una transformación de la
versión del conjunto de datos inicial
Es importante que esta información
sea archivada de forma
estandarizada
Esto permite a los investigadores
compartir información común y hacer
comparaciones válidas entre
experimentos
No todos los conjuntos de datos disponibles de
microarrays son apropiados para máquinas de
investigación del aprendizaje
Las técnicas más comunes
cuestiones que deben ser
considerados para un
estudio
tipo de plataforma de
microarrays de ADN
seleccionado
mRNA preparación
análisis de
datos
cada paso de un
experimento de
microarrays está sujeta
a diferentes fuentes de
variabilidad
Pre-procesamiento
El filtrado es un enfoque
para reducir la número de
genes para análisis de datos
Genes alta
abundancia =
Más confables
Genes con
baja
abundancia
= Menos
confiables
incluye la
identificación y la
eliminación de
elementos de
matriz antes de
continuar análisis
Los modelos estadísticos
Hay una Necesidad de ampliar el
conjunto de modelos disponibles
para los investigadores ya que les
permiten seleccionar los
modelos adecuados para sus
datos
El análisis no puede garantizar que los
grupos de interés será el resultado de los
datos, aunque esto puede de hecho
suceder
La identificación de los genes que más contribuyen a
la estimación de un modelo predictivo particular, se
puede hacer a través de los métodos de selección de
variable.
Se necesitan nuevos
métodos para la selección
de variables.
Dos enfoques utiles
Remuestreo de los
casos de formación
Disminución en el
número de variables.
El intervalo de confianza es necesario
introducir para tener en cuenta la
correlación de los resultados.
CONCLUSIÓN
En conclusión, las nuevas fuentes de datos
tales como los derivados a partir del gen
microarrays de expresión ofrecen nuevos
retos para el desarrollo y evaluación de
estadística y algoritmos de aprendizaje
automático.
Validación biológica
de resultados
La grupación de
genes que han sido
identificados como
vinculados a una
determinada
condición o proceso
de desarrollo
requiere nueva
investigación para
determinar su
importancia
biológica.
varios estudios han
demostrado que in situ
hibridaciones pueden ser
utilizada para detectar
un gran número de
genes candidatos
señalización moléculas o factores de
transcripción son comúnmente
expresado en múltiples tejidos o etapas
La importancia funcional de cualquier gen
corto depende de la presencia o ausencia
de productos de muchos otros genes.