Pre-procesamiento y calidad de datos victor lince

Description

etiquetas lince
ANGELLY ARAUJO
Flashcards by ANGELLY ARAUJO, updated more than 1 year ago
ANGELLY ARAUJO
Created by ANGELLY ARAUJO about 7 years ago
3
0

Resource summary

Question Answer
PRE-PROCESAMIENTO Y CALIDAD DE DATOS QUE HOY POR HOY SE GENERAN DEMASIADAS MASAS O CANTIDADES INMENSAS DE INFORMACIÓN GRACIAS A LA AYUDA Y APORTE DE LA TECNOLOGÍA Y QUE ESTO CONLLEVA A QUE MUCHOS DE ESTOS SISTEMAS SE SATUREN O NO FUNCIONEN CORRECTAMENTE. SIN DEJAR DE LADO LOS ASPECTOS IMPORTANTES COMO LO ES LA VARIEDAD DE LOS DATOS Y EL VALOR INTRÍNSECO DE LOS DATOS
EL CONOCIMIENTO EXTRAÍDO DEPENDE EN GRAN PARTE DE LA CALIDAD QUE ESTOS DATOS PUEDAN OFRECER ES DECIR QUE LA INFORMACIÓN QUE NOSOTROS OBTENGAMOS SEA REAL SEA FACTIBLE YA QUE ESTA PUEDE SER INTERRUMPIDA O OPACADA POR AGENTES EXTERIORES COMO EL RUIDO Y LOS VALORES PERDIDOS. SE A DESARROLLADO Y SE ESTA IMPLEMENTANDO EL SMART DATA QUE ES EL ENCARGADO DE OCULTAR O DISMINUIR EL RUIDO Y ASEGURARSE DE QUE EL CONOCIMIENTO O LA INFORMACIÓN SE MANTENGA VALIOSA PARA ASÍ TOMAR DECISIONES INTELIGENTES.
HAY TRES CARACTERÍSTICAS QUE SON ASOCIADAS A ESTE NUEVO CICLO: PROCESA-BLE,Y ÁGIL los datos deben ser lo que se dice, es importante la calidad de datos.
Debido a que normalmente el uso de datos de baja calidad implica un proceso de minería de datos con pobres resultados La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de Minería de datos.
Selección relevante de datos: eliminando registros duplicados, eliminando anomalías, … Reduccion de Datos: Selección de características, muestreo o selección de instancias, discretización. Para la mayoría de problemas actuales con datos masivos es necesario el uso de una solución distribuida escalable porque las soluciones secuenciales no son capaces de abordar tales magnitudes.
Los algoritmos de pre procesamiento también están afectados por el problema de la esca labilidad escabilidad
La limpieza de datos es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. , la transformación de datos se efectúa para asegurarse que estos tienen una distribución normal
Imputar valores perdidos se utiliza para generar imputaciones múltiples. Los conjuntos de datos completos pueden analizarse con procedimientos que admiten conjuntos de datos de imputación múltiple. Actualmente, la aparición de nuevas tecnologías y la explosión de datos plantean un gran desafío en este aspecto, y ello se traduce en una mayor complejidad técnica a la hora de implementar un plan de integración de datos.
es cualquier dato que podría identificar potencialmente a un individuo específico. Hoy en día no es posible pensar en procesamiento de grandes bases de datos sin considerar Hadoop, la referencia para el tratamiento distribuido de los datos que sirve como motor para gran parte de las aplicaciones basadas en Big Data.
Show full summary Hide full summary

Similar

San Francisco de Asís-Mapa Mental
Julio Rodrigo Villanueva Bocanegra
Capacitación y entrenamiento para los evaluadores de desempeño
iri_cl
TEORÍA DEL VALOR
Paula Buitrago
ETIQUETAS...
JL Cadenas
Razonamiento Verbal
Luciana Candia T
Diagramas
andres londoño
Patent License Negotiation: Best Practices
Alejandro Sierra
Biblioteca de Goconqr
Módulo II TIC
Tablas en Html
Jocelyn Zarate
GRAFICAS EN EXCEL
Andrea Juarez Guerrero