Created by ANGELLY ARAUJO
about 7 years ago
|
||
Question | Answer |
PRE-PROCESAMIENTO Y CALIDAD DE DATOS
QUE HOY POR HOY SE GENERAN DEMASIADAS MASAS O CANTIDADES INMENSAS DE INFORMACIÓN GRACIAS A LA AYUDA Y APORTE DE LA TECNOLOGÍA Y QUE ESTO CONLLEVA A QUE MUCHOS DE ESTOS SISTEMAS SE SATUREN O NO FUNCIONEN CORRECTAMENTE.
Image:
Images (binary/octet-stream)
|
SIN DEJAR DE LADO LOS ASPECTOS IMPORTANTES COMO LO ES LA VARIEDAD DE LOS DATOS Y EL VALOR INTRÍNSECO DE LOS DATOS |
EL CONOCIMIENTO EXTRAÍDO DEPENDE EN GRAN PARTE DE LA CALIDAD QUE ESTOS DATOS PUEDAN OFRECER ES DECIR QUE LA INFORMACIÓN QUE NOSOTROS OBTENGAMOS SEA REAL SEA FACTIBLE YA QUE ESTA PUEDE SER INTERRUMPIDA O OPACADA POR AGENTES EXTERIORES COMO EL RUIDO Y LOS VALORES PERDIDOS. | SE A DESARROLLADO Y SE ESTA IMPLEMENTANDO EL SMART DATA QUE ES EL ENCARGADO DE OCULTAR O DISMINUIR EL RUIDO Y ASEGURARSE DE QUE EL CONOCIMIENTO O LA INFORMACIÓN SE MANTENGA VALIOSA PARA ASÍ TOMAR DECISIONES INTELIGENTES. |
HAY TRES CARACTERÍSTICAS QUE SON ASOCIADAS A ESTE NUEVO CICLO: PROCESA-BLE,Y ÁGIL | los datos deben ser lo que se dice, es importante la calidad de datos. |
Debido a que normalmente el uso de datos de baja calidad implica un proceso de minería de datos con pobres resultados | La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de Minería de datos. |
Selección relevante de datos: eliminando registros duplicados, eliminando anomalías, … Reduccion de Datos: Selección de características, muestreo o selección de instancias, discretización. | Para la mayoría de problemas actuales con datos masivos es necesario el uso de una solución distribuida escalable porque las soluciones secuenciales no son capaces de abordar tales magnitudes. |
Los algoritmos de pre procesamiento también están afectados por el problema de la esca labilidad | escabilidad |
La limpieza de datos es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. | , la transformación de datos se efectúa para asegurarse que estos tienen una distribución normal |
Imputar valores perdidos se utiliza para generar imputaciones múltiples. Los conjuntos de datos completos pueden analizarse con procedimientos que admiten conjuntos de datos de imputación múltiple. | Actualmente, la aparición de nuevas tecnologías y la explosión de datos plantean un gran desafío en este aspecto, y ello se traduce en una mayor complejidad técnica a la hora de implementar un plan de integración de datos. |
es cualquier dato que podría identificar potencialmente a un individuo específico. | Hoy en día no es posible pensar en procesamiento de grandes bases de datos sin considerar Hadoop, la referencia para el tratamiento distribuido de los datos que sirve como motor para gran parte de las aplicaciones basadas en Big Data. |
Want to create your own Flashcards for free with GoConqr? Learn more.