Módulo 2

Descripción

1.Evaluación caso empresarial 2. Identificación de datos. 3. Adquisición y filtrado de datos 4. Extracción de datos 5. Validación y limpieza de datos 6. Agregación y representación de datos 7. Análisis de datos 8. Visualización de datos 9. Uso de los resultados del análisis
Smac Smac
Fichas por Smac Smac, actualizado hace más de 1 año
Smac Smac
Creado por Smac Smac hace más de 7 años
41
0

Resumen del Recurso

Pregunta Respuesta
Etapas ciclo de vida Big data 1.Evaluación caso empresarial 2. Identificación de datos. 3. Adquisición y filtrado de datos 4. Extracción de datos 5. Validación y limpieza de datos 6. Agregación y representación de datos 7. Análisis de datos 8. Visualización de datos 9. Uso de los resultados del análisis
El análisis de sentimientos identifica la intensidad de la emoción? Si
Qué tipos de datos se filtran antes de extraerlos? Datos corruptos y sin valor
Cuales son los datos corruptos Registros con valores faltantes o sin sentido, o tipos de datos invalidos
Características que diferencian análisis de Big data con análisis tradicional Volumen, velocidad y variedad
Qué se debe crear, evaluar y aprobar antes de proceder con las tareas reales y prácticas de análisis? El caso empresarial
Ayudan a determinar que tan cerca esta el resultado de análisis de datos a cumplir los objetivos y metas KPIs
En que iteraciones es necesario una mayor inversión inicial? Iteraciones iniciales del ciclo de vida de análisis de Big data
Otro resultado de la etapa de evalúacion del caso de negocio Presupuesto (adquisición de herramientas, hardware, capacitación entre otros)
Qué se identifica en la etapa "identificación de datos" ? Datasets necesarios para el análisis asi como las fuentes de los mismos.
Tipos de datasets Internos y externos a la empresa
Entre más variedad de fuentes de datos se identifiquen... Más probabilidad de encontrar patrones y correlaciones ocultos
Antes de realizar filtrado a los datos se aconseja... Guardar una copia exacta de los dataset original comprimido
Para el análisis de datos en lote los datos se guardan.. Primero en disco y luego se realiza el análisis
Para el análisis de datos en real time.. Se analizan primero los datos y luego se guardan en disco
Para mejorar la clasificación, consultas, calidad de datos y saber la procedencia de datos se recomienda incluir... Metadata a los datos
Qué es ruido en los datos? Son datos no significativos
A que esta orientada la etapa de extracción de datos? Orientada a extraer distintos datos y convertirlos en un formato que la solución subyacente de Big data pueda usar para el análisis
Los datos inválidos pueden producir.. Sesgo y errores en los resultados del análisis
En que consiste la etapa de validación y limpieza de datos Orientada a establecer normas de validación y eliminar cualquier dato inválido conocido
Para que puede ser usada la validación de datos? Para examinar datasets interconectados con el fin de completar datos válidos faltantes
Para el análisis por lotes se puede realizar la limpieza y validación por medio de Herramientas ETL offline
Para el análisis en real time se realiza la limpieza y validación por medio Sistemas en memoria más complejos que los etls
Los datos que parecen ser inválidos aun pueden ser valiosos porque... Contienen Patrones y tendencias ocultas
En que consiste la etapa de agregación y representación de Datos? Integración de múltiples datasets para llegar a una vista unificada.
Dificultades al realizar agregacion y representación de datos 1.Diferencias en la estructura de los datos 2. Diferencias en la Semantica
A que se refiere la diferencia en estructura de datos? Aunque el formato de los datos puede ser el mismo el modelo no
A que se refiere la diferencia en la semántica de los datos? Los datos pueden estar etiquetados de diferente forma pero significar lo mismo ej apellido y lastname
Qué característica de Big data hace qué la agregación de datos consuma mucho tiempo y esfuerzo? Volumen
En la agregacion de datos se recomienda tener un deposito central porque... Una estructura de datos unificada actúa como común denominador qué puede ser usado para una variedad de técnicas y proyectos
En que consiste la etapa de análisis de datos Esta orientada a realizar la tarea real del análisis
El enfoque adoptado para ejecutar el análisis de datos puede clasificarse como Análisis confirmatorio o exploratorio(usa minería de datos)
El análisis confirmatorio es un análisis deductivo porque .. Se proporciona una hipótesis o se propone previamente la causa del fenómeno investigado.
En el análisis confirmatorio se usan los datos para.. Confirmar y refutar la hipótesis y dar respuestas definitivas a preguntas específicas. Los resultados inesperados no se tienen en cuenta
El análisis exploratorio es un enfoque... Inductivo estrechamente relacionado con la minería de datos
En que análisis puede qué no se tengan respuestas definitivas y se usen grandes cantidades de datos y análisis visual? Análisis exploratorio
En que consiste la etapa de visualización de datos Orientada a utilizar técnicas y herramientas de visualización para comunicar gráficamente los resultados del análisis de forma que los usuarios del negocio puedan interpretarlos efectivamente
En que consiste la etapa del uso de los resultados del análisis? Orientada a saber como y cuando se pueden aprovechar los datos procesados de análisis
Dependiendo de la naturaleza de los problemas abordados en el análisis es posible que los resultados generen.. modelos que encapsulen nueva información sobre la naturaleza de los patrones y relaciones qué existen en los datos que fueron analizados
Areas exploradas durante la última etapa del ciclo de vida Big data 1. Datos de entrada para sistemas empresariales 2. Optimizacion de procesos operacionales 3. Alertas
Cual es el área explorada? Una tienda online es alimentada con los resultados del análisis de clientes impactando las recomendaciones sobre productos a los clientes Datos de entrada a sistemas empresariales
Cual es el área explorada? Se informa por medio de correo electrónico a los usuarios sobre un evento ocurrido para que tomen acciones correctivas Alertas
Cual es el área explorada? Los patrones encontrados ayudaron a consolidar rutas de transporte para como parte del proceso de la cadena de suministros Optimizacion de procesos empresariales
Cuales son las técnicas de análisis de datos que se pueden aplicar en la etapa de análisis de datos (data analytics) 1.Análisis estadístico 2. Análisis visual 3. Aprendizaje automático (machine learning= 4. Análisis semántico
Cuales son las técnicas de análisis estadístico 1. Test A/B 2. Correlación 3. Regresión
Cuales son las técnicas de el Análisis visual? 1.Mapas de calor 2. Análisis de series temporales 3 . Análisis de redes 4. Análisis de datos espaciales
Cuales son las técnicas de machine learning? 1. Clasificacion 2. Agrupamiento (clustering) 3. Detección de datos atípicos (outlier) 4. Filtrado (filtering)
Cuales son las técnicas de análisis semántico? 1. Procesamiento de lenguaje natural 2. Analítica de texto 3. Análisis de sentimientos
Como funciona el test a/b Compara dos versiones de un elemento para saber que versión es superior con base en métricas predefinidas
Cual es la versión de control en el test a/b? Es la versión actual del elemento
La versión modificada en el test a/b se conoce como Version tratamiento
Qué es la correlación Técnica de análisis usada para saber si dos variables están relacionadas entre si
Ambas versiones del test a/b están sujetas ___ a un ____ Simultáneamente, experimento
La correlación se ajusta a una relación lineal, es decir cuando una variable cambia la otra cambia de manera... Proporcional y constante
Como se expresa el coeficiente de correlación Como un número decimal entre - 1 y +1
El grado de relación pasa de fuerte a débil cuando cambia de.. -1 a 0 o de 1 a 0
Cuando una variable aumenta la otra también, esto sugiere una relación... Positiva fuerte entre las dos variables (+1). Directamente proporcional
Cuando una variable aumenta la otra puede permanecer igual, aumentar o disminuir arbitrariamente, esto sugiere una correlación... Correlación de 0, lo cual sugiere que no hay ninguna relación entre las dos variables
Cuando una variable aumenta la otra disminuye, esto es una correlación... De - 1 sugiere que hay una relación negativa fuerte entre las dos variables. Inversamente proporcional
Qué investiga la técnica de análisis de Regresión Investiga como se relaciona una variable dependiente con una independiente dentro de un dataset
Qué técnica sirve para predecir los valores de una variable dependiente cuando estos son desconocidos? Regresion
Qué tipos de Regresión existen 1.Regresión lineal 2. Regresión no lineal
Este tipo de Regresión representa un ritmo variable de cambio Regresión no lineal
Este tipo de Regresión representa un ritmo constante de cambio Regresión lineal
Cuales son las diferencias entre correlación y Regresión La correlación asume que ambas variables son independientes (no implica casualidad) La Regresión incluye variables dependientes e independientes que ya fueron identificados (existe cierto grado de casualidad)
Qué es el análisis de series temporales? Realiza el Análisis de los datos que son registrados en intervalos periódicos de tiempo.
Qué son las series temporales? Una serie de valores ordenados por tiempo y registrados en intervalos regulares de tiempo
En Big data se aplica primero la Regresión o correlación ? Se aplica primero la correlación para determinar si existe relación luego se aplica la Regresión para investigar la relación y predecir los valores de la variable dependiente con base en valores conocidos de la variable independiente.
Qué son los mapas de calor Técnica de análisis visual para expresar patrones por medio de la relación de una parte con el todo y distribuciones geográficas de datos.
El mapa de calor es una representación visual de valores de___ codificada por___ Datos, colores
Un mapa de calor puede tener forma de Tabla o mapa
La correlación se usa comúnmente en Minería de datos
El tiempo en el análisis de series temporales es una variable De comparación
Los datos recopilados en las series temporales dependen del Tiempo
Qué es una red en el análisis de redes? Es una serie de entidades interconectadas
Qué es una entidad Una persona, grupo, objeto de dominio empresarial como un producto
Qué es el análisis de redes Técnica que se enfoca en analizar las relaciones entre las entidades de una red
Aplicaciones en el análisis de redess Optimizacion de rutas Análisis de redes sociales Pronóstico de propagación ej. Propagación de una enfermedad
Las relaciones entre entidades pueden tener dirección Unidireccional o bidireccional
En que consiste el análisis de datos espaciales Analisa datos basados en la ubicación con el fin de encontrar patrones geográficos entre las entidades
Los datos de entrada para el análisis de datos espaciales qué pueden contener? Ubicaciones exactas como latitud y longitud o contener información para hallar las ubicaciones como el código postal o direcciones ip
Cuales son las leyes del aprendizaje automático 1 ley de los grandes números 2 ley de la utilidad marginal decreciente
Cual es la ley de los grandes números La confianza con la cual se pueden realizar predicciones aumenta con el tamaño de los datos A mayor cantidad de datos mejores decisiones tomadas
En que consiste la ley de la utilidad marginal decreciente Comenzando con un tamaño de muestra razonablemente grande, el valor obtenido a partir del análisis de datos adicionales disminuye a medida que se añaden más datos a la muestra
La ley de la utilidad marginal decreciente aplica a big data? No cuanto más grande sea el volumen y variedad de los datos mayor es la posibilidad de encontrar nuevos patrones
En que consiste la clasificación Técnica de aprendizaje supervisada en donde los datos se clasifican en las categorías relevantes previamente aprendidas
Cuales son los pasos para clasificar? 1 el sistema es alimentado con datos ya categorizados, de manera que pueda entender las diferentes categorías 2 el sistema es alimentada con datos desconocidos pero similares para clasificarlos de acuerdo con el entendimiento qué ha desarrollado
Describa la técnica de clustering Técnica de aprendizaje automático no supervisado en el cual los datos son divididos en diferentes grupos de modo que los datos de cada grupo son lo más homogéneos o similares posibles y entre grupos los más heterogéneos o diferentes
El clustering necesita aprendizaje previo de categorías? No, las categorías son generadas implícitamente de acuerdo a las agrupaciones de los datos
En minería de datos para que se usa primero el análisis de clustering y luego la clasificación? El algoritmo de clustering genera las etiquetas necesarias de entrada para la clasificación
En que consiste el análisis de detección de datos atípicos u outliers Proceso de búsqueda de datos que son significativamente diferentes o inconsistentes con el resto de datos dentro de un data set determinado
Técnica que puede estar basada en aprendizaje supervisado y no supervisado Detección de datos atípicos u outliers
Qué es el filtrado de datos Encontrar items relevantes dentro de un pool de elementos
Cuales son los enfoques del filtering 1.Filtrado colaborativo 2. Filtrado basado en contenido
El enfoque de filtrado colaborativo esta basado en.. El comportamiento pasado del usuario y se colabora con el comportamiento de otros usuarios. De aquí se saca el ítem que se debe sugerir
El enfoque basado en contenido esta basado en... Solo se ve el comportamiento pasado del usuario. No requiere datos sobre otros usuarios. Solamente se dedica a las preferencias del usuario individual
Qué hace un sistema de recomendación? Predice las preferencias de un usuario y genera sugerencias ej películas, páginas web, personas etc
Qué representa el análisis semántico? Representa las prácticas que buscan extraer informacion importante de los datos de texto y de reconocimiento de voz
Qué es el procesamiento de lenguaje natural Es la capacidad que tiene una computadora de comprender el discurso y texto humano de forma natural, tal como lo hacen las personas
El procesamiento de lenguaje natural incluye reconocimiento de.. Texto y voz, en el caso de la voz el sistema intenta comprender y luego realiza una acción ej transcribir a texto
Qué es la analítica de texto Análisis especializado de texto mediante la aplicación de técnicas de minería de datos, machine learning y procesamiento de lenguaje natural con el fin de obtener valor del texto sin estructurar o semiestructurado
Cuales son los dos pasos de la analítica de texto 1.Análisis del texto contenido en los documentos 2. Categorizacion de los documentos usando las entidades y hechos extraídos
Qué se extrae en el primer paso del análisis de texto contenido en los documentos 1. Entidades con nombre 2. Entidades basadas en patrones ej código postal 3 conceptos ej un gobierno 4 hechos relaciones entre entidades ej santos es presidente de Colombia
De un texto se saca nombre url ciudad país y teléfono qué técnica se usó? Analítica de texto
Se quiere saber si un tweet publicado tiene acogida o no qué análisis se aplicaría Análisis de sentimientos
Qué es el análisis de sentimientos? Es una forma especializada de análisis de texto enfocada a determinar el sesgo o las emociones de las personas
Qué técnicas pueden usar análisis cuantitativo Las de análisis estadístico
Técnicas que usa el Análisis cualitativo Las de análisis semántico
Técnicas que usa la minería de datos Todas menos test ab, Regresión, clasificación, filtrado y sentimientos
Técnicas que usa la analítica descriptiva Test a/b Mapas de calor y análisis de datos espaciales
Técnicas que usa la analítica diagnóstica Análisis estadístico (menos test a/b) y análisis visual (menos mapas de calor)
Análisis prescriptivo Análisis estadístico (sin test a/b) Series temporales Machine learning (sin Filtrado) Análisis semántico
Técnicas que usa la analítica prescriptiva Todas menos test ab y filtrado
Técnicas que usa el aprendizaje supervisado 6 últimas pero cambiar clasificación por clustering
Técnicas que usa el Análisis no supervisado 6 ultimas
Se analizan comentarios textuales de redes para comprende las razones por las cuales un usuario recomienda un producto Análisis de sentimientos
Técnica para saber si un correo es deseado o es spam Clasificación
Se prueba o refuta la hipótesis de que la fotosíntesis esta relacionada con la luz Correlación
Se determina la precisión de la intensidad de la luz para obtener el índice más alto de fotosíntesis Regresión
Se analisa el flujo de líquido en tuberías de drenaje interconectadas Análisis de datos redes
Qué es un cluster? Conjunto de nodos o servidores perfectamente acoplados
Características de los servidores en un cluster 1.Tienen las mismas especificaciones de hardware 2. Conectados a una misma red para trabajar como unidad 3. Cada nodo del cluster cuenta con sus propios recursos dedicados (memoria y dd) 4 se ejecutan tareas con base en frameworks distribuidos/paralelo.
Qué es un sistema de archivos Método de almacenamiento y organización de datos en un medio de almacenamiento,
Cual es la unidad atómica (indivisible) en un sistema de archivos? Archivo
Qué es un sistema de archivos distribuidos Sistema de archivos con capacidad de almacenar archivos grandes a lo largo de un cluster (ej Hadoop, hdfs, spark, Google file system)
Qué es una base de datos NoSql Es una base de datos no relacional
Características de una base de datos nosql 1.Altamente escalable 2. Tolerante a errores 3. Alberga datos sin estructurar
Defina el procesamiento de datos en paralelo Implica la ejecución de múltiples subtareas qué en conjunto componen una tarea mayor
El procesamiento de datos en paralelo casi siempre se ejecuta en una maquina y esta máquina tiene múltiples Procesadores o núcleos
Qué diferencia existe entre procesamiento paralelo de datos y procesamiento distribuido de datos? Paralelo: ejecuciones en una maquina y múltiples núcleos Distribuido: ejecuciones en múltiples maquinas conectadas en red que forman un cluster
Qué son las cargas de trabajo de procesamiento. Cantidad y tipos de datos procesados en un lapso de tiempo
Tipos de cargas de trabajo Lotes Transaccionales
Característica principal de la carga de trabajo en lote Retrasos qué producen Alta latencia
El procesamiento transaccional se conoce también como en___ y tiene baja___ En línea, latencia
*OLTP *BI operacional *Analítica operaricioal Son sistemas_____ Transaccionales o en linea
*OLAP *BI estratégico * Analítica estratégica Son sistemas qué se procesan en___ Lote u offline
Razones para implementar Big data en la nube *El equipo de ti ta cuenta con las capacidades necesarias de Cloud computing *Los datos de entrada ya existen en la nube
Cloud computing ofrece tres componentes requeridos por Big data Datos de entrada Calculo Almacenamiento
Qué son los mecanismos de Big data Son los componentes principales comunes de las soluciones Big data independientemente del proveedor
Cuales son los mecanismos 1 Dispositivo de almacenamiento (storage device) 2 motor de procesamiento ( processing engine) 3 gestor de recursos (resource manager) 4 motor de transferencia de datos (data transfer engine) 5 motor de consultas (query engine) 6 motor analítico (analytics engine) 7 motor de flujo de trabajo (workflow) 8 motor de coordinación (coordination engine)
Cuales son los mecanismos mínimos qué deben estar presentes en una solución Big data Dispositivo de almacenamiento Motor de procesamiento Gestor de recursos
Qué proporcionan los dispositivos de almacenamiento Proporcionan un entorno de almacenamiento de datos para guardar los datasets a analizar
Un dispositivo de almacenamiento puede contener.. Un sistema de archivos distribuidos o una base de datos
Los sistemas de archivos distribuidos se pueden usar para guardar Datos inmutables qué serán utilizados con fines de acceso de transmisión o procesamiento por lotes
Qué hace el motor de procesamiento Encargado de procesar los datos recuperados generalmente de un dispositivo de almacenamiento basado en una lógica predefinida y producir un resultado
El motor de procesamiento utiliza un framework Distribuido de programación paralela
Categorías de los motores de procesamiento *Motor de procesamiento Por lotes *Motor de procesamiento en tiempo real
Qué hace el gestor de recursos Planificador qué prioriza y coordina las solicitudes de procesamiento de acuerdo a los requisitos individuales de cargas de trabajo de procesamiento
Qué permite el motor de transferencia de datos Permite que los datos sean transferidos dentro o fuera de los dispositivos de almacenamiento
Tipos de motor de transferencia de datos Ingreso (eventos) y egreso
Qué hace el motor de consultas Abstrae el motor de procesamiento de los usuarios finales proporcionando una interfaz de usuario que puede usarse para consultar datos y cuenta con características para crear planes de ejecución de consultas
Motor analítico Puede procesar avanzados algoritmos estadísticos y de aprendizaje automático
Describa work flow Permite Diseñar yo procesar una secuencia compleja de operaciones que puede ser activada periódicamente o cuando los datos estén disponibles
Describa motor de coordinación Una solución distribuida de Big data wur deba ejecutarse en varios servidores depende de un motor de coordinación a fin de garantizar la consistencia operativa en todos los servidores involucrados
El motor de procesamiento usa el motor de coordinación para... Coordinar procesamiento de datos en un gran número de servidores
Los motores de transferencia de datos basados en eventos utilizan un modelo basado en.. Publicación - suscripción basado en el uso de colas
Cuánta cosecha debería esperar el agricultor con base en los datos históricos de cosechas? Analisis de series temporales
¿Cómo puedo analizar los jugadores de fútbol de acuerdo con sus fortalezas y debilidades? Mapas de calor
¿Cómo puedo encontrar libros con contenido relevante para el tema que estoy estudiando? Analítica de texto
¿Cómo puedo identificar los contratos que tienen información confidencial de la empresa? Analítica de texto
¿Cómo puedo identificar patrones de interacción entre una gran cantidad de interacciones entre proteínas? Análisis de redes
¿Cómo puedo ver si existe algún patrón de los diferentes tipos de cáncer con respecto a distintos grupos étnicos? Mapas de calor
¿Cómo se puede diseñar un sistema que entienda correctamente los distintos acentos del inglés? Procesamiento de lenguaje natural NPL
¿Cuál de los participantes de un concurso de canto es el probable ganador? Análisis de sentimientos
¿Cómo se pueden identificar automáticamente los errores gramaticales? Procesamiento de lenguaje natural NPL
¿Cuál es el aumento de la población que se espera en los próximos cinco años? Análisis de series temporales
¿Cuáles serán las calificaciones de un estudiante de secundaria, tomando como base sus calificaciones en primaria? Regresion
¿Cuáles son las posibilidades de que una persona llegue a ser obesa con base en la cantidad de alimentos que consume? Regresion
¿Cuáles son los destinos vacacionales recomendados con base en el historial de viajes de un turista? Filtrado
¿Cuáles son los diferentes grupos de virus, con base en sus características? Agrupamiento (Clustering)
¿Cuántas categorías diferentes de elementos hay en la tabla periódica? Agrupamiento (Clustering)
¿Cuántas especies diferentes de árboles existen, con base en las semejanzas entre ellos? Agrupamiento (Clustering)
¿Dos personas están relacionadas entre sí por una larga cadena de ancestros? Análisis de redes
¿En dónde se encuentran las concentraciones altas y bajas de un mineral específico con base en las lecturas tomadas de varias ubicaciones de muestra en un área? Análisis de datos espaciales
¿Existe alguna fruta o vegetal identificado erróneamente en el dataset de entrenamiento utilizado para la tarea de clasificación? Detección de datos atípicos
¿Existe una cepa del virus que no responda a los medicamentos? Detección de datos atípicos
¿Hasta qué punto la obesidad se relaciona con el consumo excesivo de alimentos? Correlación
¿La disminución actual de ventas es un hecho puntual u ocurre periódicamente? Análisis de series temporales
¿La nueva fórmula para un champú anticaspa será más efectiva que la anterior? Test a/b
La página de inicio del sitio web recientemente diseñada está generando más tráfico de usuarios? Test a/b
¿Los clientes se están cambiando a la competencia? Analisis de sentimientos
¿Los estudiantes que tienen un buen desempeño en primaria se desempeñan de igual forma en la secundaria? Correlacion
¿Qué otros nuevos usuarios se pueden sugerir como amigos con base en el perfil actual de una persona? Filtrado
¿Qué tan lejos deben desplazarse los clientes para llegar a un supermercado? Análisis de datos espaciales
Con base en el registro de una huella digital anterior, ¿se puede decir si una huella digital pertenece a un sospechoso? Clasificacion
Con base en los ejemplos conocidos de frutas y vegetales, ¿se puede determinar si un tomate es una fruta o una verdura? Clasificacion
Motor necesario para procesar un ETL (filtra, extrae, valida ,limpia, formatea) Motor de procesamiento por lotes
Mecanismo necesario para permitir procesar tipos de solicitudes individual o simultáneamente como ETLs o consultas Gestor de recurss
Mecanismo para obtener datos importados por medio de un motor de entrada de archivos. Igualmente, se requiere un motor de salida que pueda exportar los datos a la bodega de datos digital (Data Warehouse) para usar los datos procesados en la base de datos NoSQL. Motor de transferencia de datos
Mecanismo para permitir una solucion automatizada que pueda crear un flujo de trabajo de operaciones de porcesamiento e importacion de datos cuando esten disponibles Motor de flujo de trabajo
Mecanismo que permite acceder a los datos actuales e históricos resumidos y limpios para realizar análisis predictivo. Motor de consultas (query engine)
Enuncie la técnica de analisis: Se deben identificar los patrones históricos de ventas, con el fin de desarrollar una capacidad de predicción de ventas para prever los patrones futuros de ventas. Analisis de series temporales
Pasos adquisición y filtrado 1. copia comprimida data set original y almacenarlo en un sistema de archivos distribuido 2. eliminar registros corruptos del dataset 3. filtrar datos que no son necesarios para el análisis 4. añadir metadata que puedan servir para determinar origen de los datos, calidad y exactitud
Pasos Validación y limpieza (Cleansing) de datos 1.Completar registros con información faltante de otras fuentes de datos como CRM 2.Eliminar registros inválidos teniendo como base una fuente confiable
Pasos agregación y representación de datos 1. Combinar datos validados de las diferentes fuentes 2. Establecer un almacén de datos estándar como una base de datos no sql
Técnica usada para convertir llamadas en texto NPL
Tecnica usada para convertir a texto estructurado sobre el cual se puedan ejecutar busquedas, analisis y mineria. ej: cuales son las razone mas comunes de devolucion de productos Text analitycs
Técnica usada para saber que cliente podria estar cancelando un servicio Analisis de sentimientos
Mecanismo que sirve para ejecutar técnicas avanzadas de estadistica, mineria de datos y machine learning Motor analitico
mecanismo para manejar grandes volumenes de datos historicos de compras motor de procesamiento en lote
Mostrar resumen completo Ocultar resumen completo

Similar

Mapa mental BIG DATA
leydam
Mapa Mental Big Data
Juan Carlos Estr7460
BIG DATA
Jairy Meneses
MÓDULO 2. DE LA INFORMACIÓIN AL CONOCIMIENTO
Drusila Torres Zúñiga
fichas modulo 2
sebastian hoyos
Examen Fundamental Big Data
Juan Taborda
Big Data
eaavilas
Mapa mental de PARÁMETROS CURRICULARES PARA LA EDUCACIÓN INDÍGENA
rutza
Glosario Terminos competencias digitales
Rosario Arana
Modulo 2 - Big Data Analysis & Technology Concepts
Juan Taborda
Big Data Tema 1 Introducción al big data en la educación
Adriana Marzuca