Pregunta | Respuesta |
Etapas ciclo de vida Big data | 1.Evaluación caso empresarial 2. Identificación de datos. 3. Adquisición y filtrado de datos 4. Extracción de datos 5. Validación y limpieza de datos 6. Agregación y representación de datos 7. Análisis de datos 8. Visualización de datos 9. Uso de los resultados del análisis |
El análisis de sentimientos identifica la intensidad de la emoción? | Si |
Qué tipos de datos se filtran antes de extraerlos? | Datos corruptos y sin valor |
Cuales son los datos corruptos | Registros con valores faltantes o sin sentido, o tipos de datos invalidos |
Características que diferencian análisis de Big data con análisis tradicional | Volumen, velocidad y variedad |
Qué se debe crear, evaluar y aprobar antes de proceder con las tareas reales y prácticas de análisis? | El caso empresarial |
Ayudan a determinar que tan cerca esta el resultado de análisis de datos a cumplir los objetivos y metas | KPIs |
En que iteraciones es necesario una mayor inversión inicial? | Iteraciones iniciales del ciclo de vida de análisis de Big data |
Otro resultado de la etapa de evalúacion del caso de negocio | Presupuesto (adquisición de herramientas, hardware, capacitación entre otros) |
Qué se identifica en la etapa "identificación de datos" ? | Datasets necesarios para el análisis asi como las fuentes de los mismos. |
Tipos de datasets | Internos y externos a la empresa |
Entre más variedad de fuentes de datos se identifiquen... | Más probabilidad de encontrar patrones y correlaciones ocultos |
Antes de realizar filtrado a los datos se aconseja... | Guardar una copia exacta de los dataset original comprimido |
Para el análisis de datos en lote los datos se guardan.. | Primero en disco y luego se realiza el análisis |
Para el análisis de datos en real time.. | Se analizan primero los datos y luego se guardan en disco |
Para mejorar la clasificación, consultas, calidad de datos y saber la procedencia de datos se recomienda incluir... | Metadata a los datos |
Qué es ruido en los datos? | Son datos no significativos |
A que esta orientada la etapa de extracción de datos? | Orientada a extraer distintos datos y convertirlos en un formato que la solución subyacente de Big data pueda usar para el análisis |
Los datos inválidos pueden producir.. | Sesgo y errores en los resultados del análisis |
En que consiste la etapa de validación y limpieza de datos | Orientada a establecer normas de validación y eliminar cualquier dato inválido conocido |
Para que puede ser usada la validación de datos? | Para examinar datasets interconectados con el fin de completar datos válidos faltantes |
Para el análisis por lotes se puede realizar la limpieza y validación por medio de | Herramientas ETL offline |
Para el análisis en real time se realiza la limpieza y validación por medio | Sistemas en memoria más complejos que los etls |
Los datos que parecen ser inválidos aun pueden ser valiosos porque... | Contienen Patrones y tendencias ocultas |
En que consiste la etapa de agregación y representación de Datos? | Integración de múltiples datasets para llegar a una vista unificada. |
Dificultades al realizar agregacion y representación de datos | 1.Diferencias en la estructura de los datos 2. Diferencias en la Semantica |
A que se refiere la diferencia en estructura de datos? | Aunque el formato de los datos puede ser el mismo el modelo no |
A que se refiere la diferencia en la semántica de los datos? | Los datos pueden estar etiquetados de diferente forma pero significar lo mismo ej apellido y lastname |
Qué característica de Big data hace qué la agregación de datos consuma mucho tiempo y esfuerzo? | Volumen |
En la agregacion de datos se recomienda tener un deposito central porque... | Una estructura de datos unificada actúa como común denominador qué puede ser usado para una variedad de técnicas y proyectos |
En que consiste la etapa de análisis de datos | Esta orientada a realizar la tarea real del análisis |
El enfoque adoptado para ejecutar el análisis de datos puede clasificarse como | Análisis confirmatorio o exploratorio(usa minería de datos) |
El análisis confirmatorio es un análisis deductivo porque .. | Se proporciona una hipótesis o se propone previamente la causa del fenómeno investigado. |
En el análisis confirmatorio se usan los datos para.. | Confirmar y refutar la hipótesis y dar respuestas definitivas a preguntas específicas. Los resultados inesperados no se tienen en cuenta |
El análisis exploratorio es un enfoque... | Inductivo estrechamente relacionado con la minería de datos |
En que análisis puede qué no se tengan respuestas definitivas y se usen grandes cantidades de datos y análisis visual? | Análisis exploratorio |
En que consiste la etapa de visualización de datos | Orientada a utilizar técnicas y herramientas de visualización para comunicar gráficamente los resultados del análisis de forma que los usuarios del negocio puedan interpretarlos efectivamente |
En que consiste la etapa del uso de los resultados del análisis? | Orientada a saber como y cuando se pueden aprovechar los datos procesados de análisis |
Dependiendo de la naturaleza de los problemas abordados en el análisis es posible que los resultados generen.. | modelos que encapsulen nueva información sobre la naturaleza de los patrones y relaciones qué existen en los datos que fueron analizados |
Areas exploradas durante la última etapa del ciclo de vida Big data | 1. Datos de entrada para sistemas empresariales 2. Optimizacion de procesos operacionales 3. Alertas |
Cual es el área explorada? Una tienda online es alimentada con los resultados del análisis de clientes impactando las recomendaciones sobre productos a los clientes | Datos de entrada a sistemas empresariales |
Cual es el área explorada? Se informa por medio de correo electrónico a los usuarios sobre un evento ocurrido para que tomen acciones correctivas | Alertas |
Cual es el área explorada? Los patrones encontrados ayudaron a consolidar rutas de transporte para como parte del proceso de la cadena de suministros | Optimizacion de procesos empresariales |
Cuales son las técnicas de análisis de datos que se pueden aplicar en la etapa de análisis de datos (data analytics) | 1.Análisis estadístico 2. Análisis visual 3. Aprendizaje automático (machine learning= 4. Análisis semántico |
Cuales son las técnicas de análisis estadístico | 1. Test A/B 2. Correlación 3. Regresión |
Cuales son las técnicas de el Análisis visual? | 1.Mapas de calor 2. Análisis de series temporales 3 . Análisis de redes 4. Análisis de datos espaciales |
Cuales son las técnicas de machine learning? | 1. Clasificacion 2. Agrupamiento (clustering) 3. Detección de datos atípicos (outlier) 4. Filtrado (filtering) |
Cuales son las técnicas de análisis semántico? | 1. Procesamiento de lenguaje natural 2. Analítica de texto 3. Análisis de sentimientos |
Como funciona el test a/b | Compara dos versiones de un elemento para saber que versión es superior con base en métricas predefinidas |
Cual es la versión de control en el test a/b? | Es la versión actual del elemento |
La versión modificada en el test a/b se conoce como | Version tratamiento |
Qué es la correlación | Técnica de análisis usada para saber si dos variables están relacionadas entre si |
Ambas versiones del test a/b están sujetas ___ a un ____ | Simultáneamente, experimento |
La correlación se ajusta a una relación lineal, es decir cuando una variable cambia la otra cambia de manera... | Proporcional y constante |
Como se expresa el coeficiente de correlación | Como un número decimal entre - 1 y +1 |
El grado de relación pasa de fuerte a débil cuando cambia de.. | -1 a 0 o de 1 a 0 |
Cuando una variable aumenta la otra también, esto sugiere una relación...
Image:
Mobile upload (image/jpeg)
|
Positiva fuerte entre las dos variables (+1). Directamente proporcional |
Cuando una variable aumenta la otra puede permanecer igual, aumentar o disminuir arbitrariamente, esto sugiere una correlación...
Image:
Mobile upload (image/jpeg)
|
Correlación de 0, lo cual sugiere que no hay ninguna relación entre las dos variables |
Cuando una variable aumenta la otra disminuye, esto es una correlación...
Image:
Mobile upload (image/jpeg)
|
De - 1 sugiere que hay una relación negativa fuerte entre las dos variables. Inversamente proporcional |
Qué investiga la técnica de análisis de Regresión | Investiga como se relaciona una variable dependiente con una independiente dentro de un dataset |
Qué técnica sirve para predecir los valores de una variable dependiente cuando estos son desconocidos? | Regresion |
Qué tipos de Regresión existen | 1.Regresión lineal 2. Regresión no lineal |
Este tipo de Regresión representa un ritmo variable de cambio
Image:
Mobile upload (image/jpeg)
|
Regresión no lineal |
Este tipo de Regresión representa un ritmo constante de cambio
Image:
Mobile upload (image/jpeg)
|
Regresión lineal |
Cuales son las diferencias entre correlación y Regresión | La correlación asume que ambas variables son independientes (no implica casualidad) La Regresión incluye variables dependientes e independientes que ya fueron identificados (existe cierto grado de casualidad) |
Qué es el análisis de series temporales? | Realiza el Análisis de los datos que son registrados en intervalos periódicos de tiempo. |
Qué son las series temporales? | Una serie de valores ordenados por tiempo y registrados en intervalos regulares de tiempo |
En Big data se aplica primero la Regresión o correlación ? | Se aplica primero la correlación para determinar si existe relación luego se aplica la Regresión para investigar la relación y predecir los valores de la variable dependiente con base en valores conocidos de la variable independiente. |
Qué son los mapas de calor | Técnica de análisis visual para expresar patrones por medio de la relación de una parte con el todo y distribuciones geográficas de datos. |
El mapa de calor es una representación visual de valores de___ codificada por___ | Datos, colores |
Un mapa de calor puede tener forma de | Tabla o mapa |
La correlación se usa comúnmente en | Minería de datos |
El tiempo en el análisis de series temporales es una variable | De comparación |
Los datos recopilados en las series temporales dependen del | Tiempo |
Qué es una red en el análisis de redes? | Es una serie de entidades interconectadas |
Qué es una entidad | Una persona, grupo, objeto de dominio empresarial como un producto |
Qué es el análisis de redes | Técnica que se enfoca en analizar las relaciones entre las entidades de una red |
Aplicaciones en el análisis de redess | Optimizacion de rutas Análisis de redes sociales Pronóstico de propagación ej. Propagación de una enfermedad |
Las relaciones entre entidades pueden tener dirección | Unidireccional o bidireccional |
En que consiste el análisis de datos espaciales | Analisa datos basados en la ubicación con el fin de encontrar patrones geográficos entre las entidades |
Los datos de entrada para el análisis de datos espaciales qué pueden contener? | Ubicaciones exactas como latitud y longitud o contener información para hallar las ubicaciones como el código postal o direcciones ip |
Cuales son las leyes del aprendizaje automático | 1 ley de los grandes números 2 ley de la utilidad marginal decreciente |
Cual es la ley de los grandes números | La confianza con la cual se pueden realizar predicciones aumenta con el tamaño de los datos A mayor cantidad de datos mejores decisiones tomadas |
En que consiste la ley de la utilidad marginal decreciente | Comenzando con un tamaño de muestra razonablemente grande, el valor obtenido a partir del análisis de datos adicionales disminuye a medida que se añaden más datos a la muestra |
La ley de la utilidad marginal decreciente aplica a big data? | No cuanto más grande sea el volumen y variedad de los datos mayor es la posibilidad de encontrar nuevos patrones |
En que consiste la clasificación | Técnica de aprendizaje supervisada en donde los datos se clasifican en las categorías relevantes previamente aprendidas |
Cuales son los pasos para clasificar? | 1 el sistema es alimentado con datos ya categorizados, de manera que pueda entender las diferentes categorías 2 el sistema es alimentada con datos desconocidos pero similares para clasificarlos de acuerdo con el entendimiento qué ha desarrollado |
Describa la técnica de clustering | Técnica de aprendizaje automático no supervisado en el cual los datos son divididos en diferentes grupos de modo que los datos de cada grupo son lo más homogéneos o similares posibles y entre grupos los más heterogéneos o diferentes |
El clustering necesita aprendizaje previo de categorías? | No, las categorías son generadas implícitamente de acuerdo a las agrupaciones de los datos |
En minería de datos para que se usa primero el análisis de clustering y luego la clasificación? | El algoritmo de clustering genera las etiquetas necesarias de entrada para la clasificación |
En que consiste el análisis de detección de datos atípicos u outliers | Proceso de búsqueda de datos que son significativamente diferentes o inconsistentes con el resto de datos dentro de un data set determinado |
Técnica que puede estar basada en aprendizaje supervisado y no supervisado | Detección de datos atípicos u outliers |
Qué es el filtrado de datos | Encontrar items relevantes dentro de un pool de elementos |
Cuales son los enfoques del filtering | 1.Filtrado colaborativo 2. Filtrado basado en contenido |
El enfoque de filtrado colaborativo esta basado en.. | El comportamiento pasado del usuario y se colabora con el comportamiento de otros usuarios. De aquí se saca el ítem que se debe sugerir |
El enfoque basado en contenido esta basado en... | Solo se ve el comportamiento pasado del usuario. No requiere datos sobre otros usuarios. Solamente se dedica a las preferencias del usuario individual |
Qué hace un sistema de recomendación? | Predice las preferencias de un usuario y genera sugerencias ej películas, páginas web, personas etc |
Qué representa el análisis semántico? | Representa las prácticas que buscan extraer informacion importante de los datos de texto y de reconocimiento de voz |
Qué es el procesamiento de lenguaje natural | Es la capacidad que tiene una computadora de comprender el discurso y texto humano de forma natural, tal como lo hacen las personas |
El procesamiento de lenguaje natural incluye reconocimiento de.. | Texto y voz, en el caso de la voz el sistema intenta comprender y luego realiza una acción ej transcribir a texto |
Qué es la analítica de texto | Análisis especializado de texto mediante la aplicación de técnicas de minería de datos, machine learning y procesamiento de lenguaje natural con el fin de obtener valor del texto sin estructurar o semiestructurado |
Cuales son los dos pasos de la analítica de texto | 1.Análisis del texto contenido en los documentos 2. Categorizacion de los documentos usando las entidades y hechos extraídos |
Qué se extrae en el primer paso del análisis de texto contenido en los documentos | 1. Entidades con nombre 2. Entidades basadas en patrones ej código postal 3 conceptos ej un gobierno 4 hechos relaciones entre entidades ej santos es presidente de Colombia |
De un texto se saca nombre url ciudad país y teléfono qué técnica se usó? | Analítica de texto |
Se quiere saber si un tweet publicado tiene acogida o no qué análisis se aplicaría | Análisis de sentimientos |
Qué es el análisis de sentimientos? | Es una forma especializada de análisis de texto enfocada a determinar el sesgo o las emociones de las personas |
Qué técnicas pueden usar análisis cuantitativo | Las de análisis estadístico |
Técnicas que usa el Análisis cualitativo | Las de análisis semántico |
Técnicas que usa la minería de datos | Todas menos test ab, Regresión, clasificación, filtrado y sentimientos |
Técnicas que usa la analítica descriptiva | Test a/b Mapas de calor y análisis de datos espaciales |
Técnicas que usa la analítica diagnóstica | Análisis estadístico (menos test a/b) y análisis visual (menos mapas de calor) |
Análisis prescriptivo | Análisis estadístico (sin test a/b) Series temporales Machine learning (sin Filtrado) Análisis semántico |
Técnicas que usa la analítica prescriptiva | Todas menos test ab y filtrado |
Técnicas que usa el aprendizaje supervisado | 6 últimas pero cambiar clasificación por clustering |
Técnicas que usa el Análisis no supervisado |
6 ultimas
Image:
Carga móvil (image/jpeg)
|
Se analizan comentarios textuales de redes para comprende las razones por las cuales un usuario recomienda un producto | Análisis de sentimientos |
Técnica para saber si un correo es deseado o es spam | Clasificación |
Se prueba o refuta la hipótesis de que la fotosíntesis esta relacionada con la luz | Correlación |
Se determina la precisión de la intensidad de la luz para obtener el índice más alto de fotosíntesis | Regresión |
Se analisa el flujo de líquido en tuberías de drenaje interconectadas | Análisis de datos redes |
Qué es un cluster? | Conjunto de nodos o servidores perfectamente acoplados |
Características de los servidores en un cluster | 1.Tienen las mismas especificaciones de hardware 2. Conectados a una misma red para trabajar como unidad 3. Cada nodo del cluster cuenta con sus propios recursos dedicados (memoria y dd) 4 se ejecutan tareas con base en frameworks distribuidos/paralelo. |
Qué es un sistema de archivos | Método de almacenamiento y organización de datos en un medio de almacenamiento, |
Cual es la unidad atómica (indivisible) en un sistema de archivos? | Archivo |
Qué es un sistema de archivos distribuidos | Sistema de archivos con capacidad de almacenar archivos grandes a lo largo de un cluster (ej Hadoop, hdfs, spark, Google file system) |
Qué es una base de datos NoSql | Es una base de datos no relacional |
Características de una base de datos nosql | 1.Altamente escalable 2. Tolerante a errores 3. Alberga datos sin estructurar |
Defina el procesamiento de datos en paralelo | Implica la ejecución de múltiples subtareas qué en conjunto componen una tarea mayor |
El procesamiento de datos en paralelo casi siempre se ejecuta en una maquina y esta máquina tiene múltiples | Procesadores o núcleos |
Qué diferencia existe entre procesamiento paralelo de datos y procesamiento distribuido de datos? | Paralelo: ejecuciones en una maquina y múltiples núcleos Distribuido: ejecuciones en múltiples maquinas conectadas en red que forman un cluster |
Qué son las cargas de trabajo de procesamiento. | Cantidad y tipos de datos procesados en un lapso de tiempo |
Tipos de cargas de trabajo | Lotes Transaccionales |
Característica principal de la carga de trabajo en lote | Retrasos qué producen Alta latencia |
El procesamiento transaccional se conoce también como en___ y tiene baja___ | En línea, latencia |
*OLTP *BI operacional *Analítica operaricioal Son sistemas_____ | Transaccionales o en linea |
*OLAP *BI estratégico * Analítica estratégica Son sistemas qué se procesan en___ | Lote u offline |
Razones para implementar Big data en la nube | *El equipo de ti ta cuenta con las capacidades necesarias de Cloud computing *Los datos de entrada ya existen en la nube |
Cloud computing ofrece tres componentes requeridos por Big data | Datos de entrada Calculo Almacenamiento |
Qué son los mecanismos de Big data | Son los componentes principales comunes de las soluciones Big data independientemente del proveedor |
Cuales son los mecanismos | 1 Dispositivo de almacenamiento (storage device) 2 motor de procesamiento ( processing engine) 3 gestor de recursos (resource manager) 4 motor de transferencia de datos (data transfer engine) 5 motor de consultas (query engine) 6 motor analítico (analytics engine) 7 motor de flujo de trabajo (workflow) 8 motor de coordinación (coordination engine) |
Cuales son los mecanismos mínimos qué deben estar presentes en una solución Big data | Dispositivo de almacenamiento Motor de procesamiento Gestor de recursos |
Qué proporcionan los dispositivos de almacenamiento | Proporcionan un entorno de almacenamiento de datos para guardar los datasets a analizar |
Un dispositivo de almacenamiento puede contener.. | Un sistema de archivos distribuidos o una base de datos |
Los sistemas de archivos distribuidos se pueden usar para guardar | Datos inmutables qué serán utilizados con fines de acceso de transmisión o procesamiento por lotes |
Qué hace el motor de procesamiento | Encargado de procesar los datos recuperados generalmente de un dispositivo de almacenamiento basado en una lógica predefinida y producir un resultado |
El motor de procesamiento utiliza un framework | Distribuido de programación paralela |
Categorías de los motores de procesamiento | *Motor de procesamiento Por lotes *Motor de procesamiento en tiempo real |
Qué hace el gestor de recursos | Planificador qué prioriza y coordina las solicitudes de procesamiento de acuerdo a los requisitos individuales de cargas de trabajo de procesamiento |
Qué permite el motor de transferencia de datos | Permite que los datos sean transferidos dentro o fuera de los dispositivos de almacenamiento |
Tipos de motor de transferencia de datos | Ingreso (eventos) y egreso |
Qué hace el motor de consultas | Abstrae el motor de procesamiento de los usuarios finales proporcionando una interfaz de usuario que puede usarse para consultar datos y cuenta con características para crear planes de ejecución de consultas |
Motor analítico | Puede procesar avanzados algoritmos estadísticos y de aprendizaje automático |
Describa work flow | Permite Diseñar yo procesar una secuencia compleja de operaciones que puede ser activada periódicamente o cuando los datos estén disponibles |
Describa motor de coordinación | Una solución distribuida de Big data wur deba ejecutarse en varios servidores depende de un motor de coordinación a fin de garantizar la consistencia operativa en todos los servidores involucrados |
El motor de procesamiento usa el motor de coordinación para... | Coordinar procesamiento de datos en un gran número de servidores |
Los motores de transferencia de datos basados en eventos utilizan un modelo basado en.. | Publicación - suscripción basado en el uso de colas |
Cuánta cosecha debería esperar el agricultor con base en los datos históricos de cosechas? | Analisis de series temporales |
¿Cómo puedo analizar los jugadores de fútbol de acuerdo con sus fortalezas y debilidades? | Mapas de calor |
¿Cómo puedo encontrar libros con contenido relevante para el tema que estoy estudiando? | Analítica de texto |
¿Cómo puedo identificar los contratos que tienen información confidencial de la empresa? | Analítica de texto |
¿Cómo puedo identificar patrones de interacción entre una gran cantidad de interacciones entre proteínas? | Análisis de redes |
¿Cómo puedo ver si existe algún patrón de los diferentes tipos de cáncer con respecto a distintos grupos étnicos? | Mapas de calor |
¿Cómo se puede diseñar un sistema que entienda correctamente los distintos acentos del inglés? | Procesamiento de lenguaje natural NPL |
¿Cuál de los participantes de un concurso de canto es el probable ganador? | Análisis de sentimientos |
¿Cómo se pueden identificar automáticamente los errores gramaticales? | Procesamiento de lenguaje natural NPL |
¿Cuál es el aumento de la población que se espera en los próximos cinco años? | Análisis de series temporales |
¿Cuáles serán las calificaciones de un estudiante de secundaria, tomando como base sus calificaciones en primaria? | Regresion |
¿Cuáles son las posibilidades de que una persona llegue a ser obesa con base en la cantidad de alimentos que consume? | Regresion |
¿Cuáles son los destinos vacacionales recomendados con base en el historial de viajes de un turista? | Filtrado |
¿Cuáles son los diferentes grupos de virus, con base en sus características? | Agrupamiento (Clustering) |
¿Cuántas categorías diferentes de elementos hay en la tabla periódica? | Agrupamiento (Clustering) |
¿Cuántas especies diferentes de árboles existen, con base en las semejanzas entre ellos? | Agrupamiento (Clustering) |
¿Dos personas están relacionadas entre sí por una larga cadena de ancestros? | Análisis de redes |
¿En dónde se encuentran las concentraciones altas y bajas de un mineral específico con base en las lecturas tomadas de varias ubicaciones de muestra en un área? | Análisis de datos espaciales |
¿Existe alguna fruta o vegetal identificado erróneamente en el dataset de entrenamiento utilizado para la tarea de clasificación? | Detección de datos atípicos |
¿Existe una cepa del virus que no responda a los medicamentos? | Detección de datos atípicos |
¿Hasta qué punto la obesidad se relaciona con el consumo excesivo de alimentos? | Correlación |
¿La disminución actual de ventas es un hecho puntual u ocurre periódicamente? | Análisis de series temporales |
¿La nueva fórmula para un champú anticaspa será más efectiva que la anterior? | Test a/b |
La página de inicio del sitio web recientemente diseñada está generando más tráfico de usuarios? | Test a/b |
¿Los clientes se están cambiando a la competencia? | Analisis de sentimientos |
¿Los estudiantes que tienen un buen desempeño en primaria se desempeñan de igual forma en la secundaria? | Correlacion |
¿Qué otros nuevos usuarios se pueden sugerir como amigos con base en el perfil actual de una persona? | Filtrado |
¿Qué tan lejos deben desplazarse los clientes para llegar a un supermercado? | Análisis de datos espaciales |
Con base en el registro de una huella digital anterior, ¿se puede decir si una huella digital pertenece a un sospechoso? | Clasificacion |
Con base en los ejemplos conocidos de frutas y vegetales, ¿se puede determinar si un tomate es una fruta o una verdura? | Clasificacion |
Motor necesario para procesar un ETL (filtra, extrae, valida ,limpia, formatea) | Motor de procesamiento por lotes |
Mecanismo necesario para permitir procesar tipos de solicitudes individual o simultáneamente como ETLs o consultas | Gestor de recurss |
Mecanismo para obtener datos importados por medio de un motor de entrada de archivos. Igualmente, se requiere un motor de salida que pueda exportar los datos a la bodega de datos digital (Data Warehouse) para usar los datos procesados en la base de datos NoSQL. | Motor de transferencia de datos |
Mecanismo para permitir una solucion automatizada que pueda crear un flujo de trabajo de operaciones de porcesamiento e importacion de datos cuando esten disponibles | Motor de flujo de trabajo |
Mecanismo que permite acceder a los datos actuales e históricos resumidos y limpios para realizar análisis predictivo. | Motor de consultas (query engine) |
Enuncie la técnica de analisis: Se deben identificar los patrones históricos de ventas, con el fin de desarrollar una capacidad de predicción de ventas para prever los patrones futuros de ventas. | Analisis de series temporales |
Pasos adquisición y filtrado | 1. copia comprimida data set original y almacenarlo en un sistema de archivos distribuido 2. eliminar registros corruptos del dataset 3. filtrar datos que no son necesarios para el análisis 4. añadir metadata que puedan servir para determinar origen de los datos, calidad y exactitud |
Pasos Validación y limpieza (Cleansing) de datos | 1.Completar registros con información faltante de otras fuentes de datos como CRM 2.Eliminar registros inválidos teniendo como base una fuente confiable |
Pasos agregación y representación de datos | 1. Combinar datos validados de las diferentes fuentes 2. Establecer un almacén de datos estándar como una base de datos no sql |
Técnica usada para convertir llamadas en texto | NPL |
Tecnica usada para convertir a texto estructurado sobre el cual se puedan ejecutar busquedas, analisis y mineria. ej: cuales son las razone mas comunes de devolucion de productos | Text analitycs |
Técnica usada para saber que cliente podria estar cancelando un servicio | Analisis de sentimientos |
Mecanismo que sirve para ejecutar técnicas avanzadas de estadistica, mineria de datos y machine learning | Motor analitico |
mecanismo para manejar grandes volumenes de datos historicos de compras | motor de procesamiento en lote |
¿Quieres crear tus propias Fichas gratiscon GoConqr? Más información.