4. Ciencia y Análisis Fundamentales de Big Data

Description

Modulo 4
Julian Andrés Moncaleano Prado
Flashcards by Julian Andrés Moncaleano Prado, updated more than 1 year ago
Julian Andrés Moncaleano Prado
Created by Julian Andrés Moncaleano Prado over 6 years ago
48
1

Resource summary

Question Answer
Ciencia de Datos Conjunto general de principios, procesos y técnicas que permiten extraer conocimientos a partir de grandes cantidades de datos. Los datos son analizados para obtener y entender información en forma de patrones y correlaciones generalizables
Modelo Representación generalizada de las relaciones entre los atributos de los datos expresada como una ecuación matemática/stadística de un conjunto de reglas
Producto de datos Es una instancia del modelo construido durante el análisis de datos que existe en forma de una aplicación
Estadistica Implica extraer científicamente una muestra (subconjunto de un dataset) de una población (dataset completo) y con el uso de la teoría de la probabilidad hacer predicciones
Estadística Predictiva Descripción numérica de los datos mediante técnicas de integración y visualización para la interpretación de datos y formulación de hipótesis
Estadística Inferencial Va mas allá de la descripción de datos y permite hacer deducciones sobre la población con base a la muestra estudiada
Datasets de Gran Volumen Dataset altos: numerosas filas (contienen más ruido y valores atípicos) requieren limpieza Dataset Anchos: numerosas columnas (mas complejos) contienen mas caraterísticas
Datasets altamente veloces Datos recibidos a un ritmo acelerado debido a la escala del proceso subyacente de generación de datos. Regularmente son solo almacenados para después analizarlos por lotes
Dataset de gran variedad Inclusión de datos estructurados, semiestructurados y sin estructurar (analítica de texto y de sentimientos)
Datasets Altamente Veraces Lo datasets voluminosos pueden generar ruido que afecta la veracidad de los datos
Datasets de Gran Valor Es aquel que es altamente veraz, contiene información útil para la empresa y puede ser analizado en un tiempo significativo a través de una técnica sencilla
Elementos de Análisis de Big Data - Análisis Exploratorio de Datos - Estadística - Análisis Confirmatorio de Datos - Visualización
EDA Comprende la extracción de atributos cuantitativos de los datos. Garantiza la minería de datos dirigida a disminuir la cantidad de datos mediante la selección de atributos relevantes - Resúmenes numéricos - Resúmenes gráficos
Resúmenes Numéricos Técnicas de estadística descriptiva - Medidas de tendencia central: Media, mediana, moda - Medidas de Variación o Dispersión: Rango, Rango intercuartil, Varianza, Desviación estándar - Medidas de asociación: Correlación y Covarianza
Resúmenes Gráficos Utilizan técnicas visuales para resumir datos - Gráfico de barras - Gráfico de líneas - Histograma - Gráfico cuantil - cuantil
Análisis Cuantitativo Se categorizan según la cantidad de variables implicadas - Análisis Univariante: comprender el tipo de distribución e identificar datos atípicos (Medidas de tendencia central, medidas de disperción) - Análisis bivariante: Medidas de asociación, tabulación cruzada, Regresión - Análisis multivariante: regresión lineal múltiple.
Tipos de Variables - Discretas: cuyo valor se obtiene mediante un conteo - Continuas: cuyo valor se obtiene de una medición - Nominales: Valores que son contados pero no ordenados o medidos - Ordinales: Valores que son contados, ordenados pero no medidos - Binarias: dos categorías contrarias - Cuantitavas: son contadas o medidas - Cualitativas: son contadas pero no medidas - Independientes: no dependen de otra variable pero sin influyen en otras - Aleatoria: puede abarcar un rango de valores de acuerdo a una probabilidad
Inferencia Estadística Proceso de extraer conclusiones a partir de datos aleatorios, procesos estocásticos
Medidas de Tendencia Central - Media: promedio - Mediana: valor medio de un conjunto de valores ordenados impares - Moda: el valor mas frecuente entre todos los valores
Medidas de Variación o Dispersión - Rango: valor maximo menos valor minimo - Rango intercuartil: divide los datos ordenados entre un numero de partes de igual tamaño -> Q3 - Q1 - Desviación estándar - Varianza - Sesgo: qué tan lejos está el promedio de los múltiples valores de un estimador
Distribuciones Conjunto de valores que muestra la velocidad con que se repiten o posibilidad de repetición - De frecuencia: numero de veces que se repite (barras) - De probabilidad: repetición de un evento o una variable - De muestreo: distribución de probabilidad en una estadística de muestreo - Normal
Distribución de Frecuencia Corresponde al numero de veces que se repite el valor de una variable
Distribución de Probabilidad muestra la probabilidad de cada evento o el valor de una variable
Distribución de Muestreo Es la distribución de probabilidad para una estadística de muestreo
Sesgo Nivel de a simetría de una distribución medida con respecto al valor de la media
Distribución Normal La mayoría de los valores se encuentran bastante cerca del valor de la media
Medidas de Asociación Cuantifican la relación entre dos variables en un dataset - Correlación - Covarianza
Correlación Grado de asociación lineal entre dos variables, medido en un coeficiente de correlación. La presencia de una correlación no representa causación
CDA - Análisis Confirmatorio de Datos Consiste en evaluar si una afirmación o proposición es significativa, y no esta basada en el azar
Hipotesis Nula Las observaciones hechas usando los datos de la muestra se deben solo al azar
Error Tipo I Cuando se rechaza Ho o hipotesis nula a pesar de ser verdadera
Error tipo II Cuando se acepta Ho a pesar de ser falsa
Gráfico de Barras Utilizado para visualizar valores de variables discretas
Gráfico de Líneas Utilizado para visualizar datos númericos ordinales
Histograma Utilizado para visualizar valores de variables continuas que han sido agrupados en intervalos (frecuencias)
Poligonos de Frecuencias Utilizados para visualizar las distribuciones continuas
Diagrama de Dispersión Permite visualizar la asociación entre dos variables y datos atípicos
Diagrama de Tallos Técnica de análisis de una distribucion para visualizar datasets o muestras pequeñas
Técnicas Fundamentales de Big Data - Predicción: Regresión lineal - Clasificación: K- vecinos mas cercanos - Agrupamiento: K-medias
Regresión lineal Predecir los valores de una variable continua dependientes con base en los valores de una variable independiente dependiente=respuesta independiente=explicativa
Regresión lineal múltiple Utiliza mas de dos variables explicativas a la ve para predecir la variable de respuesta
Clasificación: k-NN Técnica de clasificación "de caja negra" en la que las instancias son clasificadas de acuerdo con su similitud, usando un numero de ejemplos (k) definidos por el usuario (vecinos mas cercanos)
Agrupamiento: k-medias Clasificación no supervisada, puesto que las instancias sin etiquetar se clasifican de acuerdo a las propiedades de los grupos homogeneos
Show full summary Hide full summary

Similar

Mapa mental BIG DATA
leydam
Mapa Mental Big Data
Juan Carlos Estr7460
BIG DATA
Jairy Meneses
Examen Fundamental Big Data
Juan Taborda
Big Data
eaavilas
Glosario Terminos competencias digitales
Rosario Arana
Modulo 2 - Big Data Analysis & Technology Concepts
Juan Taborda
Big Data Tema 1 Introducción al big data en la educación
Adriana Marzuca
glosario big data
flor romero
Parte 1: Sociodeterminismo
Oriol Palmero Milan
Big Data, funciones del psicopedagogo, seguridad y confidencialidad 0
Beatriz Sánchez