4. Ciencia y Análisis Fundamentales de Big Data

Question	Answer
Ciencia de Datos	Conjunto general de principios, procesos y técnicas que permiten extraer conocimientos a partir de grandes cantidades de datos. Los datos son analizados para obtener y entender información en forma de patrones y correlaciones generalizables
Modelo	Representación generalizada de las relaciones entre los atributos de los datos expresada como una ecuación matemática/stadística de un conjunto de reglas
Producto de datos	Es una instancia del modelo construido durante el análisis de datos que existe en forma de una aplicación
Estadistica	Implica extraer científicamente una muestra (subconjunto de un dataset) de una población (dataset completo) y con el uso de la teoría de la probabilidad hacer predicciones
Estadística Predictiva	Descripción numérica de los datos mediante técnicas de integración y visualización para la interpretación de datos y formulación de hipótesis
Estadística Inferencial	Va mas allá de la descripción de datos y permite hacer deducciones sobre la población con base a la muestra estudiada
Datasets de Gran Volumen	Dataset altos: numerosas filas (contienen más ruido y valores atípicos) requieren limpieza Dataset Anchos: numerosas columnas (mas complejos) contienen mas caraterísticas
Datasets altamente veloces	Datos recibidos a un ritmo acelerado debido a la escala del proceso subyacente de generación de datos. Regularmente son solo almacenados para después analizarlos por lotes
Dataset de gran variedad	Inclusión de datos estructurados, semiestructurados y sin estructurar (analítica de texto y de sentimientos)
Datasets Altamente Veraces	Lo datasets voluminosos pueden generar ruido que afecta la veracidad de los datos
Datasets de Gran Valor	Es aquel que es altamente veraz, contiene información útil para la empresa y puede ser analizado en un tiempo significativo a través de una técnica sencilla
Elementos de Análisis de Big Data	- Análisis Exploratorio de Datos - Estadística - Análisis Confirmatorio de Datos - Visualización
EDA	Comprende la extracción de atributos cuantitativos de los datos. Garantiza la minería de datos dirigida a disminuir la cantidad de datos mediante la selección de atributos relevantes - Resúmenes numéricos - Resúmenes gráficos
Resúmenes Numéricos	Técnicas de estadística descriptiva - Medidas de tendencia central: Media, mediana, moda - Medidas de Variación o Dispersión: Rango, Rango intercuartil, Varianza, Desviación estándar - Medidas de asociación: Correlación y Covarianza
Resúmenes Gráficos	Utilizan técnicas visuales para resumir datos - Gráfico de barras - Gráfico de líneas - Histograma - Gráfico cuantil - cuantil
Análisis Cuantitativo	Se categorizan según la cantidad de variables implicadas - Análisis Univariante: comprender el tipo de distribución e identificar datos atípicos (Medidas de tendencia central, medidas de disperción) - Análisis bivariante: Medidas de asociación, tabulación cruzada, Regresión - Análisis multivariante: regresión lineal múltiple.
Tipos de Variables	- Discretas: cuyo valor se obtiene mediante un conteo - Continuas: cuyo valor se obtiene de una medición - Nominales: Valores que son contados pero no ordenados o medidos - Ordinales: Valores que son contados, ordenados pero no medidos - Binarias: dos categorías contrarias - Cuantitavas: son contadas o medidas - Cualitativas: son contadas pero no medidas - Independientes: no dependen de otra variable pero sin influyen en otras - Aleatoria: puede abarcar un rango de valores de acuerdo a una probabilidad
Inferencia Estadística	Proceso de extraer conclusiones a partir de datos aleatorios, procesos estocásticos
Medidas de Tendencia Central	- Media: promedio - Mediana: valor medio de un conjunto de valores ordenados impares - Moda: el valor mas frecuente entre todos los valores
Medidas de Variación o Dispersión	- Rango: valor maximo menos valor minimo - Rango intercuartil: divide los datos ordenados entre un numero de partes de igual tamaño -> Q3 - Q1 - Desviación estándar - Varianza - Sesgo: qué tan lejos está el promedio de los múltiples valores de un estimador
Distribuciones	Conjunto de valores que muestra la velocidad con que se repiten o posibilidad de repetición - De frecuencia: numero de veces que se repite (barras) - De probabilidad: repetición de un evento o una variable - De muestreo: distribución de probabilidad en una estadística de muestreo - Normal
Distribución de Frecuencia	Corresponde al numero de veces que se repite el valor de una variable
Distribución de Probabilidad	muestra la probabilidad de cada evento o el valor de una variable
Distribución de Muestreo	Es la distribución de probabilidad para una estadística de muestreo
Sesgo	Nivel de a simetría de una distribución medida con respecto al valor de la media
Distribución Normal	La mayoría de los valores se encuentran bastante cerca del valor de la media
Medidas de Asociación	Cuantifican la relación entre dos variables en un dataset - Correlación - Covarianza
Correlación	Grado de asociación lineal entre dos variables, medido en un coeficiente de correlación. La presencia de una correlación no representa causación
CDA - Análisis Confirmatorio de Datos	Consiste en evaluar si una afirmación o proposición es significativa, y no esta basada en el azar
Hipotesis Nula	Las observaciones hechas usando los datos de la muestra se deben solo al azar
Error Tipo I	Cuando se rechaza Ho o hipotesis nula a pesar de ser verdadera
Error tipo II	Cuando se acepta Ho a pesar de ser falsa
Gráfico de Barras	Utilizado para visualizar valores de variables discretas
Gráfico de Líneas	Utilizado para visualizar datos númericos ordinales
Histograma	Utilizado para visualizar valores de variables continuas que han sido agrupados en intervalos (frecuencias)
Poligonos de Frecuencias	Utilizados para visualizar las distribuciones continuas
Diagrama de Dispersión	Permite visualizar la asociación entre dos variables y datos atípicos
Diagrama de Tallos	Técnica de análisis de una distribucion para visualizar datasets o muestras pequeñas
Técnicas Fundamentales de Big Data	- Predicción: Regresión lineal - Clasificación: K- vecinos mas cercanos - Agrupamiento: K-medias
Regresión lineal	Predecir los valores de una variable continua dependientes con base en los valores de una variable independiente dependiente=respuesta independiente=explicativa
Regresión lineal múltiple	Utiliza mas de dos variables explicativas a la ve para predecir la variable de respuesta
Clasificación: k-NN	Técnica de clasificación "de caja negra" en la que las instancias son clasificadas de acuerdo con su similitud, usando un numero de ejemplos (k) definidos por el usuario (vecinos mas cercanos)
Agrupamiento: k-medias	Clasificación no supervisada, puesto que las instancias sin etiquetar se clasifican de acuerdo a las propiedades de los grupos homogeneos

Next up

4. Ciencia y Análisis Fundamentales de Big Data

Description

Resource summary

Similar

	Created by Julian Andrés Moncaleano Prado almost 7 years ago