Created by Julian Andrés Moncaleano Prado
over 6 years ago
|
||
Question | Answer |
Ciencia de Datos | Conjunto general de principios, procesos y técnicas que permiten extraer conocimientos a partir de grandes cantidades de datos. Los datos son analizados para obtener y entender información en forma de patrones y correlaciones generalizables |
Modelo | Representación generalizada de las relaciones entre los atributos de los datos expresada como una ecuación matemática/stadística de un conjunto de reglas |
Producto de datos | Es una instancia del modelo construido durante el análisis de datos que existe en forma de una aplicación |
Estadistica | Implica extraer científicamente una muestra (subconjunto de un dataset) de una población (dataset completo) y con el uso de la teoría de la probabilidad hacer predicciones |
Estadística Predictiva | Descripción numérica de los datos mediante técnicas de integración y visualización para la interpretación de datos y formulación de hipótesis |
Estadística Inferencial | Va mas allá de la descripción de datos y permite hacer deducciones sobre la población con base a la muestra estudiada |
Datasets de Gran Volumen | Dataset altos: numerosas filas (contienen más ruido y valores atípicos) requieren limpieza Dataset Anchos: numerosas columnas (mas complejos) contienen mas caraterísticas |
Datasets altamente veloces | Datos recibidos a un ritmo acelerado debido a la escala del proceso subyacente de generación de datos. Regularmente son solo almacenados para después analizarlos por lotes |
Dataset de gran variedad | Inclusión de datos estructurados, semiestructurados y sin estructurar (analítica de texto y de sentimientos) |
Datasets Altamente Veraces | Lo datasets voluminosos pueden generar ruido que afecta la veracidad de los datos |
Datasets de Gran Valor | Es aquel que es altamente veraz, contiene información útil para la empresa y puede ser analizado en un tiempo significativo a través de una técnica sencilla |
Elementos de Análisis de Big Data | - Análisis Exploratorio de Datos - Estadística - Análisis Confirmatorio de Datos - Visualización |
EDA | Comprende la extracción de atributos cuantitativos de los datos. Garantiza la minería de datos dirigida a disminuir la cantidad de datos mediante la selección de atributos relevantes - Resúmenes numéricos - Resúmenes gráficos |
Resúmenes Numéricos | Técnicas de estadística descriptiva - Medidas de tendencia central: Media, mediana, moda - Medidas de Variación o Dispersión: Rango, Rango intercuartil, Varianza, Desviación estándar - Medidas de asociación: Correlación y Covarianza |
Resúmenes Gráficos | Utilizan técnicas visuales para resumir datos - Gráfico de barras - Gráfico de líneas - Histograma - Gráfico cuantil - cuantil |
Análisis Cuantitativo | Se categorizan según la cantidad de variables implicadas - Análisis Univariante: comprender el tipo de distribución e identificar datos atípicos (Medidas de tendencia central, medidas de disperción) - Análisis bivariante: Medidas de asociación, tabulación cruzada, Regresión - Análisis multivariante: regresión lineal múltiple. |
Tipos de Variables | - Discretas: cuyo valor se obtiene mediante un conteo - Continuas: cuyo valor se obtiene de una medición - Nominales: Valores que son contados pero no ordenados o medidos - Ordinales: Valores que son contados, ordenados pero no medidos - Binarias: dos categorías contrarias - Cuantitavas: son contadas o medidas - Cualitativas: son contadas pero no medidas - Independientes: no dependen de otra variable pero sin influyen en otras - Aleatoria: puede abarcar un rango de valores de acuerdo a una probabilidad |
Inferencia Estadística | Proceso de extraer conclusiones a partir de datos aleatorios, procesos estocásticos |
Medidas de Tendencia Central | - Media: promedio - Mediana: valor medio de un conjunto de valores ordenados impares - Moda: el valor mas frecuente entre todos los valores |
Medidas de Variación o Dispersión | - Rango: valor maximo menos valor minimo - Rango intercuartil: divide los datos ordenados entre un numero de partes de igual tamaño -> Q3 - Q1 - Desviación estándar - Varianza - Sesgo: qué tan lejos está el promedio de los múltiples valores de un estimador |
Distribuciones | Conjunto de valores que muestra la velocidad con que se repiten o posibilidad de repetición - De frecuencia: numero de veces que se repite (barras) - De probabilidad: repetición de un evento o una variable - De muestreo: distribución de probabilidad en una estadística de muestreo - Normal |
Distribución de Frecuencia | Corresponde al numero de veces que se repite el valor de una variable |
Distribución de Probabilidad | muestra la probabilidad de cada evento o el valor de una variable |
Distribución de Muestreo | Es la distribución de probabilidad para una estadística de muestreo |
Sesgo | Nivel de a simetría de una distribución medida con respecto al valor de la media |
Distribución Normal | La mayoría de los valores se encuentran bastante cerca del valor de la media |
Medidas de Asociación | Cuantifican la relación entre dos variables en un dataset - Correlación - Covarianza |
Correlación | Grado de asociación lineal entre dos variables, medido en un coeficiente de correlación. La presencia de una correlación no representa causación |
CDA - Análisis Confirmatorio de Datos | Consiste en evaluar si una afirmación o proposición es significativa, y no esta basada en el azar |
Hipotesis Nula | Las observaciones hechas usando los datos de la muestra se deben solo al azar |
Error Tipo I | Cuando se rechaza Ho o hipotesis nula a pesar de ser verdadera |
Error tipo II | Cuando se acepta Ho a pesar de ser falsa |
Gráfico de Barras | Utilizado para visualizar valores de variables discretas |
Gráfico de Líneas | Utilizado para visualizar datos númericos ordinales |
Histograma | Utilizado para visualizar valores de variables continuas que han sido agrupados en intervalos (frecuencias) |
Poligonos de Frecuencias | Utilizados para visualizar las distribuciones continuas |
Diagrama de Dispersión | Permite visualizar la asociación entre dos variables y datos atípicos |
Diagrama de Tallos | Técnica de análisis de una distribucion para visualizar datasets o muestras pequeñas |
Técnicas Fundamentales de Big Data | - Predicción: Regresión lineal - Clasificación: K- vecinos mas cercanos - Agrupamiento: K-medias |
Regresión lineal | Predecir los valores de una variable continua dependientes con base en los valores de una variable independiente dependiente=respuesta independiente=explicativa |
Regresión lineal múltiple | Utiliza mas de dos variables explicativas a la ve para predecir la variable de respuesta |
Clasificación: k-NN | Técnica de clasificación "de caja negra" en la que las instancias son clasificadas de acuerdo con su similitud, usando un numero de ejemplos (k) definidos por el usuario (vecinos mas cercanos) |
Agrupamiento: k-medias | Clasificación no supervisada, puesto que las instancias sin etiquetar se clasifican de acuerdo a las propiedades de los grupos homogeneos |
Want to create your own Flashcards for free with GoConqr? Learn more.