Técnicas de Validación

Description

Mapa mental de técnicas de validación de modelos predictivos
Jose Enrique Perez Salvador
Mind Map by Jose Enrique Perez Salvador, updated 2 months ago
Jose Enrique Perez Salvador
Created by Jose Enrique Perez Salvador about 2 years ago
78
0

Resource summary

Técnicas de Validación
  1. La evaluación de un modelo predictivo es optimista cuando se realiza sobre los mismos que entrenaron el modelo.
    1. Validación "Split" ("holdout")
      1. Partir el data set original en dos data sets exhaustivos y mutuamente excluyentes a través de un muestreo aleatorio. Si la variable target es categórica, es recomendable un muestre aleatorio estratificado.
        1. Data set de entrenamiento: Se usa para entrenar los modelos. Contiene entre el 70 y el 75% de los las observaciones del data set original.
          1. Data set de validación: Se usa para evaluar los modelos y seleccionar un modelo campeón. Contiene entre el 30 y el 25% de las observaciones del data set original.
            1. Si la cantidad de observaciones en el data set original es suficiente, se puede crear un tercer data set, de prueba, excluyente y exhaustivo con respecto a los otros dos data sets. Su objetivo es medir el desempeño del modelo campeón en un data set ajeno al entrenamiento y evaluación.
            2. Es recomendable cuando hay muchas observaciones.
            3. Validación cruzada (cross-validation o n-fold validation)
              1. Es recomendable si se tiene una cantidad limitada de observaciones.
                1. El data set original se parte en n submuestras aleatorias del mismo tamaño.
                  1. Se aparta una submuestra i, y los modelos se entrenan con las otras n-1 submuestras aleatorias. Los modelos se evalúan en la submuestra i que se apartó. Este proceso se repite n veces, es decir, i=1,...,n
                    1. Las medidas individuales de cada modelo en cada iteración, son combinadas, por ejemplo, con el promedio para evaluar el desempeño de una familia de modelos.
                      1. Dentro de la familia de modelos que fue campeona, por decir algo, los árboles de decisión, se selecciona uno de los árboles calibrados en una de las n iteraciones del cross-validation. No se hace alguna combinación de los n modelos calibrados en las n iteraciones del cross-validation.
                    2. Se recomienda utilizar n=10
                    3. Tiene la ventaja de que la selección del modelo campeón no depende de una sola muestra de validación, como en la validación split.
                      1. Si la variable target es categórica, es recomendable un muestreo aleatorio estratificado.
                      2. Validación Bootstrap
                        1. Es recomendable si se tiene una cantidad muy limitada de observaciones.
                          1. El data set original de n observaciones se muestrea aleatoriamente CON reemplazo para crear otra muestra de tamaño n.
                            1. Por el reemplazo, en la muestra obtenida con bootstrapping, hay observaciones repetidas, y en el data set original hay observaciones que no fueron seleccionadas.
                              1. Se evalúan los modelos en la muestra bootstrap y en las observaciones de la muestra original no contenidas en la muestra bootstrap, combinando las medidas de ambas, por ejemplo, con un promedio ponderado.
                                1. El proceso se puede repetir k veces combinando las medidas sobre todas las iteraciones para seleccionar una familia de modelos campeona.
                                  1. Dentro de la familia de modelos que fue campeona, por decir algo, los árboles de decisión, se selecciona uno de los árboles calibrados en una de las k iteraciones del bootstrap. No se hace alguna combinación de los k modelos calibrados en las k iteraciones del bootstrap.
                            2. Por construcción, en esta técnica de validación, no se puede hacer muestreo estratificado pues no hay garantía de que se preserven las proporciones de los estratos.
                            Show full summary Hide full summary

                            Similar

                            Statistics Key Words
                            Culan O'Meara
                            SAMPLING
                            Elliot O'Leary
                            FREQUENCY TABLES: MODE, MEDIAN AND MEAN
                            Elliot O'Leary
                            HISTOGRAMS
                            Elliot O'Leary
                            CUMULATIVE FREQUENCY DIAGRAMS
                            Elliot O'Leary
                            TYPES OF DATA
                            Elliot O'Leary
                            GROUPED DATA FREQUENCY TABLES: MODAL CLASS AND ESTIMATE OF MEAN
                            Elliot O'Leary
                            Statistics Vocab
                            Nabeeha Yusuf
                            chapter 1,2 statistics
                            Rigo Sanchez
                            Statistics, Data and Area (Semester 2 Exam)
                            meg willmington
                            Chapter 7: Investigating Data
                            Sarah L