“Es por las instancias del dataset, hay un problema de overfitting que hace que el modelo no generalice”. O algo así. Esta es una de las primeras frases que escuché cuando empecé a trabajar con científicos de datos y, por supuesto, no entendí nada. Últimamente me he dado cuenta de que les comprendo (al menos cuando me hablan, cuando les oigo hablar entre ellos no entiendo ni papa). Y es que ¡ya es un montón de tiempo rodeada de datahackers!
Si trabajas con científicos de datos y tampoco te enteras de la mitad de lo que dicen, este pequeño diccionario, junto con los términos de Big Data que compartí unos meses atrás, te puede ayudar a entenderles (un poco):
Conjunto de datos del que se dispone para entrenar, validar y probar el sistema. Está compuesto de observaciones o muestras (samples), definidas a su vez por propiedades, características o, siguiendo la terminología más común en inglés, features. Dependiendo de si el dataset está etiquetado o no, cada una de sus observaciones podrá incorporar además el label o target, o lo que es lo mismo, aquello que se desea que el sistema sea capaz de predecir.
Cada una de las muestras o elementos que componen el dataset.
Cada una de las variables que definen cada observación o muestra del dataset, su naturaleza es diversa. En el caso de modelos de aprendizaje supervisado, se espera que al menos parte de las features que componen el dataset influyan en el label o target.
Variable dependiente, atributo o factor que quieres predecir.
Subconjunto de los datos que se usará para entrenar los modelos
Subconjunto de los datos que se usará para elegir el mejor de entre todos los modelos entrenados
Subconjunto de datos que se usará para probar el modelo campeón elegido mediante el conjunto de validación. Los datos de este conjunto deben de proceder de la misma distribución que aquellos que el modelo se encontrará una vez se ponga en producción.
Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, van "etiquetados" o lo que es lo mismo, cada observación incluye la solución deseada (aquello que se desea que el algoritmo prediga) en su target o label.
Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, no van etiquetados de forma alguna (no hay label o target). El sistema trata de aprender "sin profesor"
Especificación matemática categórica que resuelve un problema complejo en base a un conjunto de datos inicial. Consiste en múltiples pasos que aplican en orden una serie de operaciones.
Proceso por el que el modelo ajusta sus parámetros internos en base al conjunto de entrenamiento y a la configuración que previamente se le haya aplicado a través de sus hiperparámetros. Normalmente el entrenamiento se realizará tratando de minimizar el error cometido por el modelo sobre el conjunto de entrenamiento, en base a una determinada función de error o función de pérdida.
Los parámetros son todos aquellos valores que un modelo se encarga de autoajustarse durante el entrenamiento con el objetivo de ser capaz de aprender a generalizar a partir del dataset recibido.
Los hiperparámetros comprenden aquella configuración del modelo que el programador puede ajustar antes del entrenamiento..
Una representación matemática de un proceso determinado capaz de inferir comportamientos en el dataset de entrenamiento, de forma que estos sean extrapolables a nuevos datos con los que el modelo no haya sido entrenado. En el caso del aprendizaje supervisado (aquel que es habitual cuando el dataset posee además de sus features un label), el modelo será capaz de predecir una categoría (en el caso de un problema de clasificación) o un número (en el caso de un problema de regresión).
Situación en la que el modelo no ha sido capaz de aprender aquellos patrones o comportamientos generalizables o extrapolables de los datos de entrenamiento. Se caracteriza porque el modelo es capaz de comportarse con una precisión cercana a la perfección en el conjunto de entrenamiento. Mientras que su rendimiento es pobre con el resto de los dato: dicho en pocas palabras, el modelo se ha aprendido los datos de memoria. Las razones pueden ser diversas: desde un modelo demasiado complejo para el problema que se pretende abordar o con demasiada "libertad" para ajustar sus parámetros (se suele mitigar con técnicas de Regularización) o también puede ser que se requieran más datos para el problema que se quiere abordar.
Situación en la que el modelo no ha sido capaz siquiera de aprender aquellos patrones o comportamientos que le permita desenvolverse adecuadamente con el dataset de entrenamiento. Llegados a este punto, conviene plantearse si el tiempo de entrenamiento ha sido suficiente. Si nos hemos pasado aplicando técnicas de regularización o si, quizás, el modelo aplicado es demasiado simple para el problema que se quiere resolver.
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.