Conceptos clave de la ciencia de datos

conceptos de la ciencia de datos que debes conocer

“Es por las instancias del dataset, hay un problema de overfitting que hace que el modelo no generalice”. O algo así. Esta es una de las primeras frases que escuché cuando empecé a trabajar con científicos de datos y, por supuesto, no entendí nada. Últimamente me he dado cuenta de que les comprendo (al menos cuando me hablan, cuando les oigo hablar entre ellos no entiendo ni papa). Y es que ¡ya es un montón de tiempo rodeada de datahackers!

Si trabajas con científicos de datos y tampoco te enteras de la mitad de lo que dicen, este pequeño diccionario, junto con los términos de Big Data que compartí unos meses atrás, te puede ayudar a entenderles (un poco):

Dataset:

Conjunto de datos del que se dispone para entrenar, validar y probar el sistema. Está compuesto de observaciones o muestras (samples), definidas a su vez por propiedades, características o, siguiendo la terminología más común en inglés, features. Dependiendo de si el dataset está etiquetado o no, cada una de sus observaciones podrá incorporar además el label o target, o lo que es lo mismo, aquello que se desea que el sistema sea capaz de predecir.

Observación o sample:

Cada una de las muestras o elementos que componen el dataset.

Característica o propiedad (Feature):

Cada una de las variables que definen cada observación o muestra del dataset, su naturaleza es diversa. En el caso de modelos de aprendizaje supervisado, se espera que al menos parte de las features que componen el dataset influyan en el label o target.

Objetivo (target)

Variable dependiente, atributo o factor que quieres predecir.

Conjunto de entrenamiento (train set):

Subconjunto de los datos que se usará para entrenar los modelos

Conjunto de validación (validation set):

Subconjunto de los datos que se usará para elegir el mejor de entre todos los modelos entrenados

Conjunto de pruebas (test set)

Subconjunto de datos que se usará para probar el modelo campeón elegido mediante el conjunto de validación. Los datos de este conjunto deben de proceder de la misma distribución que aquellos que el modelo se encontrará una vez se ponga en producción.

Aprendizaje supervisado (Supervised Learning)

Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, van “etiquetados” o lo que es lo mismo, cada observación incluye la solución deseada (aquello que se desea que el algoritmo prediga) en su target o label.

Aprendizaje No supervisado (Unsupervised Learning)

Aquel en el que los datos de entrenamiento (train set) que se le pasan al algoritmo, no van etiquetados de forma alguna (no hay label o target). El sistema trata de aprender “sin profesor”

Algoritmo

Especificación matemática categórica que resuelve un problema complejo en base a un conjunto de datos inicial. Consiste en múltiples pasos que aplican en orden una serie de operaciones.

Entrenamiento:

Proceso por el que el modelo ajusta sus parámetros internos en base al conjunto de entrenamiento y a la configuración que previamente se le haya aplicado a través de sus hiperparámetros. Normalmente el entrenamiento se realizará tratando de minimizar el error cometido por el modelo sobre el conjunto de entrenamiento, en base a una determinada función de error o función de pérdida.

Parámetros VS Hiperparámetros:

Los parámetros son todos aquellos valores que un modelo se encarga de autoajustarse durante el entrenamiento con el objetivo de ser capaz de aprender a generalizar a partir del dataset recibido.

Los hiperparámetros comprenden aquella configuración del modelo que el programador puede ajustar antes del entrenamiento..

Modelo:

Una representación matemática de un proceso determinado capaz de inferir comportamientos en el dataset de entrenamiento, de forma que estos sean extrapolables a nuevos datos con los que el modelo no haya sido entrenado. En el caso del aprendizaje supervisado (aquel que es habitual cuando el dataset posee además de sus features un label), el modelo será capaz de predecir una categoría (en el caso de un problema de clasificación) o un número (en el caso de un problema de regresión).

Sobreajuste (Overfitting):

Situación en la que el modelo no ha sido capaz de aprender aquellos patrones o comportamientos generalizables o extrapolables de los datos de entrenamiento. Se caracteriza porque el modelo es capaz de comportarse con una precisión cercana a la perfección en el conjunto de entrenamiento. Mientras que su rendimiento es pobre con el resto de los dato: dicho en pocas palabras, el modelo se ha aprendido los datos de memoria. Las razones pueden ser diversas: desde un modelo demasiado complejo para el problema que se pretende abordar o con demasiada “libertad” para ajustar sus parámetros (se suele mitigar con técnicas de Regularización) o también puede ser que se requieran más datos para el problema que se quiere abordar.

Infraajuste (underfitting):

Situación en la que el modelo no ha sido capaz siquiera de aprender aquellos patrones o comportamientos que le permita desenvolverse adecuadamente con el dataset de entrenamiento. Llegados a este punto, conviene plantearse si el tiempo de entrenamiento ha sido suficiente. Si nos hemos pasado aplicando técnicas de regularización o si, quizás, el modelo aplicado es demasiado simple para el problema que se quiere resolver.

¿Siguen faltándote conocimientos de Big Data para desenvolverte en tu trabajo?

Ahora, con el curso de Big Data for non Technical, podrás aprender todas las claves básicas de este mundillo tan complejo. ¡Y lo mejor es que puedes hacerlo desde cualquier parte gracias a la modalidad On-Live!


Déborah Fernández, responsable de marketing y comunicación de datahack, con la inestimable ayuda de Alejandro Arranz, Data Engineer en datahack

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *