Una introducción al machine learning en los jueves de Big Data

introducción machine learning

En nuestro afán por hacer llegar a todos una formación en Big Data y Analytics de calidad, datahack ha llegado a Sevilla y se está dando a conocer con su segundo evento en dos semanas. Una vez presentadas las credenciales, era momento de meterse un poco más en harina y acercar al potencial alumno aquello que se ofrece en el master. En esta ocasión se puso el foco en la parte relativa a Machine Learning. La intención no era dar una charla magistral, ni que la gente saliera impresionada, sino transmitir: acercar un concepto que en ocasiones parece difuso, desgranarlo y mostrar algunos de sus vericuetos a las personas que deseen instruirse en esta disciplina.

Una de las primeras ideas que se pretendía afianzar es que el Machine learning es un campo que lleva muchos años presente. Es quizá en tiempos más recientes (en los que la capacidad de procesamiento ha mejorado drásticamente y la cantidad de datos que se almacenan es crece exponencialmente) cuando ha recibido el reconocimiento que merece. Por tanto, ya no es un “hype”, sino que está aquí para quedarse.

Problemas que podemos abordar con el Machine Learning

Después de asentar el punto de partida a través de algunas definiciones, se pasó a desgranar algunos de los principales tipos de problemas que se pueden abordar a través del Machine Learning, como son el aprendizaje supervisado (incluyendo tareas de clasificación y de regresión) y el aprendizaje no supervisado.

Siguiendo el hilo de proporcionar un acercamiento real a la materia, se habló largo y tendido de los problemas que pueden aparecer (y que aparecerán) al ponerse manos a la obra. Por ejemplo, los relativos a los datos (distintos tipos de sesgos, representatividad, la calidad y limpieza de los mismos…) y por supuesto de los algoritmos (overfitting, underfitting y la regularización como posible solución al primero de ellos). Era importante aclarar la naturaleza iterativa del Machine Learning, el hecho de que no hay una checklist fácilmente aplicable que permita resolver todos los problemas que salgan al paso, con lo que es muy importante armarse de paciencia y no desesperar si los resultados tardan en llegar.

Qué hacer con los datos y los modelos entrenados

A medida que transcurría la representación las personas que asistieron se mostraron cada vez más participativas haciendo preguntas muy interesantes, algunas de las cuales permitían hilvanar un apartado con otro dando sensación de fluidez. Esto se hizo especialmente palpable en la parte final, que abordaba (¡por fin!) qué hacer con los datos y con los modelos entrenados con estos: aquí se expuso cómo dividir el conjunto de datos y cómo utilizar esos datos para entrenar distintos modelos, cómo apoyarse en los datos reservados para la validación para elegir el modelo campeón y muy especialmente destacar la importancia de los datos de test.

Esta porción es especialmente delicada ya que debe permanecer aislada de nosotros y de nuestros modelos (para evitar filtraciones), hasta que se haya escogido un modelo campeón y solo entonces será cuando dicho modelo se enfrente a los datos de test. El resultado revelará si el modelo está listo para pasar ser productivo o si, por lo contrario, necesitamos trabajar más a fondo para conseguir mejorarlo.

Más allá de la charla, cabe destacar a los asistentes que fueron: durante la charla demostraron mucho interés e hicieron preguntas sumamente interesantes y antes y después de las mismas, fue un placer hablar con ellos, de sus inquietudes y de sus intereses. Algunos incluso hicieron una fantástica crónica del evento (la foto, por cierto, la tomó él). Esperamos verles de nuevo (¡y que traigan más gente incluso!) en los siguientes jueves del Big Data. ¡Id bloqueando la agenda para la siguiente, sobre Blockchain y Sidechain!


Alejandro Arranz, Data Engineer en datahack

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *