FUNDAMENTOS DE BIG DATA. DATA MINING

Continuamos con nuestra serie de artículos con el recorrido por las tecnologías Big Data, ya hablamos de ciencia de datos y áreas de conocimiento.

ETAPAS DEL DATA MINING

Un proyecto de Big Data se puede enfocar desde múltiples perspectivas. El enfoque y las fases por seguir dependerán de la experiencia del equipo que hayamos seleccionado para llevarlo a cabo y de cómo sean nuestros datos. También, tendremos que tener en cuenta el presupuesto y qué plazo se haya especificado para la entrega de resultados. No obstante, a grandes rasgos podemos establecer tres fases comunes a cualquier proyecto. 

PREPROCESAMIENTO DE LOS DATOS

También llamado Data Preprocessing. Se refiere al análisis inicial que hacemos de nuestros datos. Algunas de las consideraciones que tendremos que tener en cuenta es si son datos internos que ya tenemos o externos que hay que recopilar. Si nuestros datos son estructurados, semi estructurados o no estructurados. Como es la estructura de nuestra base de datos y si somos o no propietarios de esa información. 

Además, una vez que tengamos los datos deberemos de comenzar por limpiarlos, por ejemplo, eliminando duplicados, viendo si tenemos un porcentaje grande de datos nulos o haciendo una selección de las mejores variables. También podremos enriquecer nuestros datos integrándolos con otros y creando subconjuntos de estos para alimentar distintos modelos. Todo este proceso en el ámbito de un proyecto puede suponer más del 70% del tiempo total de ejecución.

SELECCIÓN DE MODELOS

A continuación, deberemos pasar a la selección de modelos o Model Selection que utilizaremos sobre nuestros datos. En este punto son muchas las técnicas y tecnologías que podemos utilizar. Podemos comenzar haciendo un análisis estadístico de nuestros datos para ver cómo se distribuyen nuestras variables o cuál es la correlación entre ellas. También tendremos una idea de si tenemos outliers o atípicos en nuestros datos. 

Entre las herramientas más útiles que tenemos en esta fase es la visualización de datos. Y no debemos entenderla en el sentido más tradicional a modo de entrega de resultados o de reporting. Utilizamos DataViz en su rama exploratoria. Es mucho más sencillo encontrar patrones en los datos utilizando algunos tipos de visualizaciones como los mapas de calor que analizando tablas de forma tradicional. 

Posteriormente, dependiendo de nuestros datos y de lo que intuyamos que podemos obtener de ellos, los llamados insights, pasaremos a elegir las herramientas de Inteligencia Artificial que conocemos mejor como algoritmos de Machine Learning y de Deep Learning para extraer valor de esos datos y hacer distintos tipos de análisis. Algunas de las técnicas de análisis más frecuentes son el análisis predictivo y el análisis de Clustering para segmentación de clientes. 

ANÁLISIS DE LOS RESULTADOS

Una vez que hemos pasado por los procesos anteriores, tendremos que hacer un análisis de resultados. Una máxima que hay que tener en cuenta a la hora de embarcarse en un proyecto de Big Data es que los resultados de éste tienen que poder cuantificarse de algún modo para ver su efectividad y rentabilidad

Tendremos que ver si nuestros resultados son coherentes y se ajustan a las especificaciones establecidas al inicio del proyecto. Además, el cliente ya sea interno o externo deberá determinar si los resultados han tenido un impacto positivo para el negocio y si le han permitido obtener conocimiento para la toma de decisiones. 

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

1 comentario en “FUNDAMENTOS DE BIG DATA. DATA MINING”

Deja un comentario

Datahack logo