Si te estás iniciando en el mundo del Big Data, probablemente te encontrarás un poco perdido entre la ensalada de términos que manejan los expertos. Inteligencia Artificial, Machine Learning, Internet de las Cosas… Se trata de piezas de un puzzle que debemos encajar para comprender cómo funciona esto de los datos y ser conscientes de todo el jugo que le podemos sacar. Uno de los componentes claves del cuadro es el Data Scienceo Ciencia de Datos, que desempeña un papel crucial a la hora de convertir los registros en bruto en información.
¿Qué es el Data Science?
El Data Science o Ciencia de Datos es una disciplina que combina técnicas matemáticas y herramientas tecnológicas para la extracción, el estudio y el análisis de datos. El Data Science pretende, a partir de una observación minuciosa de la realidad, inferir conclusiones útiles para anticipar tendencias y guiar la toma de decisiones.
El Data Science se basa en tres pilares:
Matemáticas. Aunque la procedencia académica de los científicos de datos resulta de lo más variopinta, lo habitual es que nos encontremos con una gran mayoría de matemáticos y estadísticos. Esto se debe al gran peso que la generación de algoritmos y modelos y la aplicación de lógicas tiene en el Data Science. Los data scientists se apoyan en las técnicas de minería de datos que, simplificando mucho, no son más que ecuaciones muy complejas que, con ciertas variables dadas, buscan despejar una o varias incógnitas.
Tecnología. Cuando los conjuntos de datos que se manejan son manualmente inabarcables, el Data Science ha de recurrir a la tecnología, es decir, a la programación y a la informática.
Visión de negocio. El análisis de los datos debe llevarse a cabo con un objetivo tangible, esto es, con la vista puesta en emitir predicciones para orientar los siguientes pasos de un individuo, organización, sistema o negocio. El Data Science no implica únicamente únicamente conocer, sino que intenta utilizar el conocimiento generado como hoja de ruta para mejorar los productos y servicios, así como para ganar en rapidez, eficacia y rentabilidad.
Al Data Science se le puede sacar partido desde ámbitos muy diversos. Podemos pensar en la Salud, con el desarrollo de modelos de diagnóstico cada vez más certeros; o en los Recursos Humanos, donde la Ciencia de Datos nos ayudará a encontrar al candidato perfecto, a analizar el desempeño de los trabajadores o a retener el talento.
Pero la lista es casi infinita, ya que otros sectores como las finanzas, los seguros, el marketing digital, los medios de comunicación, la industria o la logística también pueden aprovecharse de las aplicaciones de esta disciplina. En general, las empresas están potenciando sus áreas de Business Intelligence con Data Sciencists para tener una visión del negocio más analítica y optimizar los procesos de toma de decisiones clave.
¿Qué se necesita para trabajar como científico de datos?
El perfil del científico de datos requiere una mezcla de pensamiento matemático y analítico, aderezado con la capacidad de generar insights y trasladarlos a los demás de forma sencilla y comprensible.
La mayoría de las ofertas de empleo para data scientists inciden en la importancia de saber programar con Python o R y estar familiarizado con Apache Spark. En cualquier caso, si no cuentas con estas habilidades informáticas no es una barrera infranqueable, puesto que los másters en Data Science como el de datahack incluyen estas disciplinas como parte de su programa de formación.
¿Por qué y dónde estudiar Data Science?
La profesión de científico de datos ocupa el tercer puesto en el ranking de profesiones emergentes de 2020 (Emerging Jobs Report) que elabora cada año LinkedIn. Estos especialistas están adquiriendo nuevas responsabilidades y ocupando espacios que antes se llenaban con otros roles más tradicionales. Su contratación creció nada menos que un 37% el año pasado con respecto al ejercicio anterior.
Estudiar un máster relacionado con el Data Science te dará la oportunidad de abrirte paso dentro de este prometedor itinerario laboral. Y si te decides por el Máster Experto Big Data Analytics tendrás aún más ventajas: formación práctica, dinámica, intensiva y 100% en streaming, basada en nuestra metodología Learning by doing. Infórmate ahora: ¡una de las plazas de la próxima convocatoria te está esperando!
La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.
Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:
1
Árboles de decisión
Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.
Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.
Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.
2
Redes neuronales
3
Clustering
El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.
Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.
Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.
La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.
4
Extracción de reglas de asociación
5
Redes bayesianas
Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.
La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.
6
Regresión
7
Modelado estadístico
El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.
Atrévete a formarte con nuestroMáster Experto en Data Science y Big Data
Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio
El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.
Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.
Métodos de minería de datos para el análisis en Big Data
KDD (Knowledge Discovery in Databases)
KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:
Selección: de las muestras de datos y de las variables que se van a estudiar.
Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.
SEMMA (Sample, Explore, Modify, Model and Assess)
SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:
Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.
CRISP-DM (Cross Industry Standard Process for Data Mining)
CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.
CRISP-DM se estructura en seis fases:
Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
Despliegue: generación del informe o entregable final o implantación en un entorno de producción.
Herramientas de análisis en Big Data
Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:
Un proyecto de Big Data se puede enfocar desde múltiples perspectivas. El enfoque y las fases por seguir dependerán de la experiencia del equipo que hayamos seleccionado para llevarlo a cabo y de cómo sean nuestros datos. También, tendremos que tener en cuenta el presupuesto y qué plazo se haya especificado para la entrega de resultados. No obstante, a grandes rasgos podemos establecer tres fases comunes a cualquier proyecto.
PREPROCESAMIENTO DE LOS DATOS
También llamado Data Preprocessing. Se refiere al análisis inicial que hacemos de nuestros datos. Algunas de las consideraciones que tendremos que tener en cuenta es si son datos internos que ya tenemos o externos que hay que recopilar. Si nuestros datos son estructurados, semi estructurados o no estructurados. Como es la estructura de nuestra base de datos y si somos o no propietarios de esa información.
Además, una vez que tengamos los datos deberemos de comenzar por limpiarlos, por ejemplo, eliminando duplicados, viendo si tenemos un porcentaje grande de datos nulos o haciendo una selección de las mejores variables. También podremos enriquecer nuestros datos integrándolos con otros y creando subconjuntos de estos para alimentar distintos modelos. Todo este proceso en el ámbito de un proyecto puede suponer más del 70% del tiempo total de ejecución.
SELECCIÓN DE MODELOS
A continuación, deberemos pasar a la selección de modelos o Model Selection que utilizaremos sobre nuestros datos. En este punto son muchas las técnicas y tecnologías que podemos utilizar. Podemos comenzar haciendo un análisis estadístico de nuestros datos para ver cómo se distribuyen nuestras variables o cuál es la correlación entre ellas. También tendremos una idea de si tenemos outliers o atípicos en nuestros datos.
Entre las herramientas más útiles que tenemos en esta fase es la visualización de datos. Y no debemos entenderla en el sentido más tradicional a modo de entrega de resultados o de reporting. Utilizamos DataViz en su rama exploratoria. Es mucho más sencillo encontrar patrones en los datos utilizando algunos tipos de visualizaciones como los mapas de calor que analizando tablas de forma tradicional.
Posteriormente, dependiendo de nuestros datos y de lo que intuyamos que podemos obtener de ellos, los llamados insights, pasaremos a elegir las herramientas de Inteligencia Artificial que conocemos mejor como algoritmos de Machine Learning y de Deep Learning para extraer valor de esos datos y hacer distintos tipos de análisis. Algunas de las técnicas de análisis más frecuentes son el análisis predictivo y el análisis de Clustering para segmentación de clientes.
ANÁLISIS DE LOS RESULTADOS
Una vez que hemos pasado por los procesos anteriores, tendremos que hacer un análisis de resultados. Una máxima que hay que tener en cuenta a la hora de embarcarse en un proyecto de Big Data es que los resultados de éste tienen que poder cuantificarse de algún modo para ver su efectividad y rentabilidad.
Tendremos que ver si nuestros resultados son coherentes y se ajustan a las especificaciones establecidas al inicio del proyecto. Además, el cliente ya sea interno o externo deberá determinar si los resultados han tenido un impacto positivo para el negocio y si le han permitido obtener conocimiento para la toma de decisiones.
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.
Continuamos con nuestra serie de artículos con el recorrido por las tecnologías Big Data, en la que ya hablamos de las áreas de conocimiento.
Ciencia de Datos
Si nos vamos al sentido más estricto de esta expresión, diremos que ciencia de datos es casi todo aquello que tenga que ver con los datos. Y, si nos paramos a pensar, casi cualquier cosa del ámbito que nos rodea está relacionada con los datos.
Una definición más precisa es “área interdisciplinar que incluye métodos científicos, tecnologías y procesos para extraer conocimiento y valor de los datos sean del tipo que sean". En resumen, es una disciplina que hace que los datos sean útiles.
Dicho esto, los creyentes del Big Data no debemos caer en la trampa de considerar que es una ciencia moderna y que venimos a aportar algo completamente nuevo. El almacenamiento de datos existe desde hace milenios. Como tal, esta ciencia y sus procesos tienen este nombre desde Peter Naur los llamara así en los años sesenta. Por tanto, no hemos inventado la rueda.
Wikipedia, además, tiene una definición muy sencilla que puede conectar pasado y presente cuando lo define como: “concepto para unificar estadísticas, análisis de datos, Machine Learning y sus métodos relacionados”, para “entender y analizar fenómenos reales”.
Data Mining
Vamos a incluir en este artículo uno de los conceptos inherentes a la ciencia de datos: el data mining o minería de datos.
Podemos englobar aquí el conjunto de técnicas y tecnologías de las que nos vamos a valer para explorar grandes bases de datos. A partir de diversas técnicas, vamos a tratar de encontrar patrones, tendencias o anomalías que nos ayuden a ver cómo se comportan nuestros datos.
En mayor o menor medida siempre hemos aplicado técnicas de data mining dentro del llamado Business Intelligence o BI. La principal diferencia es que en BI generalmente hemos tratado de responder preguntas concretas a partir de nuestros datos.
Hoy en día, gracias al crecimiento exponencial de los datos, a la mejora de capacidad de procesamiento de los equipos modernos y a las nuevas tecnologías de Big Data, ya no siempre vamos a buscar responder una pregunta. Ahora podemos observar datos de los que no conocemos nada y encontrar patrones. Una vez que encontremos ese patrón y tengamos una pista que seguir, podremos profundizar en los datos y extraer conocimiento orientado a la toma de decisiones.
¿Por qué es tan importante formarse en técnica de data mining ahora?
Vivimos hoy una transformación en la que hemos pasado de que los datos sean una parte estática del negocio a que sean la materia prima. Donde explotábamos los datos para ver cómo iba la evolución del negocio, explotamos datos para evolucionar el negocio, tomar decisiones y crear productos y acciones de impacto en la sociedad y en las cuentas de la empresa. Además, estas acciones no tienen por qué ir orientadas únicamente al aumento del beneficio. Una de las mejores aplicaciones de estas técnicas es la optimización de costes.
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.
Resumen de privacidad
Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.
Cookies estrictamente necesarias
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_btrid
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en un año
datahack.es
_gat_UA-32658908
-1
Cookie necesaria para la utilización de las opciones y servicios del sitio web
Sesión
google.com
__Secure-1PAPISI
D
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en 2 años
google.com
__Secure-1PSID
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en 2 años
google.com
__Secure-3PSIDC
C
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en un año
Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.
Cookies de terceros
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_ga
ID utiliza para identificar a los usuarios
en 2 años
datahack.es
_gid
ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad
en 20 horas
google.com
__Secure-3PAPISI
D
Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.
en 2 años
google.com
__Secure-3PSID
Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.
en 2 años
Publicitarias
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_fbp
Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros
en 3 meses
datahack.es
_gcl_au
Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.
en 3 meses
google.com
APISID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
HSID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SAPISID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SIDCC
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en un año
google.com
SSID
Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch.
Ajusta los anuncios que aparecen en la Búsqueda de Google.
en 2 años
¡Por favor, activa primero las cookies estrictamente necesarias para que podamos guardar tus preferencias!
Cookies adicionales
Los servicios de terceros son ajenos al control del editor. Los proveedores pueden modificar en todo momento sus condiciones de servicio, finalidad y utilización de las cookies, etc.