FASES DE LA ANALÍTICA BIG DATA. Queremos implementar la analítica Big Data en nuestra empresa pero ¿cómo hacerlo? En principio, sistematizar la analítica de datos puede parecer una tarea ingente, pero por suerte cualquier método analítico sigue una serie de pasos que detallamos a continuación:

OBTENCIÓN DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Lo primero es asegurarnos de que obtenemos datos de calidad de los que pueda salir un análisis veraz, útil y fiable. Es importante, en esta fase, que la empresa identifique sus objetivos para que sepa qué datos necesita y cómo conseguirlos.

LIMPIEZA Y FILTRADO DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Una vez tenemos los datos “en bruto”, hacemos una primera manipulación para hacerlos manejables. En esta fase eliminamos duplicados o errores y los trasladamos al formato más adecuado para su procesamiento.

PROCESAMIENTO DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Aquí lo que hacemos es integrar los datos, manipulándolos masivamente para estructurarlos y diferenciarlos (a veces, en función de lo que necesitemos, extraeremos subconjuntos relevantes para manipularlos y analizarlos sin afectar al resto), de forma que podamos extraer información valiosa de ellos en fases posteriores.

MODELADO Y ALGORITMOS

FASES DE LA ANALÍTICA BIG DATA. En este paso construiremos un modelo analítico y elegiremos las metodologías a utilizar según el resultado que busquemos (datos estadísticos, regresiones, predicciones…). Una vez decidido esto, procederemos a crear los algoritmos necesarios para poner en marcha el modelo de machine learning.

TESTEO Y ENTRENAMIENTO DEL MODELO

FASES DE LA ANALÍTICA BIG DATA. Creados los algoritmos, ejecutamos el modelo contra un conjunto de datos parciales para probar su precisión. Entrenaremos el modelo hasta llegar al nivel de precisión deseado, momento en el cual finalizamos esta fase.

EJECUCIÓN DEL MODELO

Es el momento de ejecutar el conjunto de datos completo, bien sea una vez, si se trata de una necesidad de información puntual y específica, o de forma continua, mediante una automatización a medida que se actualizan los datos, si es una necesidad recurrente.

VISUALIZACIÓN DE LOS RESULTADOS

Los resultados y, en general, toda la información útil extraída, ha de llegar al usuario final de forma que pueda comprenderla: mediante informes, gráficos u otro tipo de soporte de visualización. Para ello, usaremos software de análisis y visualización de datos Big Data como Power BI.

CONCLUSIÓN

Seguir los pasos para conseguir implementar una analítica Big Data es relativamente sencillo. Lo que no es tan sencillo es tener los conocimientos necesarios para llevar a cabo la realización de los algoritmos necesarios para los modelos, o para mostrar los resultados en potentes visualizaciones.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

El análisis de datos nos proporciona grandes ventajas competitivas, desde el apoyo en la toma de decisiones o la segmentación de partners y clientes hasta mejoras en la gestión interna. Pero, ¿cómo extraer todos estos beneficios de los datos?

No basta con recopilar y almacenar de forma masiva tantos datos como sea posible y enriquecer tu base de datos sin ton ni son. Para sacar valor de dichos datos, tenemos que analizarlos y, para ello, debemos tener claros los objetivos de dicho análisis y qué tipo de información es valiosa para nosotros.

EL BIG DATA EN LA ANALÍTICA DE DATOS

TIPOS DE ANALÍTICA BIG DATA. La analítica tradicional está limitada a un pequeño número de datos estructurados, por lo que los resultados de los análisis pueden resultar un poco pobres. Con Big Data, podemos analizar grandes cantidades de datos, aunque no estén estructurados, y construir modelos a partir de patrones que no siempre se aprecian a simple vista.

ANALÍTICA DESCRIPTIVA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿qué sucedió?” analizando el pasado y el desempeño de las actividades de nuestra empresa, para lo que utiliza datos históricos.

Básicamente, simplifica y resume los datos para darnos una visión y contexto con los que entenderlos. Para ello, usa herramientas como inteligencia de negocio, análisis estadísticominería de datos, aunque es relativamente sencilla de hacer, por lo que es el tipo de analítica más extendido.

ANALÍTICA DIAGNÓSTICA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿por qué sucedió?”. Al igual que la descriptiva, tiene en cuenta el desempeño pasado del comercio pero suma al análisis datos del contexto. Gracias a eso, da un paso más allá de la anterior y permite descubrir tendencias o relaciones causales.

ANALÍTICA PREDICTIVA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿qué podría pasar?” contrastando datos recientes e históricos con técnicas como la minería de datos, modelos de machine learning y estadísticas, para ofrecer escenarios y comportamientos de clientes futuros posibles basados en probabilidades.

ANALÍTICA PRESCRIPTIVA

Esta va mucho más allá y nos responde a la pregunta “¿qué deberíamos hacer?”. No sólo permite vislumbrar escenarios futuros probables, también sugiere decisiones a tomar frente a estos escenarios y el impacto de cada posible curso de acción que se tome.

Para llevarla a cabo se utilizan herramientas de machine learning como la optimización, Análisis de Decisión Multicriterio o la simulación.

CONCLUSIÓN

Por supuesto, los cuatro tipos de analítica Big Data son fácilmente combinables entre sí, no son excluyentes. No obstante, el uso de unas u otras depende de la cantidad de datos disponible y de nuestras capacidades técnicas. Para conseguir dichas capacidades técnicas necesitamos un conocimiento avanzado de herramientas de Big Data que nos permitan elaborar modelos de machine learning capaces de llevar el análisis de nuestros datos al máximo nivel.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

El interés por el Big Data & Analytics sigue creciendo

Sevilla se volcó por el evento y cientos de personas quisieron acompañarnos esa tarde. Si un teatro lleno, un trending topic a nivel nacional y una cola digna de un gran espectáculo de rock no demuestran que el Big Data & Analytics es un tema candente, ¿qué lo hará?

El Big Data puede salvar vidas

Las intervenciones de Juan Manuel Cotelo y Carlos Luis Parra Calderón nos abrieron los ojos al uso del Big Data en un campo tan sensible como es la medicina. Todavía queda mucho por hacer tanto a la hora de organizar los datos como a la de conseguir resultados precisos en los que los médicos puedan basarse sin reticencias... Pero es innegable el potencial de estas tecnologías para ayudar a realizar diagnósticos más precisos, salvar vidas y a mejorar la salud de las personas.

Además, gracias a usos más específicos y avanzados como nuestro proyecto DIA4RA, con el objetivo de dotar a un robot de inteligencia para asistir a pacientes con Alzheimer, mostrando algunos de los modelos entrenados hasta el momento Javier Moralo y Rubén Martínez, se conseguirá mejorar la calidad de vida de muchas personas.

El Big Data ayuda a prevenir el crimen

Javier Tejedor nos contó que Endesa utiliza el Big Data para prevenir fraudes. Y gran parte de esos fraudes son ¡cultivos de marihuana ilegales! Uno no puede sino preguntarse qué más puede hacer el Big Data no solo para prevenir el fraude, sino también otros muchos tipos de crímenes, ¿no os parece?

El Big Data puede mejorar las vidas de los ciudadanos

Ya sea optimizando los recursos públicos, ayudando a mejorar sus procesos a agricultores y pequeños empresarios, ahorrando costes o generando nuevas oportunidades de negocio, el Big Data mejorará las vidas de los ciudadanos. Y tanto el Sector Público como las empresas deberían adoptar estas tecnologías cuanto antes si no quieren quedarse atrás.

A la Inteligencia Artificial todavía le queda un largo recorrido...

En datahack, que estamos en la punta de la ola, lo sabemos mejor que nadie. Y Rubén Martínez nos lo transmitió muy bien durante su charla, en la que nos habló de las últimas tendencias, que implican a las Neurociencias a la hora de sacar el máximo partido a la tecnología deep learning...

Para trabajar en Big Data hay que tener una gran formación

Big Data, inteligencia artificial, machine learning y deep learning implican un tratamiento de datos eficaz en diferentes procesos que requieren del uso avanzado de un stack tecnológico inmenso. Para estos revolucionarios cambios se necesitan profesionales de Big Data & Analytics y, a día de hoy, hay una carencia alarmante de ellos. No te lo pienses más y fórmate en esta profesión de futuro con el máster de Big Data & Analytics de datahack.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

No cabe duda de que el mundo de la analítica avanzada de datos requiere de técnicas complejas, donde se puede tardar bastante tiempo en llegar a conclusiones interesantes para el negocio. A veces se olvida que las herramientas informáticas, así como la estadística, son un medio de obtener valor, y no un fin en sí mismas. El valor para el negocio se obtiene cuando, a partir de conclusiones basadas en datos, se toman decisiones consecuentes.  Normalmente también hay que trazar un plan de acción (cambios a introducir) para llevarlas a cabo y, posteriormente, medir si se obtiene el valor esperado. Cuando hablamos de valor, habitualmente nos referimos a un concepto que se puede expresar en cifras económicas. No obstante es extensible a otro tipo de valor, como el aumento de la esperanza de vida o la reducción de la delincuencia.

Una de las claves para obtener valor medible es partir de las preguntas adecuadas, y dedicar un cierto tiempo a formularlas y reflexionar, antes de ponerse manos a la obra con la implementación. En este artículo presento ciertas características de dichas preguntas, para que se pueda completar todo el ciclo de retorno del valor, y ejemplos pensando en contextos de actividad comercial.

Preguntas que debemos hacernos para obtener valor y sus características:

¿Son relevantes para cierta audiencia?

Debemos estudiar si las preguntas están orientadas a unos destinatarios determinados. También quiénes tienen potestad para tomar decisiones y esponsorizar los cambios posteriores. No es lo mismo orientarse a los inversores de una startup, al equipo de ventas, o al de tecnología. Por ejemplo, un responsable de ventas puede estar interesado en esta pregunta: ¿Cómo afectará a nuestras ventas el aumento de un 5% de precios de unos determinados productos? Mientras, el inversor quiere saber: ¿Cuál es el retorno de la inversión previsto si el ciclo económico sigue expansivo?

¿Para qué preguntas actualmente no hay respuesta establecida?

Esto resulta muy claro en los estudios científicos. Si nos preguntamos por la correlación entre los niveles de CO2 en la atmósfera y la incidencia de ciertas enfermedades respiratorias, vamos a poder encontrar muchos estudios rigurosos con evidencias al respecto. Y si es necesario podemos seguir profundizando sin partir de cero, por ejemplo, restringir el estudio a una ciudad específica donde todavía no haya estadísticas fiables.

Llevado al mundo de los negocios, una pregunta del tipo "¿Cuáles son nuestros 10 mejor clientes?" seguramente es una lista que alguien ya ha elaborado en el pasado. Se trata de saber bajo qué hipótesis se realizó, e incluso si existe ya un procedimiento automatizado para disponer de la información. Además, es una pregunta que quizás se pueda contestar sin recurrir  a técnicas analíticas avanzadas y, partiendo de ella, calcular el valor del ciclo de vida completo del cliente, que sí que requiere realizar estimaciones de futuro.

Nota: No saquemos la conclusión de que listar los 10 principales clientes es siempre algo sencillo. Poner de acuerdo a varios departamentos sobre qué se considera un mejor cliente, y de una manera medible para que sea automatizable, puede ser una tarea de semanas. Recopilar datos con la suficiente calidad para medirlo de manera efectiva también supondrá semanas o meses. E incluso un cálculo básico puede hacer conveniente el uso de Big Data, para ganar velocidad de proceso y alta disponibilidad. No se trata de no entregar información durante meses, podremos tener resultados antes. Pero que se admita cómo válida, corporativa  y estable requiere mucho esfuerzo y gestión.

¿Son preguntas plausibles?

Aquí se trata de entender cómo funciona el negocio. Por ejemplo, plantear hipótesis sobre relaciones causa-efecto que se puedan justificar. Por poner algún caso extremo, en internet se encuentran correlaciones absurdas, como los datos de importación de crudo noruego vs los accidentes de tren. En el fondo esto tiene que ver con poner el foco correcto en qué datos son relevantes a priori para tomar decisiones basadas en los mismos.

Aunque tiene sentido implementar un “data lake” en ciertos contextos, no debemos caer en el llamado “síndrome de Diógenes de los datos”. Si empezamos a hacer cálculos estadísticos al azar con todos los datos disponibles, acabaremos por encontrar correlaciones irrelevantes para el negocio. Recordemos aquí una máxima fundamental, correlación no implica causalidad. Por esto es importante que los perfiles científicos de datos tengan un cierto conocimiento del negocio, o bien trabajen de manera muy cercana con otros perfiles mixtos.

¿Qué preguntas pueden ser respondidas?

Esto parece una obviedad, pero lo cierto es que los proyectos tienen como mínimo restricciones de coste y tiempo. Una vez excedidos, lo normal es que se consideren fracasados. También es posible que no contemos con datos relevantes para responder esas preguntas, y que recopilarlos no sea factible.

De nuevo un caso extremo puede ser el buscar un método para viajar hacia atrás en el tiempo. Si bien es una pregunta interesante, y donde tengo entendido que las leyes de la relatividad podrían permitirlo, es algo que con casi total seguridad no se va a implementar a 50 años vista, empezando por la falta de materiales adecuados. Podría ser algo peor, y que al final se demuestre inviable. Volviendo a ejemplos más cotidianos, una pregunta del tipo "¿cuál es la probabilidad de fuga de cada uno de mis clientes a un mes vista?" no es algo que vayamos a responder en dos semanas contratando a un Científico de Datos y a un Ingeniero de Big Data, si es la primera vez que abordamos un proyecto de este tipo. Quizás podamos establecer una prueba de concepto ayudándonos de tecnologías en la nube, pero no esperemos una precisión récord.

¿Son preguntas concretas y específicas?:

Es muy diferente preguntar "¿Cómo es el sentimiento de cliente acerca de nuestra marca?" a preguntar "¿Qué porcentaje de opiniones de twitter son negativas respecto a nuestro nuevo modelo de producto?" Ambas preguntas son legítimas en el contexto de negocio. Pero, en el segundo caso, es algo que vamos a poder empezar a implementar antes, ya que acota mejor las tecnologías a utilizar y los datos relevantes. Es decir, hemos acotado el alcance. Y cabe esperar que en el segundo caso podamos tomar también decisiones más rápidas, en el supuesto de que haya excesivas opiniones negativas, detectando si las mismas se asocian a aspectos de precio, calidad, soporte, incluso si existen o no intereses particulares, etc.

¿Qué preguntas permiten respuestas accionables?

Imaginemos que nos interesa conocer los segmentos “clusters” de nuestros clientes, para dirigir una campaña comercial específica a algunos de ellos. Mediante aprendizaje no supervisado descubrimos que hay un segmento que principalmente nos compra cuando hay descuentos disponibles, y raramente lo hace a precios normales. Sin embargo, a la empresa no le es posible técnicamente enviar un cupón de descuento solo a estos clientes, porque no dispone de los correos electrónicos actualizados de los mismos, sino que publicita cupones de descuento mediante banners de publicidad en sitios de terceros.

Aunque el conocer los segmentos tiene interés, y quizás se puede intentar un envío parcial o que el banner se muestre solo en ciertas circunstancias, al final se pierde gran parte del valor potencial al no poder contactar con muchos de los clientes de manera directa. En esta ocasión queremos utilizar técnicas avanzadas pero todavía no hemos resuelto otros aspectos más básicos como disponer de datos de calidad.


 José Julio López, Business Intelligence, Data Science, IT Project Manager. SCRUM Master, PMP y exalumno del máster de Big Data & Analytics de datahack

Nota: Este artículo es de mi autoría original, si bien las propias características de las preguntas han sido obtenidas de un vídeo de la Universidad Johns Hopkins en Coursera.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down