Tématica

BigQuery

Tiempo de lectura

5 minutos

Clave de contenido del artículo

BigQuery es un almacén de datos como servicio que nos permite cargar nuestros datos y en pocos minutos hacer consultas SQL con ellos y sacar conclusiones de una manera económica, fiable y rápida. 

Esta pensado tanto para una pequeña empresa como para grandes corporaciones ya que es escalable desde unos pocos gigabytes a cientos de petabytes. Tiene la ventaja de resolver las consultas utilizando el lenguaje SQL que es ampliamente conocido y por su puesto los datos cuentan con la seguridad que Google puede ofrecer. 

Están cifrados en disco y en tránsito y son durables y altamente disponibles. 

Y finalmente es un servicio gestionado, es decir, no nos tenemos que preocupar ni de la infraestructura ni de las comunicaciones ni de la seguridad, Google lo hace por nosotros. 

Juan Valladares

CEO in Best In BI y profesor en Datahack School

Autor del artículo

Almacén de datos empresariales 

Insertar

Almacenar

Analizar

Visualizar

Las organizaciones confían en los almacenes de datos para agregar datos de fuentes dispares,  procesarlos y ponerlos a disposición para el análisis de datos que respalde su toma de decisiones  estratégicas. 

Casos de uso de BigQuery

Puede insertar datos en BigQuery mediante la carga por lotes o la transmisión de datos directamente para brindar información en tiempo real.

¿Qué es BigQuery? 

Como almacén de datos totalmente administrado, Google se encarga de la infraestructura  para que pueda concentrarse en analizar sus datos hasta una escala de petabytes. 

Almacén de datos completamente administrado

ESCALA PETABYTE

Como almacén de datos totalmente administrado, Google se encarga de la infraestructura para que pueda concentrarse en analizar sus datos hasta una escala de petabytes. 

Structured Query Language (SQL) 

  • SELECT departamento_id, Avg(salario) 
  • FROM empleados 
  • WHERE salario > 5.000 
  • GROUP BY departamento_id 
  • ORDER BY 2 ASC;

Si desea crear modelos de aprendizaje automático con los datos de su empresa, puede hacerlo  con BigQuery ML. Con solo unas pocas líneas de SQL, puede entrenar y ejecutar modelos en sus datos de BigQuery sin necesidad de moverlos.

Aprendizaje Automático usando BigQuery

Cuando llega el momento de visualizar sus datos, BigQuery se integra con Looker, así como con  varias otras herramientas de inteligencia comercial en su ecosistema de socios.

Visualización de Datos

Ahora, ¿cómo usar BigQuery? Afortunadamente, es sencillo comenzar a utilizar BigQuery. 

Después de crear un proyecto de GCP, puede comenzar de inmediato a consultar conjuntos de  datos públicos, que Google Cloud aloja y pone a disposición de todos los usuarios de BigQuery,  o puede cargar sus propios datos en BigQuery para analizarlos.

¿Cómo usar BigQuery?

La interacción con BigQuery para cargar datos, ejecutar consultas o incluso crear modelos ML se puede hacer de tres maneras diferentes: 

1. Mediante el uso de la interfaz de usuario y la Consola en la nube. 

2. Mediante el uso de la herramienta de línea de comandos de BigQuery.

3. Haciendo llamadas a la API de BigQuery usando bibliotecas de clientes disponibles en  varios idiomas.

Tres maneras de uso

BigQuery está integrado con el servicio de administración de acceso e identidad de Google Cloud para que pueda compartir de forma segura sus datos y conocimientos analíticos en toda la organización.

Seguridad de datos en BigQuery

¿Cuánto cuesta usar BigQuery?

Con BigQuery, paga por almacenar y consultar datos y transmitir inserciones. La carga y exportación de datos son gratuitas.

El coste de almacenamiento se basa en la cantidad de datos almacenados y tiene dos tarifas según la frecuencia con la que cambian los datos.

El coste de la consulta puede ser bajo demanda, lo que significa que se le cobra por consulta,  por la cantidad de datos procesados, o puede ser fijo para los clientes que desean comprar recursos dedicados.

Beneficios

Sumérgete en el mundo de Big Data en nuestro curso Get Started in Data Analytics.

100% online

Más información

Temática

Big Data

Tiempo de lectura

3 minutos

Claves de contenido del artículo

¿Qué es el Big Data?

Aplicaciones

Formación

Salidas profesionales

El futuro del Big Data

El Big Data es uno de los temas más relevantes en el ámbito tecnológico en la actualidad. Este término se refiere a la gran cantidad de datos que se generan a diario y que son analizados para extraer información valiosa, mediante el uso de tecnologías que permiten su gestión y análisis de forma masiva. Los datos provienen de diversas fuentes, como las redes sociales, los dispositivos móviles, los sensores, entre otros. La capacidad de procesar y analizar esta información, en muchos casos en tiempo real, es lo que hace que el Big Data sea tan importante actualmente.

En este artículo Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC)) nos va a hablar sobre la importancia del Big Data y su recorrido hasta el día de hoy.

El impacto del Big Data en nuestras vidas es innegable. Muchas de las aplicaciones que utilizamos en nuestro día a día, desde redes sociales hasta aplicaciones de transporte o compras en línea, se basan en el análisis de grandes cantidades de datos para personalizar su oferta y mejorar la experiencia del usuario. Por ejemplo, cuando utilizamos una aplicación de transporte, el Big Data se utiliza para analizar las rutas más eficientes y predecir el tiempo de llegada con precisión.

Otro ejemplo es el sector de la salud, donde el análisis de datos masivos permite a los profesionales médicos personalizar los tratamientos y las intervenciones para cada paciente, lo que se traduce en mejores resultados y una mayor eficacia. También es posible detectar patrones y tendencias en el comportamiento de los pacientes, lo que puede ayudar a prevenir enfermedades y mejorar la atención médica.

Formarse en el ámbito del Big Data es fundamental para poder aprovechar al máximo su potencial. Actualmente existen numerosos cursos, grados, diplomas y programas de postgrado enfocados en el análisis de datos masivos, lo que permite a los profesionales adquirir habilidades y conocimientos específicos para trabajar en este campo. Es importante mencionar que el Big Data no sólo requiere habilidades técnicas, sino también habilidades de análisis y pensamiento crítico para poder extraer información valiosa de los datos. Un centro de excelencia en este sentido es Datahack, un centro de formación especializado en el ámbito del Big Data y el Data Science.

El campo del Big Data ofrece múltiples salidas profesionales, ya que es una herramienta fundamental en diversos ámbitos, como la salud, el comercio electrónico, la seguridad, la educación, entre otros. En el comercio electrónico, el Big Data se utiliza para analizar el comportamiento de los consumidores y personalizar las recomendaciones de productos y servicios. En la seguridad, el Big Data se utiliza para analizar grandes cantidades de información de seguridad y predecir posibles amenazas y riesgos. En la educación, el Big Data se utiliza para analizar los resultados de los estudiantes y personalizar la enseñanza para adaptarse a las necesidades de cada uno.

La importancia del Big Data continuará creciendo en el futuro próximo. Cada vez se generan más datos y se espera que en los próximos años se produzca un aumento exponencial en la cantidad de información que se recopila. Además, la capacidad de analizar y procesar grandes cantidades de datos se está volviendo cada vez más importante en el mundo empresarial y gubernamental. Por lo tanto, es fundamental que los profesionales se formen en el campo del Big Data, pues el impacto y la presencia de estas tecnologías en la vida de las personas irá en aumento.

En conclusión, el Big Data es un tema de gran relevancia en la actualidad y su importancia continuará creciendo en el futuro. Formarse en este ámbito ofrece numerosas oportunidades profesionales y permite aprovechar al máximo su potencial para mejorar diversas áreas de la sociedad. Además, el Big Data tiene un impacto directo en nuestras vidas y en la forma en que interactuamos con el mundo que nos rodea. Desde las aplicaciones móviles hasta la atención médica personalizada, el análisis de grandes cantidades de datos nos permite tomar mejores decisiones y mejorar nuestra calidad de vida.

 Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC))

 linkedin.com/in/alejandro-vaca-serrano/

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

¡Si te ha gustado el contenido de este artículo no te olvides de suscribirte a la newsletter!

En este artículo creado por Pablo Sainz de Vicuña, profesor de visualización de datos en el master de Big Data &Analytics de datahack, conoceremos de su propia mano la herramienta Tableau:

Tableau es una herramienta de visualización de datos líder del mercado que se caracteriza por su fácil aprendizaje, es muy sencillo comenzar a extraer información con ella y representar los datos de forma eficiente. Además permite jugar con los datos de origen pudiendo crear tus propios campos calculados, dicho código también resulta bastante sencillo de codificar y de aprender

Me gustaría compartir un proyecto que realicé cuando comencé a trabajar con Tableau que me dio la oportunidad de combinar dos de mis aficiones, el Golf y la Visualización de datos. Seguro que todos habéis oído hablar de un torneo de Golf en el que el premio es una chaqueta verde, pues bien, este torneo es el más prestigioso del mundo y se llama Masters de Augusta.

Mi idea consistía en crear un cuadro de mando que nos permitiese explorar la clasificación así como los jugadores, los hoyos y los golpes realizados. Una idea ambiciosa por dos grandes motivos, primero, mi desconocimiento de la herramienta, la había utilizado en el master y poco más, y segundo, de donde sacaría los datos.

El primero de los problemas se podía solventar a base de trabajo, investigación y perseverancia, el segundo…es más complicado, estuve buscando bases de datos pero nunca encontré nada que se asemejara a los que buscaba por lo que si quería llevar a cabo mi proyecto tendría que conseguir los datos por mí mismo. Para ello podía ponerme a escribir los datos a mano, algo imposible e ineficiente, o podía utilizar una de las técnicas que aprendí durante el master, web scrapping, esta técnica consiste en sacar la información de una página web aprovechando el código HTML de la misma.

Visité la página oficial del torneo y comprobé que podía extraer toda la información de ella, por ejemplo, la siguiente imagen muestra la clasificación:

Y su código es el siguiente:

Podemos ver que esta página tiene una estructura que podemos aprovechar y llegar al dato que necesitamos, si nos fijamos en la línea sombreada en azul aparece el nombre del jugador en la segunda línea de la clasificación, así como sus valores en las líneas siguientes.

Localizada la fuente de datos ahora tocaba empezar a trabajar, no soy ningún experto en la programación pero si algo había aprendido durante el master de datahack era a investigar. Encontré una librería que nunca había utilizado de web scrapping llamada “Selenium” y comencé a hacer pruebas en un notebook de jupyter utilizando python como lenguaje. Pronto empecé a ver resultados satisfactorios ya que obtuve mucha información rápidamente.

Este es es script que utilicé para obtener los jugadores:

En él se puede ver que primero buscaba el listado de jugadores para después recorrer este listado con cada jugador y obtener sus datos (Player ID, Nombre, Altura, Peso, Edad, Pais, Descripción y Mejor resultado).

También aprovechamos la web para descargar las imágenes de los jugadores y de los hoyos para poder utilizarlas en nuestro cuadro de mando.

Más sencillo resultó el script para extraer la información de los hoyos:

Para cada hoyo obtenemos su Número, Nombre, Par (golpes con los que se debería hacer el hoyo), Distancia y Descripción.

Por último faltaba obtener cada golpe realizado por cada jugador, este script requirió más trabajo ya que el código resultaba más complejo, su tiempo de ejecución era muy elevado y afinarlo fue bastante tedioso, pero finalmente logré el dataset que buscaba:

De cada golpe obtuve el PlayerID, Ronda, Golpe, Distancia, Unidad de distancia, Distancia al hoyo, Unidad de distancia al hoyo, X, Y, X Origen, Y Origen. ¡Ya tenía todo lo necesario para representarlo en Tableau!

Lo primero al entrar en Tableau es crear la fuente de datos, en este caso resultó bastante sencilla debida a la labor previa que hicimos con la extracción en Python.

Simplemente unimos la tabla principal Golpes con Jugadores y Hoyos.

Utilizando la función de pivotar en la fuente de datos conseguimos juntar los puntos X e Y de origen y destino en una misma medida pudiéndolos diferenciar mediante una dimensión Origen/Destino. Esto iba a resultar imprescindible para el gráfico principal del dashboard, el shottracker.

SHOT TRACKER

La construcción del gráfico principal resultó bastante compleja, una vez resuelto el problema de unificar el origen y destino de las coordenadas en la fuente la construcción del gráfico no resulta demasiado compleja.

La hoja está compuesta por un gráfico de puntos y un gráfico de líneas en eje doble con la ronda en color, el tiro en texto, el jugador y el hoyo en detalle.

Lo que faltaba era conseguir cambiar la imagen del hoyo dinámicamente en función de la selección realizada. Para ello encontré una solución que consistía en editar las imágenes en segundo plano del el menú de Mapa.

Una vez dentro se creaban todas las imágenes una a una incluyendo un filtro personalizado en el que seleccionábamos el hoyo correspondiente.

Conseguir esta hoja me llevó una enorme labor de investigación para replicar todos los efectos deseados.

CLASIFICACIÓN

A simple vista no parece una gráfica muy compleja. Es un mapa de calor que cuenta los golpes por ronda de cada jugador. La dificultad vino de conseguir que ese cálculo fuese correcto, en esa etapa no sabía manejar las expresiones en nivel de detalle que ofrece Tableau, estas expresiones son parecido a subconsultas que se pueden hacer a la fuente de datos original para fijar el valor en una dimensión. Son unos de los conceptos más complejos de Tableau y comprenderlos lleva su tiempo, pero necesitaba utilizarlos así que tocaba de nuevo investigar y probar hasta conseguir el resultado deseado, finalmente lo conseguí con un campo calculado que a día de hoy tardaría segundos en hacer pero que en aquel momento me pudo llevar un par de días de prueba y error.

Para conseguir el color también necesite otros campos calculados:

PANEL DE JUGADOR SELECCIONADO

En función del jugador que se selecciona en el panel de clasificación cambia el panel del jugador con su nombre y su foto.

Este efecto requiere un trabajo bastante laborioso por detrás, primero hay que tener todas las imágenes guardadas en una carpeta dentro de la siguiente ruta:

C:\Users\My_User\Documents\Mi Repositorio de Tableau\Formas

Al reiniciar Tableau veremos que si creamos un gráfico de formas nos ofrece las que están dentro de la carpeta recién creada. Después hay que asignar manualmente cada foto a cada jugador.

Crear la gráfica es sencillo ya que únicamente requiere incluir los jugadores en Forma y mediante una acción de filtro en el dashboard conseguimos ver únicamente el jugador seleccionado.

En el tooltip del jugador podemos ver otros cálculos interesantes como la máxima distancia del drive y su promedio.

El número de greenes cogidos, se considera el número de golpes que se deberían dar para llegar al Green, en un par 4 serían dos golpes; para calcular esto nos basamos en las unidades que nos ofrece el dataset:

Si el golpe tiene una distancia en yardas es un golpe desde fuera de Green, mientras que si están en pies o pulgadas es un Putt.

Siguiendo esta lógica también se calcula el número de putts por ronda realizados. Una vez construidas las hojas monté todo en el dashboard de incluí las acciones de filtro necesarias para que todo respondiese correctamente.

Creo que lo más interesante de este proyecto es lo mucho que aprendí de Tableau partiendo desde cero, buscando ejemplos que me sirviesen a mi dashboard, utilizando fórmulas que nunca había realizado, queriendo crear gráficas que no sabía hacer, y pudiendo juntar dos de mis pasiones todo se hace más fácil.

Pablo Sainz de Vicuña Data Analyst Senior en Inetum • Profesor Visualización en datahack school •

 linkedin.com/in/pablo-sainz-de-vicuna

¡Si te ha gustado el contenido de este artículo no te olvides de suscribirte a la newsletter!

Temática

Trabajo de un Ingeniero de datos

Tiempo de lectura

3 minutos

Claves de contenido del artículo


La profesión de ingeniero de datos es una de las especializaciones que van ganando enteros en el ecosistema del Big Data. El Emerging Jobs Report de 2020 de LinkedIn la coloca entre las 15 ocupaciones emergentes más destacadas de los últimos cinco años, compartiendo protagonismo con puestos tan sugerentes como experto en Inteligencia Artificial, científico de datos o Site Reliability Engineer. En este listado, los ingenieros de datos se sitúan en la octava posición, con la constatación por parte de LinkedIn de que su contratación ha crecido un 35% entre 2015 y 2019.

Y tú, ¿te sentirías cómodo trabajando como data engineer? ¿Se trata de una vía laboral que te gustaría explorar? Mira lo que hacen estos profesionales del Big Data y, si encaja con tu personalidad y tus objetivos, quédate con nosotros. ¡En datahack te ayudaremos a avanzar en tu carrera!


¿Qué es un ingeniero de datos?

El ingeniero de datos es el profesional encargado de sentar las bases para la adquisición, el almacenamiento, la transformación y la gestión de los datos en una organización. Este especialista asume la configuración de la infraestructura tecnológica necesaria para que el gran volumen de datos no estructurados recogidos se convierta en materia prima accesible para otros especialistas en Big Data, como los data analysts y los científicos de datos.

Los data engineers trabajan diseñando, creando y manteniendo la arquitectura de las bases de datos y de los sistemas de procesamiento, de manera que la posterior labor de explotación, análisis e interpretación de la información pueda llevarse a cabo sin incidencias, de manera ininterrumpida, segura y eficaz.

Si quieres profundizar en las tareas que hace un ingeniero de datos y convertirte en uno de ellos, ¡en datahack tenemos la mejor opción! Con nuestro Master en Data Science y Big Data aprenderás todo lo que necesitas para dar un paso al mundo de los datos.

¿Qué hace un ingeniero de datos en su día a día?

El día a día del ingeniero de datos transcurre, fundamentalmente, entre procesos ETL (Extract, Transform, Load), es decir, desarrollando tareas de extracción, transformación y carga de datos, moviéndolos entre diferentes entornos y depurándolos para que lleguen normalizados y estructurados a las manos de analistas y data scientists. El papel del data engineer es, en este caso, comparable al de un fontanero, ya que se centra en implementar y mantener en buen estado la red de pipelines (tuberías) por la que los datos (a semejanza del agua) correrán para alimentar el funcionamiento de toda la organización.

Extracción

En la primera etapa del proceso ETL, el ingeniero de datos se encarga de sacar los registros de distintas localizaciones, así como de estudiar la incorporación de nuevas fuentes al flujo Big Data de la compañía. Estos datos se presentan en diferentes formatos, integrando variables muy diversas, y pasarán a un data lake, u otro tipo de repositorio donde esta información quedará almacenada en bruto, disponible para cualquier uso futuro.

Transformación

En un segundo paso, el data engineer coordina la limpieza de los datos, eliminando duplicados, corrigiendo errores y desechando el material inservible; y los elabora y clasifica para convertirlos en un conjunto homogéneo

Carga

Finalmente, el ingeniero de datos lidera la carga de estos en su destino, ya sea este una base de datos ubicada en un servidor propio de la compañía o un data warehouse en la nube. Además de la correcta exportación, una de las preocupaciones recurrentes en esta etapa final es la vigilancia de la seguridad, puesto que el data engineer ha de garantizar que la información se guarda a salvo de ciberataques y de accesos no autorizados.

¿Qué se necesita para trabajar como ingeniero de datos?

Para trabajar como ingeniero de datos es preciso adquirir las destrezas técnicas que requiere un proceso ETL completo. La mayoría de las empresas piden a sus candidatos que sepan manejar bases de datos SQL y NoSQL, que estén familiarizados con servicios cloud (como Microsoft Azure o Amazon Web Services) y que se muevan con soltura dentro del ecosistema Hadoop (MapReduce, Hive, etc.).

También te ayudará tener conocimientos de:

  • Apache Spark, un software de código abierto que figura entre los más utilizados para el procesamiento masivo de datos.
  • Python, el lenguaje de programación más extendido en el ámbito del Big Data.
Carga de datos, ingeniero de datos

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

Temática

Análisis Big Data

Tiempo de lectura

6 minutos

Claves de contenido del artículo

KDD (Knowledge Discovery in Databases)

SEMMA (Sample, Explore, Modify, Model and Assess)

CRISP-DM (Cross Industry Standard Process for Data Mining)

Herramientas de análisis


El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.

Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.

Métodos de minería de datos para el análisis en Big Data

KDD (Knowledge Discovery in Databases)

KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:

  1. Selección: de las muestras de datos y de las variables que se van a estudiar.
  2. Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
  3. Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
  4. Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
  5. Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.

SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:

  1. Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
  2. Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
  3. Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
  4. Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
  5. Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.

CRISP-DM (Cross Industry Standard Process for Data Mining)

Big Data, Minería de datos

CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.

CRISP-DM se estructura en seis fases:

  1. Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
  2. Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
  3. Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
  4. Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
  5. Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
  6. Despliegue: generación del informe o entregable final o implantación en un entorno de producción.

Herramientas de análisis en Big Data

Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

Redes sociales y big data. Las redes sociales son no solo un lugar donde compartir nuestros contenidos y novedades e interactuar con nuestros usuarios. También son la mejor herramienta para obtener datos relevantes para nuestra empresa, como por ejemplo:

PERCEPCIÓN DE NUESTRA MARCA Y ANÁLISIS DEL SENTIMIENTO

Podemos monitorizar sentimientos, opiniones y actitudes negativos, neutrales o positivos respecto a nuestra marca o nuestros productos, precios, servicios de atención al cliente… Redes sociales y big data. Gracias a ello podemos reaccionar y adaptarnos en consecuencia. También podemos detectar temas tabú o asuntos de los que podemos hablar, relacionados con nuestro sector, que generen sentimientos positivos en el consumidor.

SEGMENTACIÓN Y FIDELIZACIÓN DE NUESTRO CONSUMIDOR

Analizando las conversaciones, su comportamiento, las marcas que sigue… podemos definir más fácilmente nuestras buyer personas por categorías mucho más afinadas que la mera demografía, como sus gustos, actitudes, intereses, aficiones… Esto nos permite dar en la diana cuando nos comuniquemos con él y ofrecerle una experiencia más personalizada que ayudará a fidelizarle y facilitará que avance en su ciclo de compra.

MOMENTOS PROPICIOS PARA LA VENTA

Redes sociales y big data. Gracias a las redes sociales podemos detectar los picos de actividad y cuándo los usuarios son más propicios a hacer click en nuestras publicaciones.

DETECCIÓN DE CONSUMIDORES POTENCIALES

Podemos detectar gente que, aunque aún no sea nuestro cliente, tenga patrones similares a los que sí lo son. Una vez detectados, podemos aprovechar lo que sabemos para llevarlos a nuestro terreno y convertirles en clientes, ya sea mediante una promoción o mediante estrategias de ventas más directas.

DETECCIÓN DE INFLUENCERS

Con las redes sociales podemos averiguar no solo a quién siguen nuestros clientes, sino también las personas que más les influencian, que no necesariamente son las que más seguidores tienen. Esto nos ayudará al centrar nuestros esfuerzos e incluso a ahorrar costes (mandando muestras de producto solo a las personas que sean más influenciadoras…)

ESTUDIO DE LA COMPETENCIA

Podemos reunir información sobre cómo se posiciona nuestra competencia en comparación con nosotros e identificar puntos de mejora, en qué lo hacemos mejor que ellos, qué diferencia a sus consumidores de los nuestros…

TENDENCIAS DE CONSUMO Y MERCADO

Las redes sociales permiten vislumbrar los cambios en las tendencias analizando los contenidos y palabras más compartidos. Con esto, podemos detectar desde los colores que se van a poner de moda hasta cuándo algo ya no resulta “cool”. Incluso nos puede dar pistas sobre qué tipo de palabras o lenguaje utilizar al detectar cuáles se muestran más efectivas.

La ingente cantidad de métricas a las que podemos acceder, que para colmo no están unificadas entre las distintas redes, dificulta esta tarea. Ahí es donde entra el Big Data: lo utilizamos para recopilar, limpiar, unificar, organizar y, en definitiva, convertir esos datos en información útil para la empresa. Para ello, es necesario dominar una serie de herramientas y lenguajes de programación, tecnologías en continuo desarrollo, además de llevar a cabo un tratamiento científico de esos datos para convertirlos en información accionable y valiosa.

En nuestro máster de Big Data & Analytics, aprenderás todo esto de manera 100% práctica y de la mano de profesionales del sector, que tienen experiencia de primera mano.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

En el artículo anterior hablamos de las aplicaciones del análisis predictivo en el marketing y las ventas, pero estos modelos de machine learning tienen muchas otras aplicaciones. Sectores como el financiero, la lucha contra el crimen o la sanidad también se benefician de ello.

Gestionar el riesgo

Con esto, nos referimos tanto a escenarios macroeconómicos como a escenarios microeconómicos. A escala global, podemos predecir (y beneficiarnos) de lo que ocurrirá a los mercados en el corto plazo. A escala individual, podemos hacer un análisis de cada cliente para conocer su comportamiento futuro. De esta forma, podremos anticipar, entre otras cosas, cuáles tienen más probabilidad de no hacer sus pagos a tiempo o con cuáles no recuperaremos la inversión.

Detectar fraudes

Se usa analítica predictiva para detectar desde siniestros fraudulentos hasta créditos inapropiados, robo de identidad, evasión de impuestos, proveedores sospechosos o transacciones financieras fraudulentas. ¡Incluso para encontrar plantaciones ilegales de marihuana gracias al consumo eléctrico!

Gestión de inventarios

Gracias a las técnicas de series temporales y machine learning, podremos predecir la demanda de un producto para gestionar el inventario. Así, anticiparemos tanto la cantidad de materia prima necesaria como el espacio de almacenamiento que necesitaremos.

Compraventa de acciones en bolsa

Hoy ya se utilizan los algoritmos predictivos para invertir en bolsa. Gracias a ello, no solo sabemos qué acciones subirán, sino también cuándo es el mejor momento para venderlas.

Gestión eficiente de los recursos públicos

Con analítica predictiva, podemos conocer los datos demográficos de la población futura en distintas zonas, así como los servicios públicos que necesitarán. Así, se podrán planificar mejor desde la gestión de las basuras hasta la creación de nuevas infraestructuras.

Combatir el crimen

El análisis predictivo va más allá de combatir el fraude cuando se trata de luchar contra el crimen. Como comentamos en el artículo Luchar contra el crimen con Big Data, podemos predecir desde crímenes leves hasta atentados, secuestros y asesinatos. También podemos anticipar qué movimientos hará el crimen organizado y predecir la probabilidad de que un criminal vuelva a delinquir, de modo que se tomen mejores decisiones respecto a su encarcelamiento.

Asistencia sanitaria

La analítica predictiva también salva vidas. Podemos anticipar qué pacientes tienen riesgo de padecer ciertas enfermedades como la diabetes o problemas de corazón. También cómo evolucionarán ciertas enfermedades, el contagio de las mismas o cómo reaccionará el paciente a cada tratamiento posible.

Gestionar el talento en la empresa

Como comentamos en los artículos sobre Big Data y Recursos Humanos, gracias al análisis predictivo podemos saber qué empleados tienen más probabilidad de marcharse y tomar medidas para fidelizarles. También podemos predecir el desempeño futuro de nuestros candidatos o encontrar al talento más merecedor de un ascenso, entre otras cosas.

Mejorar el Medio Ambiente

Ya vimos en los artículos de Big Data y Medio Ambiente que el Big Data y el análisis predictivo también pueden ayudar a crear un mundo mejor. Predecir cuál será nuestra huella en el planeta, cómo será el el cambio climático, cómo se pueden aprovechar mejor los recursos y cómo evolucionarán las distintas especies de la biosfera en vista de los cambios es el primer paso para luchar por un planeta más limpio.

Conclusiones

El análisis predictivo puede ser aprovechando en múltiples sectores. Los anteriores son solo unos pocos ejemplos de los cientos que se podrían mencionar, ya que las aplicaciones prácticas son casi infinitas. Es por eso por lo que resulta tan importante estar al día en lo que respecta a estas tecnologías y tener una base de formación en Big Data de calidad.

MÁSTER EXPERTO EN BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

El análisis predictivo es uno de los usos más frecuentes del machine learning, dado que es de los más útiles para las necesidades de las empresas y organizaciones. Pero, ¿qué tipo de algoritmos se utilizan para hacer estos análisis y cómo funcionan? Aquí se muestran algunos de los algoritmos más utilizados en los modelos de predicción.

Regresión lineal

Consiste básicamente en una línea recta que muestra el “mejor encaje” de todos los puntos de los valores numéricos. También se llama el método de los mínimos cuadrados porque calcula la suma de las distancias al cuadrado entre los puntos que representan los datos y los puntos de la línea que genera el modelo. Así, la mejor estimación será la que minimice estas distancias.

Lo bueno es que es fácil de entender y se ve claramente el porqué de esa línea. No obstante, tiende al overfitting, siendo peligrosos los valores extremos. Aparte, es demasiado simple para capturar relaciones complejas entre variables.

Regresión logística

Es una adaptación de la regresión lineal a problemas de clasificación (booleanos, grupos…),  utilizando el método de máxima verosimilitud para saber cuál es la probabilidad de que ocurra algo en cada punto determinado.

También es fácil de entender, pero, igualmente, tiene las desventajas de ser demasiado simple y de tender al overfitting.

El árbol de decisión

Es un gráfico que usa un método de ramificación basado en construcciones lógicas. Los árboles de decisión comienzan con el conjunto de datos completo y se van descomponiendo en distintas ramas en función de una serie de condiciones que se van seleccionando hasta llegar a la resolución del problema

Es muy fácil de entender e implementar, aunque resultan demasiado simples y poco poderosos para datos complejos.

Bosques aleatorios (Random forest)

Toma la media de muchos árboles de decisión hechos con muestras de los datos. Como se basa en muestras, cada árbol por separado es más débil que uno completo, pero la suma de todos logra unos resultados mejores.

Tiende a dar modelos de alta calidad, pero es difícil entender el porqué de las predicciones.

Potenciación del gradiente (Gradient Boosting)

Hace como el modelo anterior, pero usando árboles de decisión incluso más débiles. Luego, optimiza la muestra de datos utilizados en cada paso.

Tiene un alto desempeño, pero cualquier pequeño cambio en el conjunto de datos puede generar cambios radicales en el modelo, por no hablar de que es muy difícil comprender las predicciones.

Redes neuronales

Imitando el comportamiento del cerebro, son unidades (“neuronas”) interconectadas en varias capas que pasan mensajes de unas a otras.  Se utilizan cuando no se conoce la naturaleza exacta de la relación entre los valores de entrada y de salida.

Pueden resolver tareas extremadamente complejas como reconocimiento de imágenes, pero son muy lentas, requieren mucha potencia y sus resultados son predicciones casi imposibles de comprender.

K-vecinos más cercanos (k-NN o Nearest Neighbor)

Es un algoritmo de agrupamiento (clutering) no jerárquico, de los más utilizados, aunque no el único. Mediante métodos estadísticos de reconocimiento de patrones, se calcula la distancia de un dato a los vecinos más cercanos del conjunto de entrenamiento. El resultado está basado en la probabilidad de que un elemento pertenezca a la clase.

El mayor problema que tiene es que funciona mal con muestras pequeñas.

En el Máster Experto en Data Science y Big Data podrás aprender más sobre este tipo de algoritmos y así evolucionar en el análisis predictivo.

Clasificador bayesiano ingenuo (Naïve Bayes)

Este algoritmo asume que la presencia o ausencia de una característica no está relacionada con la presencia o ausencia de cualquier otra.  De este modo, cada una de las características del conjunto contribuye de forma independiente a la probabilidad de que el conjunto sea un objeto concreto.

Lo bueno es que solo requieren una pequeña cantidad de datos, aunque  a menudo falla a la hora de producir una buena estimación de las probabilidades de clase correctas.

Algoritmos de reducción de dimensionalidad

Estos algoritmos no son predictivos como tal. Se utilizan para reducir el número de variables a analizar encontrando las que realmente son relevantes para el análisis. Por ello, muchas veces se utilizan junto a los algoritmos anteriores, especialmente en conjuntos de datos muy grandes.

Si te ha gustado este artículo ¡No olvides suscribirte a nuestra Newsletter!

FASES DE LA ANALÍTICA BIG DATA. Queremos implementar la analítica Big Data en nuestra empresa pero ¿cómo hacerlo? En principio, sistematizar la analítica de datos puede parecer una tarea ingente, pero por suerte cualquier método analítico sigue una serie de pasos que detallamos a continuación:

OBTENCIÓN DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Lo primero es asegurarnos de que obtenemos datos de calidad de los que pueda salir un análisis veraz, útil y fiable. Es importante, en esta fase, que la empresa identifique sus objetivos para que sepa qué datos necesita y cómo conseguirlos.

LIMPIEZA Y FILTRADO DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Una vez tenemos los datos “en bruto”, hacemos una primera manipulación para hacerlos manejables. En esta fase eliminamos duplicados o errores y los trasladamos al formato más adecuado para su procesamiento.

PROCESAMIENTO DE DATOS

FASES DE LA ANALÍTICA BIG DATA. Aquí lo que hacemos es integrar los datos, manipulándolos masivamente para estructurarlos y diferenciarlos (a veces, en función de lo que necesitemos, extraeremos subconjuntos relevantes para manipularlos y analizarlos sin afectar al resto), de forma que podamos extraer información valiosa de ellos en fases posteriores.

MODELADO Y ALGORITMOS

FASES DE LA ANALÍTICA BIG DATA. En este paso construiremos un modelo analítico y elegiremos las metodologías a utilizar según el resultado que busquemos (datos estadísticos, regresiones, predicciones…). Una vez decidido esto, procederemos a crear los algoritmos necesarios para poner en marcha el modelo de machine learning.

TESTEO Y ENTRENAMIENTO DEL MODELO

FASES DE LA ANALÍTICA BIG DATA. Creados los algoritmos, ejecutamos el modelo contra un conjunto de datos parciales para probar su precisión. Entrenaremos el modelo hasta llegar al nivel de precisión deseado, momento en el cual finalizamos esta fase.

EJECUCIÓN DEL MODELO

Es el momento de ejecutar el conjunto de datos completo, bien sea una vez, si se trata de una necesidad de información puntual y específica, o de forma continua, mediante una automatización a medida que se actualizan los datos, si es una necesidad recurrente.

VISUALIZACIÓN DE LOS RESULTADOS

Los resultados y, en general, toda la información útil extraída, ha de llegar al usuario final de forma que pueda comprenderla: mediante informes, gráficos u otro tipo de soporte de visualización. Para ello, usaremos software de análisis y visualización de datos Big Data como Power BI.

CONCLUSIÓN

Seguir los pasos para conseguir implementar una analítica Big Data es relativamente sencillo. Lo que no es tan sencillo es tener los conocimientos necesarios para llevar a cabo la realización de los algoritmos necesarios para los modelos, o para mostrar los resultados en potentes visualizaciones.

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

El análisis de datos nos proporciona grandes ventajas competitivas, desde el apoyo en la toma de decisiones o la segmentación de partners y clientes hasta mejoras en la gestión interna. Pero, ¿cómo extraer todos estos beneficios de los datos?

No basta con recopilar y almacenar de forma masiva tantos datos como sea posible y enriquecer tu base de datos sin ton ni son. Para sacar valor de dichos datos, tenemos que analizarlos y, para ello, debemos tener claros los objetivos de dicho análisis y qué tipo de información es valiosa para nosotros.

EL BIG DATA EN LA ANALÍTICA DE DATOS

TIPOS DE ANALÍTICA BIG DATA. La analítica tradicional está limitada a un pequeño número de datos estructurados, por lo que los resultados de los análisis pueden resultar un poco pobres. Con Big Data, podemos analizar grandes cantidades de datos, aunque no estén estructurados, y construir modelos a partir de patrones que no siempre se aprecian a simple vista.

ANALÍTICA DESCRIPTIVA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿qué sucedió?” analizando el pasado y el desempeño de las actividades de nuestra empresa, para lo que utiliza datos históricos.

Básicamente, simplifica y resume los datos para darnos una visión y contexto con los que entenderlos. Para ello, usa herramientas como inteligencia de negocio, análisis estadísticominería de datos, aunque es relativamente sencilla de hacer, por lo que es el tipo de analítica más extendido.

ANALÍTICA DIAGNÓSTICA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿por qué sucedió?”. Al igual que la descriptiva, tiene en cuenta el desempeño pasado del comercio pero suma al análisis datos del contexto. Gracias a eso, da un paso más allá de la anterior y permite descubrir tendencias o relaciones causales.

ANALÍTICA PREDICTIVA

TIPOS DE ANALÍTICA BIG DATA. Responde a la pregunta “¿qué podría pasar?” contrastando datos recientes e históricos con técnicas como la minería de datos, modelos de machine learning y estadísticas, para ofrecer escenarios y comportamientos de clientes futuros posibles basados en probabilidades.

ANALÍTICA PRESCRIPTIVA

Esta va mucho más allá y nos responde a la pregunta “¿qué deberíamos hacer?”. No sólo permite vislumbrar escenarios futuros probables, también sugiere decisiones a tomar frente a estos escenarios y el impacto de cada posible curso de acción que se tome.

Para llevarla a cabo se utilizan herramientas de machine learning como la optimización, Análisis de Decisión Multicriterio o la simulación.

CONCLUSIÓN

Por supuesto, los cuatro tipos de analítica Big Data son fácilmente combinables entre sí, no son excluyentes. No obstante, el uso de unas u otras depende de la cantidad de datos disponible y de nuestras capacidades técnicas. Para conseguir dichas capacidades técnicas necesitamos un conocimiento avanzado de herramientas de Big Data que nos permitan elaborar modelos de machine learning capaces de llevar el análisis de nuestros datos al máximo nivel.

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down