El pasado 8 de marzo datahack organizó una mesa redonda de EXPERTAS en el ámbito de los datos.

Macarena Estévez (Deloitte), Elena Gil (Telefónica) y Emilia Gómez (Universitat Pompeu Fabra), charlaron, moderadas por Lourdes Hernández (CEO de datahack) sobre las últimas tendencias del sector, avances y proyectos punteros que se están desarrollando en estos momentos, y que darán paso al futuro del Big Data revolucionando el sector tal y como lo conocemos.

¿Quieres conocer de primera mano estos proyectos? Si te perdiste la sesión "Data: Advance & Trends". Aquí tienes el vídeo:


????️ SPEAKERS:

⚪ Macarena Estévez - Analytics Partner at Deloitte.
⚪ Elena Gil Lizasoain - Global Director of Product and Business Operations at Telefonica IoT & Big Data.
⚪ Emilia Gómez - Assistant Professor, Centre for Advanced Studies, Music Technology Group at Universitat Pompeu Fabra
⚪ Lourdes Hernández Vozmediano - CEO at datahack.

Si te estás iniciando en el mundo del Big Data, probablemente te encontrarás un poco perdido entre la ensalada de términos que manejan los expertos. Inteligencia Artificial, Machine Learning, Internet de las Cosas… Se trata de piezas de un puzzle que debemos encajar para comprender cómo funciona esto de los datos y ser conscientes de todo el jugo que le podemos sacar. Uno de los componentes claves del cuadro es el Data Science o Ciencia de Datos, que desempeña un papel crucial a la hora de convertir los registros en bruto en información.

¿Qué es el Data Science?

El Data Science o Ciencia de Datos es una disciplina que combina técnicas matemáticas y herramientas tecnológicas para la extracción, el estudio y el análisis de datos. El Data Science pretende, a partir de una observación minuciosa de la realidad, inferir conclusiones útiles para anticipar tendencias y guiar la toma de decisiones.

El Data Science se basa en tres pilares:

El Data Science está íntimamente ligado con el Big Data y la minería de datos. También existen otros conceptos de la Ciencia de Datos que es imprescindible dominar si quieres hacer de tu pasión por los datos tu profesión.

¿Para qué sirve la Ciencia de Datos?

Al Data Science se le puede sacar partido desde ámbitos muy diversos. Podemos pensar en la Salud, con el desarrollo de modelos de diagnóstico cada vez más certeros; o en los Recursos Humanos, donde la Ciencia de Datos nos ayudará a encontrar al candidato perfecto, a analizar el desempeño de los trabajadores o a retener el talento.

Pero la lista es casi infinita, ya que otros sectores como las finanzas, los seguros, el marketing digital, los medios de comunicación, la industria o la logística también pueden aprovecharse de las aplicaciones de esta disciplina. En general, las empresas están potenciando sus áreas de Business Intelligence con Data Sciencists para tener una visión del negocio más analítica y optimizar los procesos de toma de decisiones clave.

¿Qué se necesita para trabajar como científico de datos?

El perfil del científico de datos requiere una mezcla de pensamiento matemático y analítico, aderezado con la capacidad de generar insights y trasladarlos a los demás de forma sencilla y comprensible.

Qué es el Data Science: científica de datos trabajando

La mayoría de las ofertas de empleo para data scientists inciden en la importancia de saber programar con Python o R y estar familiarizado con Apache Spark. En cualquier caso, si no cuentas con estas habilidades informáticas no es una barrera infranqueable, puesto que los másters en Data Science como el de datahack incluyen estas disciplinas como parte de su programa de formación.

¿Por qué y dónde estudiar Data Science?

La profesión de científico de datos ocupa el tercer puesto en el ranking de profesiones emergentes de 2020 (Emerging Jobs Report) que elabora cada año LinkedIn. Estos especialistas están adquiriendo nuevas responsabilidades y ocupando espacios que antes se llenaban con otros roles más tradicionales. Su contratación creció nada menos que un 37% el año pasado con respecto al ejercicio anterior.

Estudiar un máster en Data Science te dará la oportunidad de abrirte paso dentro de este prometedor itinerario laboral. Y si te decides por el Máster Online en Data Science de datahack tendrás aún más ventajas: formación práctica, dinámica, intensiva y 100% en streaming, basada en nuestra metodología Learning by doing. Infórmate ahora: ¡una de las plazas de la próxima convocatoria te está esperando!

La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.

Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:

1.     Árboles de decisión

Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.

2.     Redes neuronales

Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.

Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.

3.     Clustering

El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.

4.     Extracción de reglas de asociación

La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.

Profesional de Big Data utilizando técnicas de minería de datos

5.     Redes bayesianas

Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.

6.     Regresión

La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.

7.     Modelado estadístico

El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.

¿Conocías estas técnicas de minería de datos para Big Data? ¿Has aplicado alguna de ellas en tus proyectos profesionales? Sea como sea, en datahack podemos acompañarte en tu iniciación o a ayudarte a perfeccionar tus conocimientos de data mining. Comienza desde cero con nuestro curso básico de dos meses Get Started in Data Analytics o matricúlate en nuestro Máster en Big Data & Analytics para convertirte en todo un experto. Una formación intensiva y 100% online diseñada para abrirte camino como profesional del Big Data. ¡Pregúntanos ahora, las plazas vuelan!

Power BI es la herramienta de Business Intelligence líder en el mercado. En 2020, Microsoft Power BI ha ocupado una vez más la primera posición en el Cuadrante Mágico de Gartner. En este ranking, la consultora da un repaso en profundidad de las principales plataformas de analítica e Inteligencia de Negocio. Pero, ¿para qué sirve Power BI?

¿Qué es Power BI y cómo funciona?

Power BI es una suite de programas desarrollados por Microsoft que permiten realizar un tratamiento de datos con el fin de obtener informes interactivos. En el contexto de la Inteligencia de Negocio o Business Intelligence, la elaboración de estos paneles de mando sirve para analizar y predecir cómo se están comportando las variables que más afectan a distintas áreas del negocio.

Consta de varios elementos cuyo funcionamiento de forma conjunta aumenta la potencializad de la herramienta.

Además de estos elementos, Power BI incluye Power BI Report Builder para crear informes paginados para compartir o imprimir y Power BI Report Server que permite publicar y compartir los informes creados.

El flujo de trabajo pasa por conectar e integrar diversos orígenes de datos, crear infomes a partir de ellos con Power BI Desktop, publicarlos en el Servicio Power BI para que los usuarios de dicho servicio y dispositivos móviles puedan acceder a ellos. El propio Servicio Power BI también permite obtener datos y crear informes pero las funcionalidades están mucho más limitadas que en Power BI Desktop.

Power BI Desktop

Es una aplicación gratuita de escritorio que permite conectar a datos, transformarlos y limpiarlos para crear un modelo de datos y crear representaciones visuales de los datos. Dicha transformación y limpieza se realiza con Power Query (incluida en la herramienta) Esta aplicación se integra con distintas bases de datos como, por ejemplo, Excel, Access, Azure de Microsoft, SAP HANA, SQL Server e incluso fuentes de datos online como Google Analytics o Facebook. Podemos configurar varios canales de información y tratarlos dentro del mismo modelo de datos.

Servicio Power BI

Es la parte de SaaS (Software as a Service) de Power BI. Permite la creación de entornos de trabajo para poder colaborar en la elaboración y explotación de informes y paneles. En su versión gratuita, sólo se necesita una cuenta de correo corporativa, permite importas conjuntos limitados de datos y crear visualizaciones sencillas, en su versión PRO, se puede colaborar, publicar, realizar usos compartidos y análisis específicos. Si se necesita análisis de microdatos, control de administración e implementación avanzados y recursos de almacenamiento y procesamiento en la nube dedicados, se debe contar con la versión Premium.

Power BI lleva más de una década posicionándose como la herramienta líder en BI

Ventajas de Power BI como herramienta de visualización de datos

¿Por qué la herramienta Power BI es una de las más extendidas en el campo de la Business Intelligence? Podemos citar las siguientes ventajas:

Aprende cómo se usa Power BI con estos cursos

La mejor forma de descubrir el potencial de Power BI es aprender con un curso especializado. Te mostramos los cursos sobre Power BI que puedes encontrar en datahack:

¿Te surgen preguntas y no sabes cuál elegir? Escríbenos sin dudarlo y te aconsejaremos estudiando tu situación en concreto.

Cada vez es más habitual escuchar la palabra "Machine Learning", pero todavía muchas personas no saben qué significa y cuáles son sus funciones. En nuestro blog aprenderás acerca de su función y sus categorías.


Machine Learning
Machine Learning

¿Qué es el machine learning?

Es la capacidad de aprendizaje de una máquina mediante una serie de algoritmos y la entrada de datos a su sistema. Es una rama dentro del campo de la inteligencia artificial pero, a pesar de su nombre, no aprende por sí misma, sino por los patrones y la información recopilada por sus bases de datos. Estos algoritmos crean sus propios cálculos según los datos que consiguen y, cuántos más datos tienen, más precisas son sus acciones. Por este motivo, muchas personas creen que la inteligencia artificial se mueve sola, pero la realidad es que diseña sus propias respuestas mediante sus operaciones. Además, les permite tomar decisiones en base a predicciones.

El Machine learning es importante porque gracias a este software hemos facilitado la extracción de datos, lo que nos permite una mayor competitividad frente al resto de empresas. Los programadores especializados en estos ámbitos ya son capaces de diseñar modelos para analizar información compleja y obtener resultados rápidos y precisos sin necesidad de mano humana. De tal manera que la máquina por sí sola es capaz de realizar este trabajo.


3 categorías principales



Si tenéis alguna duda o sugerencia, en datahack estamos abiertos a recibir comentarios.

El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.

Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.

Métodos de minería de datos para el análisis en Big Data

KDD (Knowledge Discovery in Databases)

KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:

  1. Selección: de las muestras de datos y de las variables que se van a estudiar.
  2. Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
  3. Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
  4. Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
  5. Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.

SEMMA (Sample, Explore, Modify, Model and Assess)

SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:

  1. Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
  2. Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
  3. Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
  4. Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
  5. Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.

CRISP-DM (Cross Industry Standard Process for Data Mining)

CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.

La visión de negocio es imprescindible en el análisis en Big Data y la minería de datos con CRISP-DM

CRISP-DM se estructura en seis fases:

  1. Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
  2. Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
  3. Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
  4. Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
  5. Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
  6. Despliegue: generación del informe o entregable final o implantación en un entorno de producción.

Herramientas de análisis en Big Data

Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:

Y si estás buscando una formación integral, ¿por qué no te atreves con nuestro Máster en Big Data & Analytics? 100% online y adaptado a ti para que te conviertas en un experto en tan solo 15 de semanas. ¡Contacta con nosotros e infórmate ahora!

El procesamiento de volúmenes ingentes de datos requiere de sistemas altamente eficientes, capaces de incorporar constantemente nuevas entradas sin parar de generar información útil para la toma de decisiones. Para satisfacer esta necesidad se diseñan las arquitecturas Big Data, modelos que han ido sofisticándose con el paso de los años con el fin de adaptarse a las exigencias de las organizaciones que los utilizan.

Hoy en datahack analizaremos las características y las diferencias que existen entre dos de las arquitecturas Big Data más extendidas: Lambda y la que muchos consideran como su evolución, Kappa.

¿Qué es la arquitectura Big Data?

Una arquitectura Big Data se define como un sistema de tratamiento de datos creado para tomar inputs de diferentes fuentes y con distintos formatos, analizarlos y convertirlos en conclusiones relevantes para el destinatario, de manera que le ayuden a predecir escenarios o determinar qué acción llevar a cabo en una situación dada.

Las arquitecturas Big Data se basan tanto en el almacenamiento como en el procesamiento distribuido de los datos, lo que las hace más seguras que los modelos centralizados en caso de fallos, ya que facilitan la localización y el aislamiento del nodo problemático con celeridad sin comprometer el funcionamiento del resto. Esto reduce, asimismo, la latencia en las conexiones, acortando los tiempos de respuesta en las solicitudes de información.

Otra de las grandes ventajas de las arquitecturas Big Data con respecto a las metodologías de análisis tradicionales es su escalabilidad: se conciben como sistemas adaptativos, preparados para asumir la entrada continua de nuevos conjuntos de datos y para ser extrapolados a ámbitos muy diversos.

Sala de servidores para el almacenamiento Big Data

Arquitectura Lambda: ¿en qué consiste?

Los principios de Lambda como arquitectura Big Data fueron establecidos por Nathan Marz en 2011 en su artículo How to beat the CAP theorem. Lambda se sustenta en una estructura de tres capas:

En la arquitectura Lambda, los datos entran por duplicado, en la capa batch y en la capa streaming. A partir de aquí, se someten a dos tipos de tratamiento:

  1. Procesamiento batch. Aborda los datos por lotes, conjuntos con un inicio y un final acotados. Los resultados de la consulta se muestran en vistas indexadas en la capa de servidor. Ofrece outputs muy fiables, dado que toma en cuenta segmentos completos de registros; pero, a cambio, precisa de un tiempo relativamente largo (minutos u horas) para completar la operación, por lo que no se considera útil en situaciones en las que la toma de decisiones deba ser casi instantánea. Para paliar esta desventaja, lo habitual es diseñar preconsultas en la capa batch que la capa serving indexará como vistas, lo que acelera la respuesta cuando se efectúa la solicitud.
  2. Procesamiento streaming. Proporciona información en tiempo real con vistas que se muestran directamente en la propia capa de velocidad y que se actualizan de forma constante apoyándose en los datos más recientes.

Arquitectura Kappa: ¿alternativa a Lambda?

La arquitectura Kappa nació en 2014 de la mano de Jay Kreps y su reflexión Questioning the Lambda Architecture. En ella, Kreps criticaba el consumo innecesario de recursos que supone mantener y tratar los mismos datos, con el objetivo de obtener resultados similares, en dos sistemas distintos (la capa batch y la capa streaming).

Kreps opina que el procesamiento por lotes también se puede llevar a cabo en la capa streaming. Y, como consecuencia, en su idea de Kappa aboga por suprimir la capa de segmentos, quedándose solo con la de streaming y la de consulta, y pasando a considerar todo como un flujo de datos ininterrumpido, sin final definido, en el que aplicar las operaciones.

Estructura de nodos para el procesamiento Big Data

Arquitecturas Big Data Lambda y Kappa: ¿cuándo utilizar cada una?

A pesar de que Kappa supone una simplificación de Lambda, no por ello constituye una solución para todas las circunstancias. Valorar cuándo y dónde implementar una u otra arquitectura Big Data depende de factores como el tipo de procesamientos simultáneos de los datos que se pretenden realizar, la importancia de la latencia para los actores implicados o si vamos a utilizar la información recabada para el desarrollo de modelos de machine learning. Una decisión delicada que corresponde tomar a los especialistas en Big Data.

¿Quieres aprender más sobre arquitectura Big Data y sobre Lambda y Kappa? Infórmate sobre el Máster Experto en Arquitectura Big Data de datahack, una formación puntera, intensiva y online con la que darás un gran paso adelante en tu carrera profesional en tan solo 15 semanas. ¿Te interesa? Contacta con nosotros y resolveremos tus dudas. Con datahack, ¡te espera un gran futuro en el mundo del Big Data!

En los últimos tiempos se ha producido una mejora considerable en la capacidad de procesamiento de datos, lo que supone un crecimiento exponencial en la cantidad de datos procesados. Por este motivo, el desarrollo de las herramientas de Big Data para analizar, procesar y almacenar los datos es un aspecto clave en la evolución de esta disciplina.

La evolución del Big Data gira en torno a tres conceptos fundamentales: Inteligencia Artificial (IA), Machine Learning y Deep Learning. La Inteligencia Artificial es un concepto englobador que se define como un conjunto de programas informáticos que imitan el comportamiento humano. Por su parte, Machine Learning y Deep Learning son modelos de IA basados en algoritmos que permiten realizar funciones específicas como reconocimiento de imágenes, elaboración de predicciones o procesado de lenguaje. Para llevar a cabo estas funciones, existen distintas herramientas de Big Data con características diferentes y concretas. A continuación, repasamos las más importantes.

Las 3 herramientas de Big Data más utilizadas

1.     Spark

Es la herramienta de Big Data más potente para el procesamiento de grandes volúmenes de información.  Así pues, no es de extrañar que sea el sistema de procesamiento de datos más utilizado por las empresas y organizaciones más importantes del mundo.

Spark es un motor de código abierto para el procesamiento de datos gestionado por la Apache Software Foundation. Entre sus principales ventajas destaca su organización en clústeres, que permite realizar operaciones sobre un gran volumen de datos. El sistema trabaja en memoria para conseguir una mayor velocidad de procesamiento.

Además, la plataforma Spark integra distintas soluciones para potenciar su rendimiento:

Spark es una herramienta de Big Data gestionada por Apache Software Foundation

2.     Hadoop

Esta herramienta de Big Data surge cuando Google se encuentra con la necesidad de procesar los datos a alta velocidad en un momento en el que el volumen de información disponible en la web experimenta un crecimiento exponencial. Para conseguir este objetivo, la estrategia del gigante online pasa por la creación de un sistema de archivos distribuidos o nodos. Así nace Hadoop, un sistema de código abierto impulsado por las nuevas exigencias del entorno digital. Sus principales ventajas son las siguientes:

Hadoop es una herramienta de Big Data apta para la gestión de grandes volúmenes de datos

3.     Power BI

Power BI es una solución de inteligencia empresarial desarrollada por Microsoft. Permite recopilar información de diferentes fuentes en tiempo real y crear paneles, gráficos e informes compartidos por un gran número de usuarios. Se trata, por tanto, de una herramienta de Bussines Inteligente (BI) orientada a la monitorización de los datos relativos a una empresa u organización para su análisis y valoración en la toma de decisiones.

Entre sus funcionalidades destacan, además del almacenamiento masivo de datos, las capacidades de preparación y descubrimiento de datos, así como la creación de paneles interactivos completamente personalizables en función de las necesidades de cada usuario. Power BI integra distintas herramientas para la creación de informes como una aplicación de escritorio, una nube o un mercado de recursos visuales para hacer más atractivos los documentos. Además, cuenta con apps para iOS y Android y permite una integración completa con los servicios Office 365.

Power BI es una herramienta de Big Data para inteligencia empresarial

Aprende a utilizar las herramientas de Big Data más demandadas

En Datahack contamos con un profesorado experto altamente cualificado en distintas áreas de Big Data y Analytics. Si estás buscando una formación práctica y exigente, no dudes en contactar con nosotros, somos la escuela que buscas.

ANTECEDENTES DEL BLOCKCHAIN

Hoy podemos conectarnos con cualquier parte del mundo, acceder a toda la información de internet, comprar sin esperas ni largas colas y recibiendo cómodamente los productos en nuestra casa… Todo desde nuestro teléfono, cómodamente sentados en nuestro sofá. Pero hay cosas que aún no podemos hacer… Por ejemplo, no podemos enviar dinero sin intermediarios (bancos, tarjetas de crédito, pasarelas de pago…). Cuando realizamos alguna compra virtual estamos utilizando las redes privadas de esos intermediarios. El dinero, por tanto… no viaja por internet, el dinero viaja entre las bases de datos de estas entidades, a las cuales, supuestamente, ningún agente externo puede acceder. Esa intermediación tiene un coste (en tiempo y dinero) que como todos sabemos, paga el usuario.

El nacimiento del BITCOIN

En 2008, tras una crisis que pasará a la historia por el estallido de una gran burbuja, una persona (o grupo) de identidad desconocida (se le conoce por su alias, Satoshi Nakamoto), crea una plataforma compleja y descentralizada basada en un registro de cadenas de bloques que no puede ser pirateado, conocido como BITCOIN. El verdadero potencial del BITCOIN no era la moneda virtual como tal (que también). El gran avance fue la creación de una tecnología que generaba más confianza que los intermediarios.

QUÉ ES EL BLOCKCHAIN

Blockchain  (también conocida como libro de contabilidad distribuido) es una cadena de bloques. En otras palabras: se trata de una base de datos distribuida que registra bloques de información y los entrelaza (mediante criptografía) para facilitar la recuperación de la información y verificar que no se han modificado. La robustez de Blockchain es su factor fundamental para eliminar intermediarios, porque la propia solidez de la misma (han pasado más de 9 años y no se ha podido piratear) crea la confianza necesaria para que los agentes externos depositen su información sin miedo a que esta pueda ser eliminada o modificada.

Criptomonedas

Con el auge de BITCOIN, muchos desarrolladores empezaron a ver limitaciones al protocolo inicial (e inalterable) propuesto por Nakamoto. Es por ello que nacen las criptomonedas o criptodivisas. Se trata de un medio digital de intercambio que utiliza técnicas de cifrado para normalizar la generación de unidades de moneda y verificar la transferencia de fondos. Además, opera de forma independiente de un banco central, es decir, un protocolo establecido e inalterable por factores externos. La primera criptomoneda en aparecer, después de BITCOIN, surgió en 2011, y su nombre fue LITECOIN (LTC). LTC es una criptomoneda sustentada por la red P2P y basada en Scrypt (otro código de encriptación diferente al de BITCOIN), En la actualidad (febrero 2018), existen más de 1500 criptomonedas enfocadas en diferentes ámbitos de aplicación, pero todas usando la idea original de descentralización y eliminación de intermediarios.

Contratos inteligentes

Utilizando la idea de la inalterabilidad de la cadena de bloques, Vitalik Buterin (desarrollador en aquella época de BITCOIN) consideró que, en el mundo empresarial, esta fiabilidad sería de gran utilidad para crear, pautar y firmar contratos. De esta manera, cuando cualquiera de las partes (o agentes externos) quisieran acceder a los contratos pasado el tiempo, pudieran ver exactamente lo mismo que se formuló. Así es como nace el término “contrato inteligente”, un programa informático que facilita, asegura, hace cumplir y ejecuta acuerdos registrados entre varias partes. Lo más importante es la ejecución, pues en actualmente cualquier contrato depende de la voluntad de las partes para cumplirlo y el ser humano es voluble. Sin embargo, los contratos inteligentes tienen la capacidad de cumplirse de forma automática una vez que se han cumplido los acuerdos pactados en su creación. Esta creación de contratos inteligentes se sustenta en la plataforma Ethereum (que no es una criptomoneda). Ethereum permite a los nuevos desarrolladores escribir su propio contrato inteligente, estipulando sus propias “cláusulas del contrato” en relación al cumplimiento de los mismos. Ether es la moneda que utiliza la plataforma Ethereum. A día de hoy es la segunda criptomoneda en capitalización, y posiblemente la criptomoneda con mayor proyección de futuro.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Como prometimos hace dos semanas, vamos a indagar en el otro significado de la narrativa de la visualización en Big Data. Se usan algoritmos avanzados de Generación de lenguaje natural (en adelante, GLN), programas capaces de generar textos coherentes en relación a los datos analizados. Estos programas reciben otros nombres, como “Story Generator Algorithms” (SGA), porque al fin y al cabo lo que generan no es lenguaje, sino historias, discursos textuales con mensajes correctamente codificados en lenguas humanas.

En la ficción

Remontémonos atrás en el tiempo para descubrir el primer sistema cuentacuentos artificial, el “Novel Writer System”, desarrollado por Sheldon Klein en 1973, generando artificialmente historias de misterio y asesinatos de 2.100 palabras. Para ello, se le proporcionó una descripción del mundo donde tendrían lugar los hechos y las características de los participantes, incluyendo los vínculos emocionales entre ellos y su predisposición a la violencia o al sexo. Se le restringieron los motivos de asesinato a 4 razones: envidia, miedo, furia o avaricia. El programa se basó en dos algoritmos: un conjunto de reglas para los posibles cambios sucedidos en el mundo asignado y un grupo de escenas relacionadas con el género de la historia que se iba a contar. Aunque el programa creó varios relatos, las únicas diferencias eran las identidades de los asesinos, de las víctimas y de los que resolvían el caso.

El siguiente invento lo encontramos en 1977, con el sistema Talespin, que generaba historias simples conociendo al personaje y su objetivo. En 1983, Universe fue creado para intentar suplir de tramas una telenovela cuyo argumento nunca terminaba. En 1993, Turner creó Minstrel, un programa capaz de generar historias de medio folio sobre Arturo y los Caballeros de la Mesa Redonda, construyendo la historia a partir de un refrán. Brutus llegó en 1999 para, haciendo honor a su nombre, construir historias de traición capaces de hacerse pasar por relatos escritos por una persona normal.

Fuera de la ficción

Fuera de la ficción, quizá el primer programa en procesar lenguaje natural fuera el software ELIZA, construido en el MIT entre 1964 y 1966 por Joseph Weizenbaum. El programa, tal como cita Janet H. Murray en su famosa obra sobre nuevos modelos narrativos Hamlet en la holocubierta, era capaz de dialogar con personas reales que chatearan con ella, construyendo preguntas a partir de las frases que escribían, de manera que funcionaba como muchos psicoanalistas. Su éxito llegó a ser tan enorme que recibía numerosas peticiones de gente que quería hablar con Eliza para resolver sus problemas, a modo de psicoterapia.

El moderno software avanzado de GLN busca automatizar la traducción de datos en mensajes coherentes para el usuario, ya que como argumentan en Narrative Science: “Los datos no son el objetivo. No son la respuesta. Los datos no son las conclusiones, los datos se encargan de ser el camino que conduce al auténtico objetivo: la comunicación de los hallazgos en el momento correcto a los destinatarios correctos”.

Cómo funcionan

Los sistemas para el GLN funcionan gracias a un motor semántico, que al analizar los datos reconoce cuáles son útiles, viendo si hay una variación importante entre los datos de dos periodos diferentes. También examina qué es lo que realmente le importará a su público objetivo; qué información de toda la obtenida es realmente demandada por el receptor de la misma. El secreto del éxito para el GLN se basa en la construcción de un buen sistema semántico, tal como cita Dan Woods en Forbes.

Y tú, ¿qué sistema opinas que es mejor para la comunicación de los resultados de la investigación del Big Data? ¿La visualización de datos mediante gráficos?, la construcción de historias y el Big Data Storytelling? ¿O la automatización de la explicación de resultados mediante el GLN? Decidas lo que decidas, para llegar a la narrativa primero tienes que analizar los datos. Si quieres aprender, apúntate a nuestro máster Datahack.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down