El pasado jueves 25 de febrero tuvo lugar en nuestra sede la presentación de datahack y nuestro programa intensivo de Big Data, que permitió a la audiencia, compuesta por candidatos, profesores y profesionales del ámbito empresarial, conocer las características y contenidos del programa y disfrutar de las ponencias de tres expertos españoles en Big Data: Daniel Villanueva, Pedro Suja Goffin y Marlon Molina.

Eduardo Berastegui y Lourdes Hernández fueron los responsables de inaugurar la Presentación de datahack y presentar al equipo de profesores, ampliamente representado entre los asistentes. Los candidatos pudieron conocer más detalles sobre sus currículums y los módulos del programa. Fue interesante la posibilidad que ofrecieron sobre la opción de poder cursar módulos por separado (aunque sea imprescindible que para cursar un módulo, el candidato tenga conocimientos suficientes de los módulos que lo preceden).

Presentación de Datahack

Presentación de datahack - Daniel Villanueva

Daniel Villanueva, profesor de datahack, fue el responsable de iniciar la ronda de ponencias con su charla sobre La quinta V del Big Data. A las tradicionales cuatro uves (Volumen enorme de datos, Velocidad impensable de generación de datos, Variedad de formatos y tipologías y Valor de los datos) se les debe unir una quinta V, la Veracidad de los datos. Tener muchos datos veraces no soluciona nada si no tenemos herramientas que nos permitan también visualizar correcta y rápidamente dichos datos para así poder sacar conclusiones y usos prácticos a partir de los mismos. Muy ligada a la veracidad, está el gobierno del dato; al ser Big Data, se complica más que en los sistemas tradicionales de BI.

Después le llegó el turno a Pedro Suja Goffin, Head of Cognitive Technologies en BBVA, que a partir de su sobrada experiencia en el mundo de los datos, compartió con los asistentes su ponencia “Inteligencia artificial de cifras y letras”, donde habló de las estrategias que está implementando BBVA en relación con el aprendizaje cognitivo, qué aproximación están haciendo, qué players hay en el mercado, algunos con un marketing excelente pero sin producto alguno, y cuáles son los primeros casos de uso con los que están trabajando.

Presentación de Datahack

Presentación de datahack - Marlon Molina

Por último, Marlon Molina, director de Computer World University, realizó un interesante recorrido a la evolución de la informática, un oficio relativamente joven si lo comparamos con otros como el Derecho, cuyos pilares se pueden rastrear hasta la Roma clásica. La evolución de la informática se puede dividir en cuatro plataformas. La primera estaba protagonizada por grandes servidores cableados que concentraban todo el trabajo y la información en un lugar localizado. La segunda se produjo con la aparición de los ordenadores personales, que sacaron los datos de sus refugios y los diseminaron por miles de hogares y empresas. La tercera etapa es la que hemos vivido hasta ahora, con Internet y las tecnologías inalámbricas como protagonistas, que han traído consigo la generación de un volumen de datos inconcebible y la interconexión de los usuarios en la nube, lo que ha ocasionado que el usuario se convierta en el centro del negocio informático. Por último, la cuarta etapa, que comenzó en 2015 y se extenderá con fuerza hasta al menos el 2020, es la del Big Data y el análisis en tiempo real de datos, que convergerán de nuevo en el usuario y la mejora de su experiencia.

Tras estas interesantes charlas, conferenciantes y público pudieron disfrutar de un vino español en un ambiente relajado y cordial. Volveremos a vernos durante esta semana en nuestra charla informativa y nuestro taller sobre cómo vender proyectos de Big Data.

Una de las labores principales del científico de datos Big Data es la conversión de datos en conocimiento útil para la empresa. Para realizar este interesante trabajo necesitan utilizar herramientas Big Data específicas, tanto de pago como de Open Source. De hecho, según la decimosexta encuesta de KDNuggets, el 64 por ciento de los científicos de datos utilizan ambas herramientas Big Data.

Desde la perspectiva de datahack, las diez herramientas Big Data imprescindibles para la correcta labor del científico de datos son las siguientes:

1.- SQL. Structured Query Language. Requiere manejo de fórmulas algebraicas y cálculo relacional. Es un lenguaje de acceso a base de datos.

2.- Python.  Es un lenguaje avanzado de programación interpretado que posee una sintaxis capaz de producir código legible. Permite tanto programación dirigida a objetos como funcional e incluso imperativa (Instrucciones que le explican al ordenador cómo debe realizar una determinada tarea). Además, puede utilizarse en múltiples plataformas

3.- R. Es la más usada de las herramientas Big Data entre los científicos de datos, lo que asegura la existencia de multitud de paquetes y librerías fácilmente reutilizables. Es un lenguaje de programación con software de código abierto, destinado a la programación estadística y los entornos gráficos

4.- KNIM. Konstanz Information Miner, construido bajo la plataforma Eclipse, es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual.

5.- RapidMiner. Permite desarrollar procesos analíticos de un entorno gráfico. Antiguamente era denominado YALE (Yet Another Learning Environment). Proporciona más de quinientos operadores dedicados al análisis de datos, incluyendo los necesarios para realizar operaciones input y output, pre-procesamiento y visualización. Tiene la ventaja de poder usar los algoritmos de Weka.

6.- Tableau. Se centra en la visualización de datos.

7.- Hadoop. Esta herramienta está actualmente considerada como el framework estándar para el procesamiento y almacenamiento de grandes volúmenes de datos.

8.- Spark. Es una ventana de trabajo de desarrollo. Su motor rápido le permite procesar datos a gran escala además de realizar procesamiento en memoria.

9.- SAS.  SAS es la líder de las herramientas Big Data en el mercado del Business Intelligence.

10.- Excel. Esta herramienta de Microsoft es esencial como herramienta de creación y gestión de bases de datos.

chevron-down