febrero 2016 - Datahack

El pasado jueves 25 de febrero tuvo lugar en nuestra sede la presentación de datahack y nuestro programa intensivo de Big Data, que permitió a la audiencia, compuesta por candidatos, profesores y profesionales del ámbito empresarial, conocer las características y contenidos del programa y disfrutar de las ponencias de tres expertos españoles en Big Data: Daniel Villanueva, Pedro Suja Goffin y Marlon Molina.

Eduardo Berastegui y Lourdes Hernández fueron los responsables de inaugurar la Presentación de datahack y presentar al equipo de profesores, ampliamente representado entre los asistentes. Los candidatos pudieron conocer más detalles sobre sus currículums y los módulos del programa. Fue interesante la posibilidad que ofrecieron sobre la opción de poder cursar módulos por separado (aunque sea imprescindible que para cursar un módulo, el candidato tenga conocimientos suficientes de los módulos que lo preceden).

Presentación de datahack - Daniel Villanueva

Daniel Villanueva, profesor de datahack, fue el responsable de iniciar la ronda de ponencias con su charla sobre La quinta V del Big Data. A las tradicionales cuatro uves (Volumen enorme de datos, Velocidad impensable de generación de datos, Variedad de formatos y tipologías y Valor de los datos) se les debe unir una quinta V, la Veracidad de los datos. Tener muchos datos veraces no soluciona nada si no tenemos herramientas que nos permitan también visualizar correcta y rápidamente dichos datos para así poder sacar conclusiones y usos prácticos a partir de los mismos. Muy ligada a la veracidad, está el gobierno del dato; al ser Big Data, se complica más que en los sistemas tradicionales de BI.

Después le llegó el turno a Pedro Suja Goffin, Head of Cognitive Technologies en BBVA, que a partir de su sobrada experiencia en el mundo de los datos, compartió con los asistentes su ponencia “Inteligencia artificial de cifras y letras”, donde habló de las estrategias que está implementando BBVA en relación con el aprendizaje cognitivo, qué aproximación están haciendo, qué players hay en el mercado, algunos con un marketing excelente pero sin producto alguno, y cuáles son los primeros casos de uso con los que están trabajando.

Presentación de datahack - Marlon Molina

Por último, Marlon Molina, director de Computer World University, realizó un interesante recorrido a la evolución de la informática, un oficio relativamente joven si lo comparamos con otros como el Derecho, cuyos pilares se pueden rastrear hasta la Roma clásica. La evolución de la informática se puede dividir en cuatro plataformas. La primera estaba protagonizada por grandes servidores cableados que concentraban todo el trabajo y la información en un lugar localizado. La segunda se produjo con la aparición de los ordenadores personales, que sacaron los datos de sus refugios y los diseminaron por miles de hogares y empresas. La tercera etapa es la que hemos vivido hasta ahora, con Internet y las tecnologías inalámbricas como protagonistas, que han traído consigo la generación de un volumen de datos inconcebible y la interconexión de los usuarios en la nube, lo que ha ocasionado que el usuario se convierta en el centro del negocio informático. Por último, la cuarta etapa, que comenzó en 2015 y se extenderá con fuerza hasta al menos el 2020, es la del Big Data y el análisis en tiempo real de datos, que convergerán de nuevo en el usuario y la mejora de su experiencia.

Tras estas interesantes charlas, conferenciantes y público pudieron disfrutar de un vino español en un ambiente relajado y cordial. Volveremos a vernos durante esta semana en nuestra charla informativa y nuestro taller sobre cómo vender proyectos de Big Data.

Una de las labores principales del científico de datos Big Data es la conversión de datos en conocimiento útil para la empresa. Para realizar este interesante trabajo necesitan utilizar herramientas Big Data específicas, tanto de pago como de Open Source. De hecho, según la decimosexta encuesta de KDNuggets, el 64 por ciento de los científicos de datos utilizan ambas herramientas Big Data.

Desde la perspectiva de datahack, las diez herramientas Big Data imprescindibles para la correcta labor del científico de datos son las siguientes:

1.- SQL. Structured Query Language. Requiere manejo de fórmulas algebraicas y cálculo relacional. Es un lenguaje de acceso a base de datos.

2.- Python. Es un lenguaje avanzado de programación interpretado que posee una sintaxis capaz de producir código legible. Permite tanto programación dirigida a objetos como funcional e incluso imperativa (Instrucciones que le explican al ordenador cómo debe realizar una determinada tarea). Además, puede utilizarse en múltiples plataformas

3.- R. Es la más usada de las herramientas Big Data entre los científicos de datos, lo que asegura la existencia de multitud de paquetes y librerías fácilmente reutilizables. Es un lenguaje de programación con software de código abierto, destinado a la programación estadística y los entornos gráficos

4.- KNIM. Konstanz Information Miner, construido bajo la plataforma Eclipse, es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual.

5.- RapidMiner. Permite desarrollar procesos analíticos de un entorno gráfico. Antiguamente era denominado YALE (Yet Another Learning Environment). Proporciona más de quinientos operadores dedicados al análisis de datos, incluyendo los necesarios para realizar operaciones input y output, pre-procesamiento y visualización. Tiene la ventaja de poder usar los algoritmos de Weka.

6.- Tableau. Se centra en la visualización de datos.

7.- Hadoop. Esta herramienta está actualmente considerada como el framework estándar para el procesamiento y almacenamiento de grandes volúmenes de datos.

8.- Spark. Es una ventana de trabajo de desarrollo. Su motor rápido le permite procesar datos a gran escala además de realizar procesamiento en memoria.

9.- SAS. SAS es la líder de las herramientas Big Data en el mercado del Business Intelligence.

10.- Excel. Esta herramienta de Microsoft es esencial como herramienta de creación y gestión de bases de datos.

Mario nos mostró la lista de las principales compañías del ámbito financiero en España que están abordando proyectos BigData.

Las principales áreas en las que se están llevando a cabo estos proyectos son:

Ámbito Regulatorio: las entidades tienen que realizar un análisis de los potenciales clientes antes de que empiecen a trabajar con ellos, para evitar que provengan del ámbito de la delincuencia, el blanqueo de capitales, etc. Hasta ahora, algunas utilizaban técnicas muy rudimentarias y poco fiables, como pegar en la ficha del cliente el pantallazo que le devuelve Google al poner su nombre. Tal vez tengamos a un cliente como público objetivo óptimo de una campaña, pero no estemos validando cuál es su nivel de riesgo.

Data&Beers - Proyectos BigData reales en españa - Mario Renau

IFRS9, una normativa, como continuación de Basilea II, que pretende establecer unas pautas de control para evitar la posible caída de determinados bancos, que pueden suponer el colapso de un país o incluso de un continente entero.

Plataforma estratégica de contabilidad, donde cargan y almacenan todos los movimientos contables para poder realizar análisis adicionales a los propios de contabilidad, detectar desviaciones, comportamientos erróneos, etc.

Visión 720º de un cliente. Hay un 10% de clientes que se van y no sabemos por qué. Quizá no estemos cruzando bien toda la información de las distintas áreas y no nos demos cuenta de que podemos estar dando un mal servicio al cliente, ni nos estemos fijando en el impacto que este cliente tiene sobre su comunidad, familia, empresa o seguidores. Una visión 720º del cliente exige tener la visión 360º dentro de nuestra entidad y de otros 360º fuera de ella: 720º.

Data&Beers - Proyectos BigData con Mario Renau

Por lo general son proyectos BigData con un impacto estratégico en las entidades, por lo que requieren la participación de un Program Manager. No utilizan las últimas versiones, dado que son proyectos con un cierto recorrido y las entidades necesitan certificar el software que utilizan. El ir certificando las nuevas versiones que salen es un proceso largo.

Los resultados son fabulosos, como demuestra uno de los casos concretos que Mario Renau expuso, donde un proceso PL/SQL, cuyo código llegaba desde Madrid a Vigo, pasó de tardar en ejecutarse 23 horas a hacerlo en 23 minutos, a lo que hay que sumar los notables ahorros en software e infraestructura, lo que hace que los proyectos se financien solos.

En general, hay una tendencia a realizar el almacenamiento en Data Lakes multicapa o SandBoxes, donde se almacenan los datos en crudo. Luego hay distintas capas de negocio: analítica, datos agregados y procesados y así sucesivamente. Se incluye la lógica de negocio en todas las capas. De momento, la mayoría de proyectos BigData, va en esa línea.

Si quieres asistir al próximo Data&Beers, consulta nuestros eventos datahack

Dependiendo del tipo de carrera profesional que quieras desarrollar y el grado de especialización que quieras alcanzar, deberás apostar por una u otra de las empresas de Big Data que enumeramos y describimos a continuación.

Candidatos técnicos: Tipología de empresas de Big Data

1.- Grandes consultoras: Funcionan como lanzaderas para carreras de éxito. Ofrecen buenos sueldos, gran reputación y carrera profesional, con alta estima por el talento. Es necesario que trabajes duro, mucho y en equipo. Es imprescindible (como en todos los sitios) que domines el inglés, siendo valorable el conocimiento de otras lenguas. Puede incluir viajes por el extranjero y darte la posibilidad de estar comunicado con una red internacional de expertos. Están acostumbradas a realizar proyectos grandes con grandes clientes, por lo que es probable que como candidato solo conozcas un ámbito concreto del trabajo. Son las empresas de Big Data más grandes.

2.- Consultoras, implantadores medianos y pequeños. Ofrecen salarios más ajustados que las anteriores y quizá menos beneficios sociales. Aunque a priori ofrezcan menos posibilidades de carrera profesional, te proporcionarán la posibilidad de conocer todo o la mayor parte del proyecto o proyectos en los que participes. Cómo no, hay que trabajar mucho y es necesario que tengas la autonomía suficiente como para aprender por tu cuenta las maneras de sacar adelante el trabajo. Suele haber una alta implicación en el proyecto por parte de toda la plantilla. Suelen estar más avanzadas tecnológicamente que las grandes empresas de Big Data, por lo que requieren a expertos de verdad.

3.- Consultoras de nicho. Suponemos que pagarán menos que las anteriores, pero a cambio tendrás la posibilidad de participar en todo el proceso del proyecto, además de tener voz y voto en las decisiones de la compañía. La gran desventaja de este tipo de empresa es el futuro incierto a largo plazo, pues es probable que terminen fagocitadas por alguna de las tipologías anteriores. Sin embargo, son las empresas de Big Data que te garantizan la mayor implicación.

4.- Cliente final. Lo más probable es que tengas que desarrollar todo el proyecto de Big Data desde cero, por lo que podrás participar en todas las fases, amén de adquirir conocimientos sectoriales. Los departamentos de innovación (aunque quizá todavía no busquen perfiles de Big Data) son una magnífica oportunidad para aprender y realizar cosas diferentes. No obstante, y dependiendo siempre del tipo de cliente, no suele haber mucha variedad de proyectos.

5.- Fabricantes. Un buen técnico preventa es un recurso muy valorado. Si trabajas aquí, podrás conocer diferentes clientes y casuísticas, definir estrategias y, por lo general, no participar en las instalaciones. Lo malo es que tienden a solo vender su plataforma.

Conocer las características del perfil profesional de Big Data es uno de los grandes retos que debemos afrontar en España, porque todavía estamos comenzando y hay pocos proyectos. No tenemos muy claro qué es eso del Big Data y cómo funciona exactamente; pero sabemos con seguridad que debemos empezar con ello sí o sí.

Buscamos una idea (que siempre podemos copiar) o comenzamos por algo sencillo, como la migración de nuestros almacenes de datos a otros más rápidos y económicos.

Compramos la idea de Big Data. Muy bien. ¿Quién maneja esto del Big Data? Porque alguien lo tendrá que mantener. O tenemos a algún friki inquieto que haya experimentado con algo similar, o va a ser muy difícil reciclar a alguien de nuestro personal tradicional de sistemas.

Recruiters: ¿Qué perfil profesional de Big Data tenemos que buscar?

Tanto los Head Hunters como los departamentos de Recursos Humanos e incluso los directores de IT, no tienen claro qué buscar. Si echamos un vistazo a webs de contratación de personas, encontraremos peticiones de lo más diversas, desde unas que piden “expertos en Big Data con conocimientos en SAS” a otras que buscan “expertos en Big Data con certificación” (Así, sin más) o incluso que solicitan expertos en absolutamente todos los campos relacionados con Big Data. ¡Por pedir, que no falte! Claro, las búsquedas resultan enormemente infructuosas.

Como aseveraba Tamara Dull, directora de tecnologías emergentes de SAS Best Practices, en el SAS Forum España 2015, Hadoop llegó en 2011. Si se busca un perfil profesional de Big Data con cinco años de experiencia en Hadoop, se tendrá que esperar, por lo menos, hasta dentro de unos meses. Si además se desea experiencia en proyectos reales, habrá que esperar de dos a tres años más, aunque bien sea cierto que ya existen en nuestro país empresas (algunas muy buenas) trabajando en proyectos reales de Big Data, tanto grandes como pequeños.

¿Qué hacemos, pues? Quizá lo mejor sea buscar interés y capacidad antes que mucha experiencia. Big Data es un sector de viva actualidad, por lo que es necesario que los candidatos participen activamente en foros, estén en un proceso de formación continuo y no pierdan ningún detalle de lo que ocurre en el sector. No pueden ser personas que tengan suficiente con tener su salario y su puesto, sino gente inquieta y que quiera mejorar.

El candidato ideal y el perfil profesional de Big Data

Por lo general, los candidatos suelen ser gente “friki” (con todo el cariño y sin ningún matiz despectivo; es que probablemente, si no fueran frikis, no se dedicarían a esto). Es gente inquieta y con deseos de hacer cosas, que tienen por delante, en los próximos cinco o diez años, un futuro prometedor.

Como en una gran mayoría de trabajos, la actitud, la responsabilidad y el trabajo en equipo son esenciales. Seas friki o no, trabajes donde trabajes, según nuestra experiencia es en estas cualidades donde radica el 90 por ciento del éxito de lo que se haga.

Dicho esto, pasemos a ver cuáles son los tres perfiles profesionales claramente diferenciados de Big Data:

1.- Big Data Developer. Es el encargado de captar los datos, almacenarlos, procesarlos y asegurarse de que todo funcione bien y de que los datos queden disponibles para que otras personas los puedan usar. Es el responsable de mover los datos de un sitio a otro. Suelen provenir de ingenierías, informática o matemáticas (los matemáticos sirven para todo). Poseen conocimientos en Hadoop y su ecosistema, amén de Spark

2.- Data Scientist. Realiza el análisis en profundidad de los datos. Se encarga de limpiarlos, agregarlos y sacar conclusiones de ellos. Debe poseer conocimientos sólidos de estadística, herramientas como R y SAS, y también del ecosistema Hadoop. No solo analiza estos datos, sino que también los interpreta y los pone a disposición de los usuarios o el siguiente profesional que vaya a utilizar a continuación dichos datos. Se requiere un perfil de analista.

3.- Big Data Administrator. Como siempre, alguien debe velar por que toda la “cacharrería” funcione de la manera correcta. Actividades como balancear cargas, distribuir tareas por los nodos u optimizar consultas son las tareas de las que se encarga este profesional. Es necesario un perfil técnico con conocimientos e interés en la infraestructura, además de conocimientos de Hadoop.

Cookies de terceros

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Publicitarias

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/