¿En qué consiste el día a día de un Científico de Datos?

Os ofrecemos las respuestas de algunos de los más prestigiosos y de otros más ocurrentes:

Abraham Cabangbang, Senior Data Scientist en LinkedIn:

“Trabajo en un equipo dedicado al reporting y a la calidad de los datos. Si hay algún producto nuevo que debemos incorporar en nuestros principales cuadros de mando, debemos trabajar con los product managers para que nos indiquen qué es importante para el producto, y con los ingenieros para que nos digan cuáles son los datos relevantes. A partir de ahí, colaboramos con el equipo de data services para hacer las ETL (extracción, transformación y carga de datos) y la posterior visualización”.

Peter Harrington, Chief Data Scientist en HG Data:

“Un proyecto típico es incorporar una nueva fuente de datos en nuestra base de datos, que no siempre está en el formato en el que podamos almacenarlo. Un estudiante podría pensar: “bien, sólo hay que reformatearlo”, pero no es tan sencillo, porque hay temas no determinísticas que hacer y deben realizarse con gran precisión. Desde que empezamos, posiblemente he pasado el 60% del tiempo programando, 5% mirando los resultados y el 35% restante analizando nuevas formas de mejorar mi análisis”.

John Yeung, Analista de Datos en Flurry:

“Los proyectos más interesantes en los que he trabajado son los relacionados con las grandes compañías del mundo del entretenimiento (juego). Generalmente tienen un buen porfolio de productos, siempre están buscando expandir su base de usuarios y están muy atentos a las tendencias de la industria. Muchas veces nos piden ayuda para analizar cómo va el mercado. Un ejemplo es cuando diferentes compañías con diferentes juegos, tienen los usuarios muy concentrados. Entonces, si quieren captar más jugadores, tienen que decidir qué inversión les generará el mejor ROI.

 

Así, si una compañía está especializada en juegos de estrategia, deben analizar si salir al extranjero es un buen lugar para adquirir nuevos usuarios. Analizamos los jugadores de esos países y vemos si están muy vinculados con un juego específico”.

Ben Bregman, Analista de Producto en Facebook:

“Mi día tipo varía dependiendo en qué parte del ciclo de producto estamos. Si estamos poniendo en producción una nueva funcionalidad, estaré monitorizando y buceando en las métricas para entender cómo va el rendimiento. Si estamos desarrollando funcionalidades nuevas, trabajo con los ingenieros para asegurar una buena comunicación con los servicios de backend involucrados. Si estamos dilucidando sobre el futuro, estaré recogiendo datos y haciendo análisis que nos ayuden en la conversación.

Es impresionante estar involucrado en el ciclo de un producto desde el principio hasta el fin y ver cómo los usuarios disfrutan y se benefician de las nuevas funcionalidades”.

Adam Runner, contador de historias, chapista:

“Ciencia de datos” es uno de esos campos que no tiene todavía una buena definición. Hay muchas personas y muchos campos diferentes, que trabajan explotando datos. Habría que considerar qué tipos de análisis se consideran realmente como “ciencia de datos”.

La definición operativa debe inclinarse hacia una extensión del análisis, como su nombre indica, a un tratamiento más científico de los datos. Esto quiere decir que se ocupa principalmente de contestar preguntas basadas en causalidad en lugar de en correlación.

Al igual que con cualquier ciencia, hay muchos usos diferentes que dictarán en cada caso, cómo es un día típico. En mi opinión, estos son los tipos de cosas que los científicos de datos hacen:

Todo esto, por supuesto, retroalimentando continuamente los resultados obtenidos.

William Emmanuel Yu:

“En el negocio de averiguar… cómo almacenar, qué hacer, cómo hacer que tenga sentido… sobre los datos de otras personas y cazador de mitos.

Un día típico en mi día a día sería así:

  1. ¿Está funcionando bien el sistema? Verificar.
  2. ¿Los procesos se están ejecutando bien? Verificar.
  3. Mirar la lista de nuevos requerimientos y escribir nuevos procesos. Añadirlos al planificador.
  4. Mirar los procesos completados y enviar los resultados al que los solicitó.
  5. Repetir 3 y 4, hasta que la lista de requerimientos esté vacía”.

Según McKinsey en Estados Unidos se contratarán 1.8 millones de científicos de datos en 2015/2016 y, Gartner pronostica que en Europa Occidental se generarán  1.2 millones de empleos. Datos que corroboran la gran demanda que sigue existiendo y el brillante futuro que espera a los científicos de datos.

Encontramos una definición de Data Scientist como el encargado en extraer el conocimiento de los datos. Para ello debe tener tanto aptitudes técnicas, que destallaremos más adelante, como otras actitudes: pensamiento analítico, pensamiento crítico y dominar la resolución de problemas.

Además deben ser personas curiosas, buscadores de patrones, de mentalidad abierta y dispuestos a dejarse sorprender.

Algunas aptitudes técnicas imprescindibles, con las principales tareas asociadas son:

Matemáticas: conocimientos de algoritmos y álgebra lineal. Pensamiento matemático: habilidad para comprender conceptos de otra naturaleza y para relacionarlos basándose en esquemas y técnicas ordenadas.

Estadística: modelos estadísticos, análisis predictivo, árboles de decisión, redes neuronales, clasificadores, asociaciones, series temporales.

Ingeniería de datos: explorar fuentes, capturar, procesar, almacenar y analizar datos. Construir y mantener la infraestructura que soporte los datos. Asegurar calidad de la información. Computación avanzada, lenguaje de aprendizaje máquina (Machine Learning). Cumplimiento legal y normativo de confidencialidad de los datos.

Visualización: infografías, herramientas y técnicas para mostrar resultados de una manera adecuada y útil, generación de mapas con geolocalización, mapas de calor, gráficos de asociación, reporting.

Pero llegar a ser un científico de datos requiere ciertas características y habilidades, que difícilmente serán cubiertas por una sola persona.

El objetivo será formar un equipo de expertos que trabaje de forma colaborativa, enriqueciendo así los proyectos y aportando cada uno conocimiento y expertise.

El nivel de estudios en estos profesionales suele ser bastante alto: el 46% de ellos tiene un doctorado y el 42% un máster. Para los que eligen la formación reglada, hay másteres realmente buenos en Universidades de Estados Unidos y Reino Unido, y en España están comenzando a aparecer sobre todo en el sector privado, y más tímidamente en el público al que le está costando despegar.

¿Qué es Big Data? 

Aunque se ha hablado hasta la saciedad de este tema, el Big Data es tratamiento y gestión de grandes volúmenes de datos, provenientes de fuentes diversas para obtener información útil para nuestro negocio.

Datos se utilizan en las empresas desde hace muchas décadas. El BigData se considera un mundo nuevo por tener un gran volumen de datos, mucho mayor que los manejados hasta ahora, por su velocidad de generación y por la variedad de formatos que presentan.

Esta información nos debe dar un valor adicional para la toma de decisiones, produciendo entre otros, mejoras operativas, conocimiento de clientes, generación de transparencia, desarrollo de productos y servicios o modelos de negocio innovadores.

Retos que presenta:

¿Cómo es la arquitectura Big Data?

Para resolver parte de los problemas asociados a big data, Doug Cutting inventó un framework de desarrollo llamado Hadoop. Entre sus puntos clave se encuentran su capacidad de almacenamiento procesamiento local:

Los dos conceptos en los que se apoya Hadoop son, por un lado, la técnica de MapReduce y, por otro, el sistema distribuido de archivos HDFS.

Adicionalmente, Hadoop admite otras herramientas de almacenamiento, y lenguajes de programación.

Para qué no sirve:

Perfiles Big Data

Adicionalmente a los perfiles tradicionales del área de Business Intelligence, (analíticos, funcionales y técnicos), la era Big Data incorpora nuevas necesidades organizativas en las compañías Data Driven que basan su estrategia y conocimiento en la información proveniente de los datos.

Así surgen nuevos perfiles, o los ya existentes cobran mayor fuerza deben ampliar conocimientos y capacidades.

Algunos perfiles son:

CDOChief Data Officer, es la persona responsable de toda la organización relativa a los datos, desde su origen, función, tratamiento o propiedad. No debería estar en el departamento de IT, ni reportar al CIO. Idóneamente debería reportar al director general, coordinando su actividad con tecnología, operaciones y las áreas de negocio.

Data Architect: Responsable de la arquitectura (funcional y/o técnica) de la infraestructura y modelado de los datos. También de diseñar el procesamiento y la integración de datos desde su origen hasta los análisis finales.

Data Scientist: La profesión del futuro. Es el encargado en extraer el conocimiento de los datos. Para ello deber tener sólidos conocimientos estadísticos, poseer destrezas para resolver problemas, hacer preguntas y explicar los resultados obtenidos.

Data Developer: es la persona encargada de realizar el procesamiento de los datos desde los sistemas origen hasta las estructuras de análisis. Debe tener sólidos conocimientos en procesamiento paralelo, algoritmos, procesos ETL, modelos de datos, ficheros, etc.

Data Stewards: es la persona responsable de la gestión de los datos. Es un rol especialista que incorpora procesos, políticas, guías de acción y responsabilidades para la gestión integral de los datos en la organización, de acuerdo a las directrices establecidas y a las obligaciones regulatorias.

¿Cuáles son las habilidades técnicas clave?

El desarrollo y despliegue de entornos Big Data, como cualquier otra plataforma, requiere un conjunto específico de habilidades que se relacionan con otras plataformas, pero se centran en unas pocas tecnologías clave.

En la próxima hablaremos de casos de uso sectoriales. Dudas, comentarios… serán bienvenidos.

Si te interesa el mundo del Big Data, échale un vistazo a nuestro Máster Experto Big Data Analytics.

chevron-down