Ya ha comenzado la era del Big Data. Un sinfín de posibilidades se han abierto a las empresas, desde la transformación de datos en conocimiento relevante para nuestro negocio hasta la optimización del conocimiento que tenemos sobre nuestros clientes, llegando incluso a poder predecir sus sentimientos mediante el análisis de sus intereses, comportamiento y necesidades. ¿Cómo va a transformarse esta explosión de posibilidades en empleos concretos? ¿Cómo podremos aprovechar las oportunidades que están surgiendo? ¿Cuáles son los perfiles Big Data y cómo va a ser su futuro puesto de trabajo?

Para responder a estas preguntas es necesario que incidamos en dos aspectos: por un lado, nuestro perfil individual, analizando cuáles son mis capacidades y mi experiencia; por el otro, siendo conscientes de nuestros intereses, más allá de progresar en nuestra carrera laboral y obtener mayores remuneraciones, ya que una falta grande de interés puede llevarnos fácilmente a la frustración y el fracaso.

Podemos resumir en cuatro los requisitos y las funciones que debemos realizar si deseamos encajar en los perfiles Big Data:

Además, como el mundo de los datos es muy amplio, podemos seleccionar en cuál de los siguientes perfiles Big Data encajaremos mejor. Empezaremos por los menos técnicos:

Por otro lado, encontramos otros perfiles Big Data que requieren una formación más técnica:

Una de las labores principales del científico de datos Big Data es la conversión de datos en conocimiento útil para la empresa. Para realizar este interesante trabajo necesitan utilizar herramientas Big Data específicas, tanto de pago como de Open Source. De hecho, según la decimosexta encuesta de KDNuggets, el 64 por ciento de los científicos de datos utilizan ambas herramientas Big Data.

Desde la perspectiva de datahack, las diez herramientas Big Data imprescindibles para la correcta labor del científico de datos son las siguientes:

1.- SQL. Structured Query Language. Requiere manejo de fórmulas algebraicas y cálculo relacional. Es un lenguaje de acceso a base de datos.

2.- Python.  Es un lenguaje avanzado de programación interpretado que posee una sintaxis capaz de producir código legible. Permite tanto programación dirigida a objetos como funcional e incluso imperativa (Instrucciones que le explican al ordenador cómo debe realizar una determinada tarea). Además, puede utilizarse en múltiples plataformas

3.- R. Es la más usada de las herramientas Big Data entre los científicos de datos, lo que asegura la existencia de multitud de paquetes y librerías fácilmente reutilizables. Es un lenguaje de programación con software de código abierto, destinado a la programación estadística y los entornos gráficos

4.- KNIM. Konstanz Information Miner, construido bajo la plataforma Eclipse, es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual.

5.- RapidMiner. Permite desarrollar procesos analíticos de un entorno gráfico. Antiguamente era denominado YALE (Yet Another Learning Environment). Proporciona más de quinientos operadores dedicados al análisis de datos, incluyendo los necesarios para realizar operaciones input y output, pre-procesamiento y visualización. Tiene la ventaja de poder usar los algoritmos de Weka.

6.- Tableau. Se centra en la visualización de datos.

7.- Hadoop. Esta herramienta está actualmente considerada como el framework estándar para el procesamiento y almacenamiento de grandes volúmenes de datos.

8.- Spark. Es una ventana de trabajo de desarrollo. Su motor rápido le permite procesar datos a gran escala además de realizar procesamiento en memoria.

9.- SAS.  SAS es la líder de las herramientas Big Data en el mercado del Business Intelligence.

10.- Excel. Esta herramienta de Microsoft es esencial como herramienta de creación y gestión de bases de datos.

chevron-down