Datahack, autor en Datahack

Temática

Empleabilidad

Tiempo de lectura

5 minutos

Clave de contenido del artículo

Prioridades en la demanda del sector Big Data según publica en varias entrevistas el MIT

Conclusiones

Todos sabemos que las principales competencias técnicas demandadas en las vacantes del sector de Big Data son:

Lenguajes de Programación
Aprendizaje Automático, IA y Procesamiento del Lenguaje Natural (NPL)
Análisis cuantitativo
Minería de Datos
Resolución de problemas
Bases de Datos SQL y NoSQL
Estructura de Datos y Algoritmos
Interpretación y Visualización de Datos

Paloma Romero

EMEA Talent and Culture Lead

Autora del artículo

En un mercado laboral tan competitivo como el actual, es importante que los que buscan empleo en Big Data tengan una idea clara de lo que las empresas buscan.

Un informe del Boston Consulting Group sitúa a España como el octavo país "más atractivo" del mundo para el traslado de trabajadores tecnológicos, por detrás de Francia y Suiza. Esto lo facilita la alta calidad de vida en España y nuestra cultura.

Asimismo, en España, el 70% de los trabajadores tecnológicos son hombres, y sólo el 30% mujeres. Algunas instituciones, como la Universidad de Granada, están desarrollando iniciativas para eliminar esta brecha, pero todavía hay que trabajar mucho para lograr un equilibrio.

Prioridades en la demanda del sector Big Data según publica en varias entrevistas el MIT

Jonathan Lowe, Jefe de Ciencia de Datos en Pfizer

Jonathan Lowe aclara que a veces hacemos excepciones y contratamos sin tener todas las habilidades, y nos fijamos en la experiencia en el negocio, "Si alguien dice: 'He trabajado en un laboratorio de calidad durante la mitad de mi carrera y ahora, durante los últimos años, he estado aprendiendo más ciencia de datos', nosotros engulliremos a esas personas".

Yichen Sun, Directora de Ciencia de Datos en Netflix

Por otro lado, según Yichen Sun, "necesitamos a alguien que tenga principios y sea práctico a la vez, que haga las concesiones adecuadas y que sea capaz de articular el 'por qué' de esas decisiones técnicas".

Cerrar la brecha entre el negocio y los datos de una empresa son las principales prioridades, haciendo hincapié en la importancia de traducir con precisión la información obtenida de los datos en estrategias empresariales viables.

Por ello, las funciones actuales centradas en los datos también requieren curiosidad, lo que contribuye a una mentalidad innovadora y orientada a la resolución de problemas. Aunque un experto en datos con una solución en busca de un problema no es algo que rompa el trato, Sun dijo que intentará entrenar a la persona para que entienda que su solución puede ser la aplicación correcta para un problema, pero que puede haber una forma "aún más elegante o incluso más simple de hacerlo".

En relación con esto, Sun también busca a "alguien que sea más reflexivo, que sea capaz de recibir esta retroalimentación de una manera muy productiva y ser adaptable en términos de qué enfoque utiliza."

Nadine Kawkabani, Global Business Strategy Director en MFS Investment Management

Por último, Nadine Kawkabani declara que la necesidad de competencias interpersonales son ejemplos de cómo han cambiado los puestos de trabajo relacionados con los datos y el análisis, y la cultura asociada. Ya no se trata de trabajar con datos; se trata de garantizar que los datos tengan sentido y que las personas que los manejan entiendan también cómo influyen en la estrategia de la empresa.

"Todos dependemos de todos", afirma Kawkabani. "Puedo plantear la mejor estrategia, pero si no tengo buenos datos, buenos gráficos, datos precisos y datos oportunos e interpretables, no significan nada".

Conclusiones

Tras estas opiniones podemos entonces concluir que en un mercado laboral tan competitivo como el actual, las empresas buscan a los mejores y para ello no solo hay que ser “excelente” en datos, hay que ser también excelente en:

Flexibilidad y Adaptabilidad
Resolución de problemas complejos
Responsabilidad y Corresponsabilidad
Gestión del tiempo
Tolerancia a la presión
Conocimientos específicos del sector, del negocio, de la competencia
Trabajo en equipo
Humanidad
Sentido del humor

Cualquier empresario buscará a la persona que genere mayor valor añadido a su negocio, que aumente la calidad de lo que hace o que sea capaz de ir más allá de lo esperado… esto es escalable a cualquier sector y a cualquier área, no solo a las relacionadas con los datos. Esto nos lleva a que debemos ser los mejores a nivel técnico y a nivel competencial

Por otro lado, un informe del Boston Consulting Group sitúa a España como el octavo país "más atractivo" del mundo para el traslado de trabajadores tecnológicos, por detrás de Francia y Suiza. Claramente, la alta calidad de vida en España y nuestra cultura facilitan esta posición.

Desafortunadamente sigue existiendo diferencia de género en España, ya que como se ha explicado anteriormente, el 70% de los trabajadores tecnológicos son hombres. Sólo el 30% son mujeres.

Según IESE, a pesar de las elevadas tasas de desempleo juvenil en España, el 75% de las empresas encuestadas afirma estar encontrando importantes dificultades para contratar talento con las competencias adecuadas para cubrir sus necesidades.

Además, el 76% de las empresas señalan una brecha de competencias entre lo que necesitan sus organizaciones y la formación ofrecida por el sistema universitario. Al mismo tiempo, el 79% de las empresas señalan una brecha de competencias en los candidatos con formación profesional.

En las grandes empresas encuestadas se espera que el teletrabajo represente casi el 40% de las horas de trabajo en 2025. Frente a esto, las habilidades de liderazgo de los directivos cobrarán mayor relevancia (según el 88% de las empresas). El resto de la plantilla deberá mostrar más capacidad de aprendizaje y de trabajo en equipo (según el 60% y el 59% de las empresas, respectivamente), entre otras habilidades.

Finalmente, ya que hablamos de la empleabilidad hablemos también de los salarios tomando varias fuentes:

Un Científico de Datos, según Word salaries.com, puede ganar entre 23.000 y 79.000 euros. Alcanza este salario con el Máster Experto en Data Science y Big Data.
Según Economic Research Institute, un ingeniero de datos oscila entre 41.000 y 72.500 euros, mientras que un arquitecto de datos entre 36.000 y 56.000 euros (Glassdoor) . Infórmate de nuestro Máster Experto Big Data Architecture & Engineering.
Data Center Market cuenta que un analista de datos entre 50.000 y 80.000 euros. Comienza tu camino en el análisis de datos con el Curso GRATUITO de Power BI de la mano de IBM SkillsBuild y datahack.

¿Sabes qué es y cómo funciona el análisis de datos? En datahack te lo contamos.

Luis Miguel Gómez Caballero (formador en herramientas TIC) viene a explicarnos en el nuevo evento de datahack: "Sector Inmobiliario y Big Data: El futuro de la búsqueda de casa". Una pequeña introducción al análisis de datos en el que nos hablará sobre el uso de la función correlación, el establecimiento de un segmento, la aplicación de regresión lineal y la automatización del proceso con VBA. Además, explicará un caso práctico del sector inmobiliario.

¿Cuál es el precio de las viviendas por metro cuadrado?

Puntos clave:

Análisis de datos: Introducción y contexto
Uso de automatismos con VBA: Trabajar una vez, repetir el resto.
En qué consiste un proceso ETL.
La función de correlación.
Representación de datos y obtención de criterios de segmentación.
Conclusiones y ronda de preguntas.

Nuestro ponente

Luis Miguel Gómez Caballero

Formador en herramientas TIC

¡Inscríbete al evento e introdúcete en el mundo del Big Data!

¿Qué tienes que realizar para asistir a este #evento? Muy sencillo: únicamente tendrás que registrarte desde este evento y esperar al día 20 de octubre (se realizará desde LinkedIn Live por lo que se deberá acceder a la plataforma de LinkedIn a la hora del evento).

Regístrate aquí gratis para asistir online:

🔵 La sesión será online en directo y desde la plataforma de LinkedIn Live.

🔵 Este formulario es para apuntarte a la sesión online.

🔵 Durante esta sesión podrás preguntar todas las dudas que tengas al ponente y las irá respondiendo. No te quedes con ninguna duda.

🔵 Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión online.

Descubre el análisis de datos junto a datahack

¡Inscríbete ya!

Temática

Python

Tiempo de lectura

5 minutos

Clave de contenido del artículo

¿Cómo instalar Anaconda Python?

Cómo trabajar con Anaconda: Jupyter Notebook y Spyder

Entorno de Python en Anaconda

Instalación de librerías en Anaconda: Conda

Conclusión

Luis ha decidido ser Data Scientist. Desde hace tiempo lleva dándole vueltas a dedicarse a la inteligencia artificial, pero no sabe por dónde empezar. Tras consultar en Google y a ChatGPT qué herramientas son las más adecuadas para iniciarse, concluye que desde hace tiempo hay dos lenguajes de programación más utilizados en este mundo: R y Python. Luis decide dejar de lado debates eternos y decide aprender los dos, porque ¿existe acaso incompatibilidad? Tira una moneda al aire y el resultado es empezar por Python.

De Python no sabía mucho, más allá de que es un lenguaje de programación. Buceando un poco, llega a definiciones del tipo: “Se trata de un lenguaje de programación multiparadigma, ya que soporta parcialmente la orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, dinámico y multiplataforma.”

Santiago Moreno

Senior Data Scientist y profesor de Python y machine learning en datahack

Autor del artículo

En resumen, Python sirve para todo, desde modelos de machine learning hasta para desarrollar YouTube. Para esto, Luis ve que Python se apoya en múltiples módulos, paquetes o “librerías”, “libraries” en inglés que son una ayuda para cada uno de los aspectos que se pueden utilizar con Python. En concreto para IA hay varias indispensables: Pandas, numpy, scikit learn, Keras, Matplotlib, Seaborn…. y unas cuantas más.

Por tanto, no basta con descargarse Python, sino que hay después que instalar múltiples bibliotecas o “librerías” para poder trabajar y, lo que es más complicado: cada librería depende a su vez de otras, lo cual hace que pueda haber incompatibilidad de versiones... y ¿cómo solucionar todo este lío? Cuando está a punto de tirar la toalla, Luis descubre Anaconda.

Anaconda es una distribución de Python (también de R), es decir, en lugar de instalar Python simplemente te instalas Anaconda y con ella ya tienes las principales herramientas Open Source que el Data Scientist necesita para desarrollar su actividad.

¿Cómo instalar Anaconda Python?

Instalar Anaconda es muy fácil; viene ya preparado para descargar el instalador según el sistema operativo que se quiera utilizar e instalarlo:

Haz clic aquí.

Cómo trabajar con Anaconda: Jupyter Notebook y Spyder

La instalación de Anaconda viene directamente con Jupyter Notebook como herramienta de notebooks y de Spyder como IDE de programación.

El Notebook es una herramienta muy habitual en el trabajo habitual del científico de datos. En su propia web se define como “Jupyter Notebook es una interfaz web de código abierto que permite la inclusión de texto, vídeo, audio, imágenes así como la ejecución de código a través del navegador en múltiples lenguajes. Esta ejecución se realiza mediante la comunicación con un núcleo (Kernel) de cálculo.”

Haz clic aquí.

Precisamente esa capacidad de poder incluir código junto con imágenes y texto es lo que hace particularmente adecuado para el análisis de datos, pues te permite llevar un hilo argumental a medida que se va llevando a cabo el estudio, los modelos, extrayendo las métricas, etc.

Sin embargo, los notebooks tienen una importante limitación: no permiten de modo fácil la productivización de los distintos algoritmos. Para esto es mejor recurrir a lo que se conoce como un IDE, es decir, un entorno para desarrollo integrado. Anaconda viene integrado con Spyder para lo que es la parte más de desarrollo y menos de análisis.

Haz clic aquí.

Entorno de Python en Anaconda

Una de las particularidades de Python como lenguaje Open Source es su continua evolución que puede hacer que desarrollos pasados que utilizaban ciertas versiones sean incompatibles con versiones más modernas. No solo casos ya extremos como una aplicación desarrollada con Python 2 que no funcione en Python 3, sino incluso métodos de librerías como pandas que se modifican o dependencias que cambian al actualizar las versiones.

Los entornos de Anaconda precisamente permiten manejar este tipo de situaciones. Un entorno de Anaconda se puede entender como un espacio aislado, independiente, donde las librerías y versión de Python se mantienen congeladas. Así, si tenemos un desarrollo muy importante que queremos seguir manteniendo con una combinación de versiones de librerías, lo ideal es tenerlo de modo estático o perenne en uno de estos entornos de anaconda.

Una de las recomendaciones a la hora de abordar proyectos es, precisamente, tener un entorno base con la instalación de Anaconda o incluso Miniconda (ya veremos la diferencia) y a partir de ahí, que cuelguen los diferentes entornos con las librerías requeridas para cada caso.

Los comandos más habituales para trabajar con entornos son:

Para crear un entorno: conda create --name nombre_entorno
Para crear un entorno con una versión concreta de python y una serie de librerías: conda create -n nombre_entorno python=3.6 pandas numpy matplotlib
Para activar un entorno existente: conda activate nombre_entorno

Instalación de librerías en Anaconda: Conda

Conda no es lo mismo que Anaconda: Conda es un gestor de paquetes, mientras que Anaconda es una distribución que, además de Python, incluye las librerías más habituales para el día a día del análisis de datos. Esto se traduce en que es Conda quien se va a encargar de manejar las distintas dependencias entre librerías de las que ya hemos hablado.

En resumen, es quien se va a ocupar cuando queramos actualizar una librería o instalar una nueva de que todo marche bien. La ventaja de habernos instalado Anaconda es que Conda viene integrado.

¿Esto significa que sin Conda no podríamos instalar nuevas librerías? No. Python incorpora un comando, Pip, que precisamente sirve para instalar nuevos módulos. Tanto Conda como Pip son válidos para instalar librerías, si bien, siempre que se pueda recurrir a Conda, merece la pena utilizarlo.

Por tanto, siempre que se quiera instalar una librería, podemos seguir los siguientes pasos que se van a ilustrar con un ejemplo. Supongamos que se desea instalar una librería que no viene por defecto con Anaconda, como puede ser Swifter.

Buscar si Swifter viene gestionado por Conda, sin más que recurrir a Google pregúntandole “conda swifter”:

En este caso, se ve que está dentro de Anaconda. En el enlace se indican las diferentes maneras de instalarlo: https://anaconda.org/conda-forge/swifter

En este caso, bastaría con ejecutarlo en la línea de comandos de Anaconda:

Finalmente, si no estuviera disponible en Conda, se puede recurrir a Pip: https://pypi.org/project/swifter/

Basta escribir “pip install swifter” en la línea de comandos:

Conclusión

El mundo de la Inteligencia Artificial y de la ciencia y análisis de datos está muy ligado a Python y esto implica, necesariamente, adaptarse a las particularidades de este mundo. Anaconda viene tanto a solucionar la entrada a los que se inicien en este apasionante mundo como a ser una herramienta imprescindible en el día a día para los científicos de datos más experimentados gestionando por nosotros entornos, librerías o paquetes etc. Desde luego, es una solución muy recomendable para el día a día del análisis de datos.

Si te ha gustado este artículo...

Conoce ahora nuestro

Máster Experto en Data Science y Big Data

¡Infórmate ya!

La Inteligencia artificial y chat GPT han dado de que hablar en los últimos meses, tanto en el ámbito privado como el profesional.

Pablo Montoliu, Chief Information & Innovation Officer en Aon; Ángel Niño, Concejal en Madrid delegado de Área de Innovación y Emprendimiento, además de Presidente de MercaMadrid; y Lourdes Hernández, CEO de datahack, presentarán y explicarán en detalle lo que esta moda o revolución trae consigo y si afectará de manera positiva o negativa a nuestra vida cotidiana.

¿Es la IA y chat GPT una moda pasajera o han llegado para quedarse?

El evento constará de la siguiente estructura:

¿Qué es la inteligencia artificial generativa?
Aplicaciones y beneficios de la inteligencia artificial generativa
Impacto social de la IA: ¿Nos va a quitar el trabajo?
Chat GPT: El inicio del Boom
La IA en el futuro
Conclusiones y ronda de preguntas

Nuestros ponentes

Pablo Montoliu

Chief Information & Innovation Officer en Aon

Ángel Niño

Concejal en Madrid delegado de Área de Innovación y Emprendimiento, y Presidente de MercaMadrid

Lourdes Hernández

CEO de datahack

¡Inscríbete al evento y no te pierdas nada!

¿Qué tienes que hacer para asistir a este #evento? Muy sencillo. Únicamente tendrás que registrarte desde este evento y esperar al día 24 de mayo (se realizará desde LinkedIn Live por lo que se deberá acceder a la plataforma de LinkedIn a la hora del evento).

Regístrate aquí gratis para asistir online:

🔵 Esta sesión será online en directo y desde la plataforma de LinkedIn Live.

🔵 Este formulario es para apuntarte a la sesión online.

🔵 Durante la sesión podrás preguntar todas las dudas que tengas al ponente y las irá respondiendo. No te quedes con ninguna duda.

🔵 Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión online.

Adelántate al futuro con este evento y amplia tus conocimientos de la mano de profesionales.

Inscríbete

Temática

BigQuery

Tiempo de lectura

5 minutos

Clave de contenido del artículo

Almacén de datos empresariales

Casos de uso de BigQuery

¿Qué es BigQuery?

Aprendizaje Automático usando BigQuery

Visualización de Datos

¿Cómo usar BigQuery?

Tres maneras de uso

Seguridad de datos en BigQuery

¿Cuánto cuesta usar BigQuery?

Beneficios

BigQuery es un almacén de datos como servicio que nos permite cargar nuestros datos y en pocos minutos hacer consultas SQL con ellos y sacar conclusiones de una manera económica, fiable y rápida.

Esta pensado tanto para una pequeña empresa como para grandes corporaciones ya que es escalable desde unos pocos gigabytes a cientos de petabytes. Tiene la ventaja de resolver las consultas utilizando el lenguaje SQL que es ampliamente conocido y por su puesto los datos cuentan con la seguridad que Google puede ofrecer.

Están cifrados en disco y en tránsito y son durables y altamente disponibles.

Y finalmente es un servicio gestionado, es decir, no nos tenemos que preocupar ni de la infraestructura ni de las comunicaciones ni de la seguridad, Google lo hace por nosotros.

Juan Valladares

CEO in Best In BI y profesor en Datahack School

Autor del artículo

Almacén de datos empresariales

Insertar

Almacenar

Analizar

Visualizar

Las organizaciones confían en los almacenes de datos para agregar datos de fuentes dispares, procesarlos y ponerlos a disposición para el análisis de datos que respalde su toma de decisiones estratégicas.

Casos de uso de BigQuery

Puede insertar datos en BigQuery mediante la carga por lotes o la transmisión de datos directamente para brindar información en tiempo real.

¿Qué es BigQuery?

Como almacén de datos totalmente administrado, Google se encarga de la infraestructura para que pueda concentrarse en analizar sus datos hasta una escala de petabytes.

Almacén de datos completamente administrado

ESCALA PETABYTE

Como almacén de datos totalmente administrado, Google se encarga de la infraestructura para que pueda concentrarse en analizar sus datos hasta una escala de petabytes.

Structured Query Language (SQL)

SELECT departamento_id, Avg(salario)
FROM empleados
WHERE salario > 5.000
GROUP BY departamento_id
ORDER BY 2 ASC;

Si desea crear modelos de aprendizaje automático con los datos de su empresa, puede hacerlo con BigQuery ML. Con solo unas pocas líneas de SQL, puede entrenar y ejecutar modelos en sus datos de BigQuery sin necesidad de moverlos.

Aprendizaje Automático usando BigQuery

Cuando llega el momento de visualizar sus datos, BigQuery se integra con Looker, así como con varias otras herramientas de inteligencia comercial en su ecosistema de socios.

Visualización de Datos

Ahora, ¿cómo usar BigQuery? Afortunadamente, es sencillo comenzar a utilizar BigQuery.

Después de crear un proyecto de GCP, puede comenzar de inmediato a consultar conjuntos de datos públicos, que Google Cloud aloja y pone a disposición de todos los usuarios de BigQuery, o puede cargar sus propios datos en BigQuery para analizarlos.

¿Cómo usar BigQuery?

La interacción con BigQuery para cargar datos, ejecutar consultas o incluso crear modelos ML se puede hacer de tres maneras diferentes:

1. Mediante el uso de la interfaz de usuario y la Consola en la nube.

2. Mediante el uso de la herramienta de línea de comandos de BigQuery.

3. Haciendo llamadas a la API de BigQuery usando bibliotecas de clientes disponibles en varios idiomas.

Tres maneras de uso

BigQuery está integrado con el servicio de administración de acceso e identidad de Google Cloud para que pueda compartir de forma segura sus datos y conocimientos analíticos en toda la organización.

Seguridad de datos en BigQuery

¿Cuánto cuesta usar BigQuery?

Con BigQuery, paga por almacenar y consultar datos y transmitir inserciones. La carga y exportación de datos son gratuitas.

El coste de almacenamiento se basa en la cantidad de datos almacenados y tiene dos tarifas según la frecuencia con la que cambian los datos.

El coste de la consulta puede ser bajo demanda, lo que significa que se le cobra por consulta, por la cantidad de datos procesados, o puede ser fijo para los clientes que desean comprar recursos dedicados.

Beneficios

BigQuery es escalable desde unos pocos megabytes a gigabytes y hasta cientos de petabytes de manera horizontal con alto rendimiento.
Se lleva utilizando en Google desde hace más de 10 años con volúmenes de datos muy altos, como os podéis imaginar.
Es muy sencillo de usar y, al ser un servicio gestionado, Google se encarga de escalar tanto el almacenamiento como la computación.
Como utiliza SQL para las consultas cualquier desarrollador analista científico de datos puede hacer sus consultas sin necesidad de expertos en la herramienta.
Permite compartir el acceso a los datos y a los resultados con un grupo de usuarios amplio en nuestra organización incluyendo conjunto de datos públicos y conjuntos de datos de pago.
Es seguro, los datos están cifrados incluso con tus propias claves en todo momento.
La gestión de accesos es granular. Es decir, podemos definir que usuarios pueden acceder a los datos y como y en cada momento.
Y, finalmente, permite disminuir el coste de propiedad de tu almacén de datos corporativos con un pago por uso y una facturación flexible con detalles de coste para cada proyecto y cada recurso.

Sumérgete en el mundo de Big Data en nuestro curso Get Started in Data Analytics.

100% online

Más información

Tématica

Inteligencia Artificial

Tiempo de lectura

7 minutos

Claves de contenido del artículo

Machine Learning

Deep Learning

Foundation Models

Deep Reinforcement Learning

Estamos ya en el año 2023, y como podemos constatar en cualquier medio de comunicación, la inteligencia artificial vuelve a estar de moda. ¿Vuelve? Sí, porque en realidad este término se acuñó en el año 1956, y en los casi 70 años de historia que tiene ya esta rama de la tecnología, la misma ha evolucionado a una escala que difícilmente podría haberse pronosticado.

Desde sus inicios, la inteligencia artificial ha perseguido el objetivo de crear máquinas con una inteligencia similar o superior a la nuestra, con el fin de poder delegar trabajo cognitivo en ellas, o como apoyo para poder aumentar nuestra propia capacidad de pensamiento. Pero este objetivo es más un sueño que una meta bien definida porque, ¿qué es en realidad la inteligencia? ¿Cómo la definimos? Y, sobre todo, ¿cómo funcionan nuestros propios cerebros, esos que queremos imitar mediante tecnología? No lo sabemos con precisión.

Álvaro Barbero Jiménez

Chief Data Scientist del Instituto de Ingeniería del Conocimiento (IIC)

Autor del artículo

Es por esta indefinición que el foco de la IA y los métodos para abordarla han ido cambiando a lo largo de estas 7 décadas. En sus inicios, muchos investigadores en IA centraban sus esfuerzos en crear sistemas que pudieran replicar la capacidad de los humanos en tareas intelectualmente complejas: jugar al ajedrez, demostrar teoremas, realizar un diagnóstico médico en base las evidencias… se trataba de una forma concreta de implementar la IA, que hoy conocemos como sistemas expertos, y que tratan de realizar razonamientos empleando una base de datos de conocimientos y reglas, así como un sistema de inferencia basado en la lógica formal. Un ejemplo habitual de este tipo de sistemas sería el que dispone de la siguiente información:

hombre(x) ->mortal(x) (si es un hombre, entonces también es mortal)

hombre(Sócrates)= True (Sócrates es un hombre)

De lo que el sistema puede deducir mediante implicación lógica que mortal(Sócrates)=True (Sócrates es mortal). Esta clase de sistemas llegaron a utilizarse con éxito en campos como el diagnóstico de enfermedades infecciosas en la sangre. No obstante, en general este tipo de sistemas de IA resultaban ser difíciles de construir, dado que es necesario contar con expertos en la materia con los que colaborar para formalizar su conocimiento y métodos de trabajo en reglas formales. Así mismo, su mantenimiento y actualización a nuevas situaciones implicaba revisar su juego de reglas, una tarea que podía llegar a ser muy costosa en sistemas de gran tamaño.

Por otra parte, en torno a la misma época en la que se descubrían las limitaciones de los sistemas expertos, se llegó a una conclusión inesperada en cuanto al funcionamiento de la inteligencia: que las tareas que a los humanos nos resultan cognitivamente complejas, como los razonamientos matemáticos o la lógica formal, ¡son en realidad muy sencillas de implementar en un computador! Especialmente cuando se comparan contra el desafío de desarrollar una máquina con las capacidades sensoriales y motoras que puede tener cualquier niño con un desarrollo normal. Este hecho se recoge en la famosa paradoja de Moravec, y ha demostrado ser uno de los mayores obstáculos en del desarrollo de la IA: que las habilidades que a nosotros nos resultan intuitivas y naturales son las más difíciles de replicar de manera artificial.

Machine Learning

Una alternativa a los sistemas expertos de mayor aplicabilidad práctica y que se ha desarrollado con mucha solidez desde la década de los 80 es el aprendizaje automático o machine learning. En este tipo de IAs la clave radica en recopilar el conocimiento del experto no como una serie de reglas formales, sino como ejemplos que demuestren su forma de actuar. De este modo, podemos compilar una base de datos formada por casos médicos, en la que para cada caso recogemos la información utilizada el experto médico para su examen (constantes, analíticas, etc…), así como su diagnóstico, y el sistema de IA podrá aprender a imitar su forma de proceder. Dentro de este tipo de IA caben toda una variedad de algoritmos que afrontan este problema de aprendizaje empleando diferentes aproximaciones estadísticas: vecinos próximos, árboles de decisión, métodos de ensemble, máquinas de vectores de soporte, y muchos otros más.

Deep Learning

Uno de los métodos que ha destacado especialmente durante la última década han sido los basados en redes neuronales artificiales, hoy día también conocidos como Deep Learning. Aunque en realidad este tipo de IAs llevan en desarrollo desde incluso antes de que se acuñara el término “inteligencia artificial”, no fue hasta 2010 y años posteriores cuando se descubrieron las estrategias clave para poder construir sistemas de esta clase a gran escala: de ahí el calificativo “Deep”.

En esencia, las redes neuronales son un subtipo del aprendizaje automático, en el que una serie de neuronas artificiales imitan superficialmente el comportamiento de una neurona real, y se encargan de realizar la tarea del aprendizaje en base a los datos. Su principal ventaja frente a otros modelos de aprendizaje automático es su flexibilidad, ya que pueden construirse redes desde unas decenas de neuronas hasta miles de millones, escalando así su capacidad para aprender de bases de datos de tamaño masivo.

Además, esta flexibilidad del Deep Learning ha permitido a los investigadores en IA desarrollar “neuronas” especializadas en el tratamiento de datos no estructurados: imágenes, vídeos, textos, audio, etc… si bien esta clase de redes neuronales artificiales cada vez están más alejadas de la biología real, han demostrado ser tremendamente prácticas para abordar problemas muy complejos como son la detección de objetos de interés en imágenes (ej: personas, coches, …), la traducción automática entre idiomas, o la síntesis de voz. Con este hito se ha logrado abordar de manera muy efectiva la clase de desafíos sobre los que la paradoja de Moravec nos alertaba: aquellos que nos resultan intuitivos a nosotros, pero de difícil implementación en una máquina.

Foundation Models

¿Y qué podemos decir de estos últimos años? Sin duda, el avance más significativo en IA ha venido de la mano de los modelos base o foundation models. Se trata de un paso más en las redes neuronales artificiales, en el que redes de inmenso tamaño aprenden a modelar la dinámica de un proceso complejo mediante el análisis de bases de datos masivas.

Por ejemplo, un modelo base del lenguaje español es aquel que aprende cómo se estructura el idioma español y cómo suele usarse, mediante el procesado de gigabytes de textos escritos en este idioma. Este modelo no persigue un objetivo concreto, más allá de asimilar la estructura del lenguaje. Pero precisamente por eso puede alimentarse de cualquier texto escrito en el idioma, sin necesidad de que este haya sido preparado y validado por un experto, abriendo así la puerta a que la red neuronal pueda aprender de… básicamente todo el material que podamos suministrarle de Internet.

La pregunta que surge entonces es, ¿y para qué sirve un modelo así, si no tiene un objetivo práctico concreto? Pues porque como indica su nombre, sirven como base para crear modelos que apliquen a tareas concretas.

Por ejemplo, un modelo base del lenguaje español puede reajustarse a la tarea de analizar las emociones expresadas en un tweet, usando un conjunto de datos de tamaño medio con ejemplos de cómo hacer esta tarea. La ventaja de esta aproximación respecto de crear una red neuronal nueva que aprenda directamente de los datos es que el modelo base adaptado tendrá una efectividad mucho mayor, y requerirá de un juego de datos más pequeño para aprender a realizar su tarea. El motivo es que el modelo base ya conoce cómo se estructura el lenguaje español, y ahora solo le queda aprender cómo extraer la emoción de un texto en español.

Puede que los modelos base nos suenen a algo extraño, pero lo cierto es que están detrás de las IAs más famosas en la actualidad: GPT-3, ChatGPT, GPT-4, DALL-E 2, Stable Diffusion, … todas ellas utilizan de alguna manera u otra este concepto, y nos demuestran cómo aprender de fuentes de datos a tamaño Internet nos lleva a un tipo de Inteligencia Artificial muy superior a los vistos hasta ahora.

Deep Reinforcement Learning

Con todas estas IAs a la carrera, demostrando resultados cada vez más impresionantes, la pregunta que cabe hacerse es: ¿qué podemos esperar a partir de ahora? Internet es una fuente masiva de información, pero al mismo tiempo es limitada cuando se compara con la percepción que los humanos tenemos del mundo. Los estudios sobre modelos base han demostrado que a mayor número de datos podemos observar, mayor es la capacidad del sistema de IA resultante. Por tanto, el siguiente paso natural sería permitir que estos sistemas puedan aprender también de observaciones que hagan del mundo real, y más aún, que consigan a través de su propia experiencia. Este es el objetivo del aprendizaje por refuerzo profundo o deep reinforcement learning, el cual persigue que una red neuronal artificial pueda experimentar con su entorno y mejorar en una tarea a base de observar los resultados de sus experimentos.

Un ejemplo de este tipo de Inteligencia Artificial es AlphaZero, la cual consiguió alcanzar un rendimiento sobrehumano en el juego de tablero Go en tan solo 24 horas de aprendizaje, u OpenAI Five, que logró derrotar al equipo campeón del mundo en el e-sport DOTA2. Y fuera del mundo de los juegos, se han aplicado incluso para mejorar el control de un reactor experimental de fusión nuclear. ¿Será este el siguiente paso en la evolución de la IA? Aunque hoy día son sistemas muy costosos y complejos de aplicar en proyectos prácticos, alguna de las ideas que subyacen a su funcionamiento ya han sido incorporadas en ChatGPT y GPT-4, por lo que la tendencia parece clara.

Conoce más sobre IA en nuestro Máster Executive Inteligencia Artificial y Big Data

100% online

Más información

Temática

Big Data

Tiempo de lectura

3 minutos

Claves de contenido del artículo

¿Qué es el Big Data?

Aplicaciones

Formación

Salidas profesionales

El futuro del Big Data

El Big Data es uno de los temas más relevantes en el ámbito tecnológico en la actualidad. Este término se refiere a la gran cantidad de datos que se generan a diario y que son analizados para extraer información valiosa, mediante el uso de tecnologías que permiten su gestión y análisis de forma masiva. Los datos provienen de diversas fuentes, como las redes sociales, los dispositivos móviles, los sensores, entre otros. La capacidad de procesar y analizar esta información, en muchos casos en tiempo real, es lo que hace que el Big Data sea tan importante actualmente.

En este artículo Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC)) nos va a hablar sobre la importancia del Big Data y su recorrido hasta el día de hoy.

El impacto del Big Data en nuestras vidas es innegable. Muchas de las aplicaciones que utilizamos en nuestro día a día, desde redes sociales hasta aplicaciones de transporte o compras en línea, se basan en el análisis de grandes cantidades de datos para personalizar su oferta y mejorar la experiencia del usuario. Por ejemplo, cuando utilizamos una aplicación de transporte, el Big Data se utiliza para analizar las rutas más eficientes y predecir el tiempo de llegada con precisión.

Otro ejemplo es el sector de la salud, donde el análisis de datos masivos permite a los profesionales médicos personalizar los tratamientos y las intervenciones para cada paciente, lo que se traduce en mejores resultados y una mayor eficacia. También es posible detectar patrones y tendencias en el comportamiento de los pacientes, lo que puede ayudar a prevenir enfermedades y mejorar la atención médica.

Formarse en el ámbito del Big Data es fundamental para poder aprovechar al máximo su potencial. Actualmente existen numerosos cursos, grados, diplomas y programas de postgrado enfocados en el análisis de datos masivos, lo que permite a los profesionales adquirir habilidades y conocimientos específicos para trabajar en este campo. Es importante mencionar que el Big Data no sólo requiere habilidades técnicas, sino también habilidades de análisis y pensamiento crítico para poder extraer información valiosa de los datos. Un centro de excelencia en este sentido es Datahack, un centro de formación especializado en el ámbito del Big Data y el Data Science.

El campo del Big Data ofrece múltiples salidas profesionales, ya que es una herramienta fundamental en diversos ámbitos, como la salud, el comercio electrónico, la seguridad, la educación, entre otros. En el comercio electrónico, el Big Data se utiliza para analizar el comportamiento de los consumidores y personalizar las recomendaciones de productos y servicios. En la seguridad, el Big Data se utiliza para analizar grandes cantidades de información de seguridad y predecir posibles amenazas y riesgos. En la educación, el Big Data se utiliza para analizar los resultados de los estudiantes y personalizar la enseñanza para adaptarse a las necesidades de cada uno.

La importancia del Big Data continuará creciendo en el futuro próximo. Cada vez se generan más datos y se espera que en los próximos años se produzca un aumento exponencial en la cantidad de información que se recopila. Además, la capacidad de analizar y procesar grandes cantidades de datos se está volviendo cada vez más importante en el mundo empresarial y gubernamental. Por lo tanto, es fundamental que los profesionales se formen en el campo del Big Data, pues el impacto y la presencia de estas tecnologías en la vida de las personas irá en aumento.

En conclusión, el Big Data es un tema de gran relevancia en la actualidad y su importancia continuará creciendo en el futuro. Formarse en este ámbito ofrece numerosas oportunidades profesionales y permite aprovechar al máximo su potencial para mejorar diversas áreas de la sociedad. Además, el Big Data tiene un impacto directo en nuestras vidas y en la forma en que interactuamos con el mundo que nos rodea. Desde las aplicaciones móviles hasta la atención médica personalizada, el análisis de grandes cantidades de datos nos permite tomar mejores decisiones y mejorar nuestra calidad de vida.

Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC))

linkedin.com/in/alejandro-vaca-serrano/

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio

Más información

¡Si te ha gustado el contenido de este artículo no te olvides de suscribirte a la newsletter!

Qué mejor forma para celebrar el #díadelamujer, que juntar a tres profesionales del sector para que nos hablen de la importancia de las mujeres en el ámbito tecnológico.

No pierdas la oportunidad de escuchar testimonios de profesionales ¡Seguro que te inspiran! La mujer un dato por descubrir Acompáñanos en este #webinargratuito y aprendamos de experiencias y casos reales de mujeres en este sector. Este webinar se realizará en formato mesa redonda, donde las ponentes hablaran en base a una serie de temas y responderán preguntas.

En este evento se resumirá en:

Los temas que se tratarán en el webinar serán:

Empleabilidad
Datos relevantes de la mujer en el sector
Importancia de la presencia de la mujer
Diferentes puntos de vista y perspectivas
Historias reales de su experiencia
Recorrido de la mujer y avances en el sector

Regístrate aquí

No dejes escapar esta oportunidad e infórmate junto a verdaderos profesionales del Big Data.

Lourdes Hernández Vozmediano

CEO datahack

Cristabel Talavera

Customer Engineer en Google

Rus María Mesas Jávega

Data scientist en Telefónica

¡Anímate y escucha testimonios de grandes profesionales!

¿Qué tienes que hacer para asistir a este #webinargratuito? Muy sencillo. Únicamente tendrás que registrarte desde este evento y esperar al día 7 de marzo (se realizará desde LinkedIn Live por lo que se deberá acceder a la plataforma de LinkedIn a la hora del evento).

Regístrate aquí gratis para asistir online:

🔵 Esta sesión será online en directo y desde la plataforma de LinkedIn Live.

🔵 Este formulario es para apuntarte a la sesión online.

🔵 Durante la sesión podrás preguntar todas las dudas que tengas al ponente y las irá respondiendo. No te quedes con ninguna duda.

🔵 Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión online.

¡Regístrate para asistir al evento!

La teoría de grafos busca representar de forma visual conjuntos de datos abstractos en formas de nodos o vértices y la unión o relaciones que estas pueden tener con otros nodos a través de aristas.

Comprende desde cero la Teoría de grafos aplicada a un caso real "El caso de Twitter"

Gracias a esta teoría se puede aprovechar al máximo el potencial de las redes sociales. Así comprender las relaciones, preferencias y similitudes entre los usuarios, todo esto lo podrá aprender de la mano de Rafa Ibáñez Usach (Senior Product Expert - Indra)

En el ejercicio práctico podremos analizar una red de una red social, en este caso, Twitter. Obtendremos datos de #Twitter y los analizaremos con una herramienta de análisis de grafos midiendo la relación entre los distintos usuarios de Twitter.

En este evento se resumirá en:

Conceptos básicos de la Teoría de Grafos

¿Qué es #GraphAnalytics?
Conceptos básicos de Teoría de Grafos.

Caso de uso Twitter

Casos de uso de Graph Analytics.
Caso Práctico de Análisis de Redes Sociales mediante Grafos.

No dejes escapar esta oportunidad e infórmate junto a verdaderos profesionales del Big Data.

Rafa Ibáñez Usach

Senior Product Expert - Indra

¡Anímate y realiza este caso práctico para desarrollar tus capacidades en Excel!

¿Qué tienes que hacer para asistir a este #webinargratuito? Muy sencillo. Únicamente tendrás que registrarte desde este evento y esperar al día 22de febrero (se realizará desde LinkedIn Live por lo que se deberá acceder a la plataforma de LinkedIn a la hora del evento).

Regístrate aquí gratis para asistir online:

🔵 Esta sesión será online en directo y desde la plataforma de LinkedIn Live.

🔵 Este formulario es para apuntarte a la sesión online.

🔵 Durante la sesión podrás preguntar todas las dudas que tengas al ponente y las irá respondiendo. No te quedes con ninguna duda.

🔵 Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión online.

¡Regístrate para asistir al evento!

¡Ser un dummy en 2023 no es tendencia! Deja de serlo con nuestro webinar gratuito: Google Colab para dummies

Da tus primeros pasos en Google Colab Google Colab para dummies

Google Colab es una plataforma de código abierto para escribir y ejecutar Python desde nuestro navegador en lugar de necesitar software específico. Tanto si lo anterior te resulta familiar como si no, este evento es para ti.

Angel Conde Manjon Senior Partner Solutions Architect – Data & Analytics en Amazon Web Services (AWS) se encargará de explicar desde cero la plataforma, así podrás comprender cómo funciona y como aplicarla a casos reales.

En este evento se resumirá en:

Conceptos básicos de la herramienta Google Colab

Qué es #GoogleColab?
¿Para qué se utiliza?
Creación de cuenta y primer Colab
Acceso a GPU y TPU gratuito

Aplicaciones de Google Colab

Uso de Colab con Bases de datos y almacenamiento en la nube.
Operaciones básicas.
Preguntas
Demo

No dejes escapar esta oportunidad e infórmate junto a verdaderos profesionales del Big Data.

Angel Conde Manjon

Senior Partner Solutions Architect – Data & Analytics en Amazon Web Services (AWS)

¡Anímate y realiza este caso práctico para desarrollar tus capacidades en Excel!

¿Qué tienes que hacer para asistir a este #webinargratuito? Muy sencillo. Únicamente tendrás que registrarte desde este evento y esperar al día 31 de enero (se realizará desde LinkedIn Live por lo que se deberá acceder a la plataforma de LinkedIn a la hora del evento).

Regístrate aquí gratis para asistir online:

🔵 Esta sesión será online en directo y desde la plataforma de LinkedIn Live.

🔵 Este formulario es para apuntarte a la sesión online.

🔵 Durante la sesión podrás preguntar todas las dudas que tengas al ponente y las irá respondiendo. No te quedes con ninguna duda.

🔵 Al registrarte recibirás un enlace en tu email con el que podrás conectarte a la sesión online.

¡Regístrate para asistir al evento!

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/