El Big Data es uno de los temas más relevantes en el ámbito tecnológico en la actualidad. Este término se refiere a la gran cantidad de datos que se generan a diario y que son analizados para extraer información valiosa, mediante el uso de tecnologías que permiten su gestión y análisis de forma masiva. Los datos provienen de diversas fuentes, como las redes sociales, los dispositivos móviles, los sensores, entre otros. La capacidad de procesar y analizar esta información, en muchos casos en tiempo real, es lo que hace que el Big Data sea tan importante actualmente.
En este artículo Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC)) nos va a hablar sobre la importancia del Big Data y su recorrido hasta el día de hoy.
El impacto del Big Data en nuestras vidas es innegable. Muchas de las aplicaciones que utilizamos en nuestro día a día, desde redes sociales hasta aplicaciones de transporte o compras en línea, se basan en el análisis de grandes cantidades de datos para personalizar su oferta y mejorar la experiencia del usuario. Por ejemplo, cuando utilizamos una aplicación de transporte, el Big Data se utiliza para analizar las rutas más eficientes y predecir el tiempo de llegada con precisión.
Otro ejemplo es el sector de la salud, donde el análisis de datos masivos permite a los profesionales médicos personalizar los tratamientos y las intervenciones para cada paciente, lo que se traduce en mejores resultados y una mayor eficacia. También es posible detectar patrones y tendencias en el comportamiento de los pacientes, lo que puede ayudar a prevenir enfermedades y mejorar la atención médica.
Formarse en el ámbito del Big Data es fundamental para poder aprovechar al máximo su potencial. Actualmente existen numerosos cursos, grados, diplomas y programas de postgrado enfocados en el análisis de datos masivos, lo que permite a los profesionales adquirir habilidades y conocimientos específicos para trabajar en este campo. Es importante mencionar que el Big Data no sólo requiere habilidades técnicas, sino también habilidades de análisis y pensamiento crítico para poder extraer información valiosa de los datos. Un centro de excelencia en este sentido es Datahack, un centro de formación especializado en el ámbito del Big Data y el Data Science.
El campo del Big Data ofrece múltiples salidas profesionales, ya que es una herramienta fundamental en diversos ámbitos, como la salud, el comercio electrónico, la seguridad, la educación, entre otros. En el comercio electrónico, el Big Data se utiliza para analizar el comportamiento de los consumidores y personalizar las recomendaciones de productos y servicios. En la seguridad, el Big Data se utiliza para analizar grandes cantidades de información de seguridad y predecir posibles amenazas y riesgos. En la educación, el Big Data se utiliza para analizar los resultados de los estudiantes y personalizar la enseñanza para adaptarse a las necesidades de cada uno.
La importancia del Big Data continuará creciendo en el futuro próximo. Cada vez se generan más datos y se espera que en los próximos años se produzca un aumento exponencial en la cantidad de información que se recopila. Además, la capacidad de analizar y procesar grandes cantidades de datos se está volviendo cada vez más importante en el mundo empresarial y gubernamental. Por lo tanto, es fundamental que los profesionales se formen en el campo del Big Data, pues el impacto y la presencia de estas tecnologías en la vida de las personas irá en aumento.
En conclusión, el Big Data es un tema de gran relevancia en la actualidad y su importancia continuará creciendo en el futuro. Formarse en este ámbito ofrece numerosas oportunidades profesionales y permite aprovechar al máximo su potencial para mejorar diversas áreas de la sociedad. Además, el Big Data tiene un impacto directo en nuestras vidas y en la forma en que interactuamos con el mundo que nos rodea. Desde las aplicaciones móviles hasta la atención médica personalizada, el análisis de grandes cantidades de datos nos permite tomar mejores decisiones y mejorar nuestra calidad de vida.
Alejandro Vaca (Data Scientist en Instituto de Ingeniería del Conocimiento (IIC))
Existe un fenómeno común a los deportes de equipo (por lo menos a los más populares) y es que, para aquellos que les interese alguno de estos deportes, cuando van a consultar la prensa que los cubre, seguramente se encuentre que sus crónicas las copan aquellos que marcan los goles, las canastas, los tantos...etcétera. Igualmente, si este tipo de deportes no te interesa lo más mínimo, pero tuvieras que dar el nombre de algún deportista de élite que los practique...seguramente este se corresponda con el alguno de los omnipresentes en las susodichas crónicas. En pocas palabras, los que “molan” suelen ser invariablemente los máximos anotadores.
En los proyectos relacionados con Inteligencia Artificial, sean de Machine Learning o de Deep Learning (por mencionar las dos disciplinas más populares de esa rama), pasa un poco lo mismo. Si echamos manos de “la prensa” enseguida veremos que los titulares apuntan en la misma dirección: “El modelo que quitará el trabajo a los radiólogos”, “El modelo que ha derrotado al campeón mundial de Go”, “Los treinta modelos embebidos que hacen que los Tesla sean completamente autónomos…”. El modelo es al que apuntan los focos.
Claro...como cuando preguntan a los críos que empiezan a practicar deporte aquello de “y tú ¿cómo quien quieres ser?”, no es habitual que respondan “pues como tal jugador, porque me encanta la infatigable labor que hace en el medio del campo para robar la pelota y sacarla jugada de forma fácil y limpia para el compañero más próximo”. Igualmente cuando alguien que arranca su periplo como Data Scientist, seguramente si le preguntas a qué aspira...no te responderá “a conseguir dar forma a los datos de la forma más adecuada posible de tal manera que el modelo diseñado pueda sacar el máximo provecho de los mismos”.
Queremos meter goles. Queremos hacer modelos.
Si te apetece, otro día, podemos hacer una entrada en el blog sobre la importancia de este tipo de roles de trabajo menos vistoso en el mundo de los deportes de equipo. Por de pronto, vamos a ceñirnos al ámbito de las máquinas y desgranar la importancia de la(s) tarea(s) comprendidas dentro de la limpieza de datos y porque es algo que también mola.
MACHINE LEARNING Y LIMPIEZA DE DATOS
Aunque a estas alturas ya lo tengas seguramente más que claro, no está de mas recordar que el Machine Learning es una disciplina que tiene como objetivo que las máquinas aprendan a partir de la experiencia; es decir: que un modelo matemático sea capaz de extraer los patrones propios de un determinado problema a partir de de un (gran) conjunto de datos relativos a este. Aquel modelo matemático utilizará una o varias máquinas para disponer de la potencia de cálculo necesaria, que le permita exprimir todos esos datos y extraer así ese patrón o aprendizaje relativos a la resolución de ese problema.
Vamos a aterrizar esto con un ejemplo: supongamos que tenemos un conjunto de analíticas de pacientes enfermos y sanos con respecto a una determinada patología. Si queremos construir un modelo que sea capaz de, dada la analítica de un nuevo paciente, determinar si este padece o no aquella patología. Entrenaremos el modelo matemático con los datos que tenemos y este (a su manera) aprenderá qué patrones se dan en las analíticas de aquellos pacientes enfermos, de tal manera que pueda extrapolarlo a nuevos casos.
¿QUIÉN HA ENSUCIADO MIS DATOS?
Quizá el nombre limpieza de datos, resulte un poco engañoso. Valga decir que esta disciplina comprende todo lo necesario para que, según la definición de Machine Learning que acabas de leer, los datos disponibles para resolver el problema sean dispuestos de tal manera que puedan ser utilizados por un modelo matemático para su entrenamiento.
Hay que pensar que dicho modelo maneja únicamente números (existe alguna excepción a esto, pero en general es así). Es decir, nuestros datos, como mínimo, tienen que ser transformados a un formato numérico antes de poder ser utilizados para entrenar un modelo. Ojo a esa coletilla “como mínimo”, quiere decir que esto sería lo básico para que modelo llegue a comenzar su entrenamiento sin problemas. Pero si buscamos que este entrenamiento sea lo más exitoso posible, habrá que recurrir a otras técnicas.
Siempre decimos que, lamentablemente, no existe una receta que pueda ser aplicada a todos los problemas de Machine Learning. No obstante, existen una serie de pasos que prácticamente siempre podemos tomar como referencia a la hora de abordar la limpieza de datos.
MANOS A LA OBRA
Podemos decir que estos pasos que mencionamos a continuación, son innegociables, aunque, como ya hemos indicado, no tienen porque ser los únicos a seguir:
EXPLORACIÓN
Que no nos pueda el ansia por empezar a toquetear: si no nos hemos tomado la molestia siquiera de visualizar como se distribuyen nuestros datos, no tiene sentido empezar a manosearlos. Primero, lo primero: histogramas, boxplots, gráficos de dispersión...todo aquello que ayude a entender cómo se distribuyen las variables o features de las que disponemos. Muy seguramente, de aquí saquemos una intuición de cuales pueden ser problemáticas.
LIMPIEZA
Normalmente en este proceso nos encargamos de los problemas “de bulto”, es decir, aquellos que cantan bastante. Aquí incluimos los archiconocidos valores missing, null, NA, NaN...ya sabes, cualquiera de las distintas formas en las que el Mal puede materializarse en nuestros datos y que se manifiesta mediante la ausencia de dato, donde deberiá de haberlo.
Muy probablemente, el modelo matemático con el que hayas elegido empezar a probar, no sepa que hacer con uno de estos valores ausentes y cascará de forma inmisericorde cuando quieras empezar el proceso de entrenamiento. Así que hay que decidir como rellenarlos...o prescindir de ellos.
Hay más anomalías que podemos tratar en este punto, por ejemplo muestras o registros duplicados. Estas duplicidades pueden ser de distintos tipos, quizá podamos encontrar registros totalmente idénticos o quizá solamente idénticos según algunos campos. En este último caso, habría que considerar si esas duplicidades son normales o no.
En cuanto al entrenamiento se refiere, los registros duplicados no aportan nada, con lo cual se pueden eliminar sin mucho problema. Pero cabe preguntarse sobre su origen, ¿es posible que la presencia de duplicados sea indicativo de algún tipo de problema, quizá, en alguna proceso de extracción de datos?
Tenemos que ser conscientes de que las “cosas raras” que encontremos en nuestros datos, podrían no solo afectar a nuestro entrenamiento, sino ser síntomas de algún tipo de defecto o problema en el flujo de captura y tratamiento de los mismos. Y esto sería algo gordo.
TRANSFORMACIÓN
Salvo honrosas excepciones (mayormente aquellos modelos basados en árboles de decisión), los modelos matemáticos solo manejan números. Es decir que aquellas features categóricas, cuyos valores son de tipo texto (por ejemplo) que podemos encontrar en cualquier dataset, deben ser transformadas de alguna manera en algo numérico para que el modelo matemático pueda entrenar con ellas. El cómo hacer esto, ya depende de del tipo de feature categórica y de su significado.
ENRIQUECIMIENTO
Este es un buen percal. Aquí, podemos decir que practicamente vale todo, desde encontrar un dataset que pueda complementar al que estamos manejando: imagina un dataset con personas y otro dataset de renta per cápita en municipios de España que, cruzándolo con el primero, te permite tener una idea de la renta del individuo en cuestión. En este caso, habríamos enriquecido nuestro dataset de personas, con ese otro dataset de renta per cápita por municipios.
Pero no te preocupes si no tienes ningún otro dataset a mano, hay más maneras de enriquecer el dataset. Por ejemplo a través de features sintéticas, es decir, obtener nuevas features combinando de forma hábil las ya existentes. Esto permite proporcionar a nuestro modelo matemático features más potentes y representativas e, implicitamente, dejar de pasarle otras features más superfluas y menos necesarias.
Incluso el hecho de conseguir identificar simplemente este segundo punto y poder prescindir de esas features innecesarias para entrenar al modelo, sería un éxito. Hay que tener en cuenta, que un dataset más ligero, permitirá entrenamientos más rápidos y por lo tanto nos habilitará para probar más cosas distintas en menos tiempo.
Muy importante: es fácil embuclarse y perderser en cualquiera de estos pasos, pero muy especialmente en este. ¡No obsesionarse! Hay que ir iterando de forma más o menos ágil, probar, cosas, entrenar, avanzar, ir afinando...pero no dar vueltas y vueltas a lo mismo, porque sino, esto se convierte en una esponja de tiempo...y de dinero claro.
OTROS
Aquí podemos incluir lo que se conoce como inverstigación de outliers o valores que se alejan de forma sospechosa del resto de “compañeros” de distribución. El problema de este tipo de valores es que pueden confundir al modelo a la hora de aprender, ya que suponen ruido para el mismo o lo que es lo mismo, suponen “excepciones a la regla” que queremos que el modelo aprenda. Dicho de otra manera: queremos que el modelo aprenda patrones, no excepciones. Y los outliers son excepciones.
Las acciones con respecto a outliers se orientan a su detección y análisis y en base a estos se determinará qué se hace con ellos (si se hace algo)
Llegados a este punto, es posible que por todo lo comentado hasta ahora, alguien haya colegido que si una feature es numérica y no tienen ningún hueco o valor missing, todo está bien. El caso es que esto no es así.
Es habitual que las features numéricas tengan magnitudes dispares, por ejemplo podemos tener la feature edad de la persona que rara vez pasará de las dos cifras y también la feature renta per capita que, esperemos, siempre llegue por lo menos a cinco. Esta disparidad de magnitudes, puede ocasionar que los modelos matemáticos tiendan a dar más peso a aquellas features cuya magnitud es mayor, opacando a aquellas otras de menor magnitud, por muy valiosas o representativas que puedan ser.
Para evitar esto, se recurren a distintas técnicas de escalado o de estandarización. Dependiendo del tipo de modelo matemático que queramos entrenar, el utilizar unas u otras puede ser crucial. En cualquier caso, la moraleja aquí es que, aun siendo numéricas, las features deben de ser “ajustadas”.
Tampoco queremos extendernos mucho más, como ves, estamos ante una disciplina sumamente interesante y que nos permitirá adquirir un conocimiento muy valioso de los datos que manejamos.
Si quieres más información sobre nuestro master, puedes contactar con nosotros bien por teléfono al +34 910 91 28 42 o +34 630 88 13 53, por whatsapp directamente pinchando aquí o aquí, o mandando un mail con tus datos de contacto (nombre completo y teléfono) a: info@admin_rubicon
Qué es Python
Es un lenguaje de programación de código abierto. Su filosofía es que su sintaxis favorezca la legibilidad. También la favorece el hecho de que el contenido de los bloques de código está delimitado mediante indentación (espacios o tabuladores). Esto hace que sea simple, versátil y de desarrollo rápido.
Otras de sus características:
Interpretado: es capaz de analizar y ejecutar otros programas, no necesita compilar el código fuente para ejecutarse.
Multiparadigma: permite usar más de un estilo de programación (orientada a objetos, imperativa o funcional).
Dinámicamente tipado: cuando una variable puede tomar diferentes valores en distinto momento.
Multiplataforma: hay versiones disponibles de Python en muchos sistemas informáticos distintos.
Interactivo: tiene un intérprete por línea de comandos para introducir sentencias. Como cada sentencia que se ejecuta produce un resultado visible, es más fácil entender el lenguaje y probar los resultados por porciones de código.
Orientado a Objetos: los conceptos del mundo real relevantes se trasladan a clases y objetos en Python, que al ejecutarse interaccionan entre sí.
Fuertemente tipado: no permite tratar una variable como si fuera de un tipo distinto al que tiene, si quieres hacerlo, antes debes convertirla.
Python cuenta con una amplia comunidad de desarrolladores. Eso permite que muchas de las utilidades en forma de librerías, tipos de datos y demás que pudiéramos necesitar estén ya disponibles. Así nos evitamos tener que desarrollarlas por nuestra cuenta desde cero.
Qué podemos hacer con Python:
Con este lenguaje de programación podemos crear todo tipo de programas: desde software para aplicaciones científicas o comunicaciones de red hasta juegos y apps. También se utiliza mucho en el mundo del Big Data & Analytics para extracción de datos, visualización de los mismos, estadística avanzada y el uso del machine learning sobre esas estructuras para mecanizar tareas analíticas, entre muchos otros usos.
Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.
Cada vez es más habitual escuchar la palabra "Machine Learning", pero todavía muchas personas no saben qué significa y cuáles son sus funciones. En nuestro apartado de Actualidad aprenderás acerca de su función y sus categorías.
¿Qué es el machine learning?
Es la capacidad de aprendizaje de una máquina mediante una serie de algoritmos y la entrada de datos a su sistema. Es una rama dentro del campo de la inteligencia artificial pero, a pesar de su nombre, no aprende por sí misma, sino por los patrones y la información recopilada por sus bases de datos. Estos algoritmos crean sus propios cálculos según los datos que consiguen y, cuántos más datos tienen, más precisas son sus acciones. Por este motivo, muchas personas creen que la inteligencia artificial se mueve sola, pero la realidad es que diseña sus propias respuestas mediante sus operaciones. Además, les permite tomar decisiones en base a predicciones.
El Machine learning es importante porque gracias a este software hemos facilitado la extracción de datos, lo que nos permite una mayor competitividad frente al resto de empresas. Los programadores especializados en estos ámbitos ya son capaces de diseñar modelos para analizar información compleja y obtener resultados rápidos y precisos sin necesidad de mano humana. De tal manera que la máquina por sí sola es capaz de realizar este trabajo.
3 categorías principales
Aprendizaje supervisado: es una forma de predecir con los datos de entrenamiento. El objetivo es entrenar al sistema de tal manera que es capaz de reconocer elementos desconocidos sin intervención humana. Se le incluyen datos previamente etiquetados y así la máquina puede clasificar los nuevos datos. También puede realizar el método regresión, en el cual, utilizando informaciones diferentes, puede predecir un resultado.
Aprendizaje no supervisado: este método permite conocer datos ya clasificados anteriormente mediante el uso de sus características. Es similar a la abstracción en humanos. Es un modelo que se ajusta a las observaciones. También es útil para la compresión de datos.
Aprendizaje por refuerzo: lo principal es la experiencia y es la unión del supervisado y no supervisado. Consiste en determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. Como por ejemplo, un coche autónomo. Como está basado en la experiencia, es prueba y error.
Si tenéis alguna duda o sugerencia, en datahack estamos abiertos a recibir comentarios.
Power BI es la herramienta de Business Intelligence líder en el mercado. En 2020, Microsoft Power BI ha ocupado una vez más la primera posición en el Cuadrante Mágico de Gartner. En este ranking, la consultora da un repaso en profundidad de las principales plataformas de analítica e Inteligencia de Negocio. Pero, ¿para qué sirve Power BI?
¿Qué es Power BI y cómo funciona?
Power BI es una suite de programas desarrollados por Microsoft que permiten realizar un tratamiento de datos con el fin de obtener informes interactivos. En el contexto de la Inteligencia de Negocio o Business Intelligence, la elaboración de estos paneles de mando sirve para analizar y predecir cómo se están comportando las variables que más afectan a distintas áreas del negocio.
Consta de varios elementos cuyo funcionamiento de forma conjunta aumenta la potencializad de la herramienta.
Power BI Desktop
Servicio Power BI
Aplicaciones móviles de Power BI (para windois, iOS y Android)
Además de estos elementos, Power BI incluye Power BI Report Builder para crear informes paginados para compartir o imprimir y Power BI Report Server que permite publicar y compartir los informes creados.
El flujo de trabajo pasa por conectar e integrar diversos orígenes de datos, crear infomes a partir de ellos con Power BI Desktop, publicarlos en el Servicio Power BIpara que los usuarios de dicho servicio y dispositivos móviles puedan acceder a ellos. El propio Servicio Power BI también permite obtener datos y crear informes pero las funcionalidades están mucho más limitadas que en Power BI Desktop.
Power BI Desktop
Es una aplicación gratuita de escritorio que permite conectar a datos, transformarlos y limpiarlos para crear un modelo de datos y crear representaciones visuales de los datos. Dicha transformación y limpieza se realiza con Power Query (incluida en la herramienta) Esta aplicación se integra con distintas bases de datos como, por ejemplo, Excel, Access, Azure de Microsoft, SAP HANA, SQL Server e incluso fuentes de datos online como Google Analytics o Facebook. Podemos configurar varios canales de información y tratarlos dentro del mismo modelo de datos.
Servicio Power BI
Es la parte de SaaS (Software as a Service) de Power BI. Permite la creación de entornos de trabajo para poder colaborar en la elaboración y explotación de informes y paneles. En su versión gratuita, sólo se necesita una cuenta de correo corporativa, permite importas conjuntos limitados de datos y crear visualizaciones sencillas, en su versión PRO, se puede colaborar, publicar, realizar usos compartidos y análisis específicos. Si se necesita análisis de microdatos, control de administración e implementación avanzados y recursos de almacenamiento y procesamiento en la nube dedicados, se debe contar con la versión Premium.
Ventajas de Power BI como herramienta de visualización de datos
¿Por qué la herramienta Power BI es una de las más extendidas en el campo de la Business Intelligence? Podemos citar las siguientes ventajas:
Su versatilidad: toda la empresa puede beneficiarse de sus funcionalidades para procesar y comunicar los datos ligados a la evolución de cada área de trabajo. Además, al ser capaz de operar en la nube, con Power BI resulta sencillo compartir esta información entre los distintos equipos o departamentos para poder realizar un análisis integral.
Las integraciones con que cuenta: puede enlazarse prácticamente con el 100% de los sistemas de bases de datos más utilizados en las empresas (incluyendo los ficheros más comunes como CSV o Excel) e incluso se integra con entornos online como Google Drive.
Su precio limitado: Power BI Desktop y Mobile son gratuitas y, aunque la versión de Power BI Pro sí que es de pago (se compran las licencias por usuarios), resulta asequible para las potentes funcionalidades que ofrece.
Aprende cómo se usa Power BI con estos cursos
La mejor forma de descubrir el potencial de Power BI es aprender con un curso especializado. Te mostramos los cursos sobre Power BI que puedes encontrar en datahack:
Introducción a la visualización de datos con Power BI: este curso te servirá para sentar las bases de tu conocimiento de esta herramienta. Aprenderás cómo analizar la información para extraer insights relevantes para el negocio, además de comprender todas las etapas implicadas en el tratamiento de datos con Power BI (conectar, integrar, modelar y visualizar datos).
Visualización de datos avanzada con Power BI: este curso va un paso más allá y ahonda en las funcionalidades más exigentes de Power BI en cuanto a la transformación de datos, la preparación de datasets, el análisis de datos usando DAX o la configuración de entornos de trabajo colaborativo, entre otros aspectos.
Si necesitas una formación integral más intensa, también existe la opción del Bootcamp centrado en la visualización de datos con el que adquirirás los conocimientos en un tiempo récord y de forma muy práctica para que puedas manejarte con Power BI con solvencia.
¿Te surgen preguntas y no sabes cuál elegir? Escríbenos sin dudarloy te aconsejaremos estudiando tu situación en concreto.
El pasado 8 de marzo datahack organizó una mesa redonda de EXPERTAS en el ámbito de los datos.
Macarena Estévez (Deloitte), Elena Gil (Telefónica) y Emilia Gómez (Universitat Pompeu Fabra), charlaron, moderadas por Lourdes Hernández (CEO de datahack) sobre las últimas tendencias del sector, avances y proyectos punteros que se están desarrollando en estos momentos, y que darán paso al futuro del Big Data revolucionando el sector tal y como lo conocemos.
¿Quieres conocer de primera mano estos proyectos? Si te perdiste la sesión "Data: Advance & Trends". Aquí tienes el vídeo:
SPEAKERS:
⚪ Macarena Estévez - Analytics Partner at Deloitte. ⚪ Elena Gil Lizasoain - Global Director of Product and Business Operations at Telefonica IoT & Big Data. ⚪ Emilia Gómez - Assistant Professor, Centre for Advanced Studies, Music Technology Group at Universitat Pompeu Fabra ⚪ Lourdes Hernández Vozmediano - CEO at datahack.
Si te estás iniciando en el mundo del Big Data, probablemente te encontrarás un poco perdido entre la ensalada de términos que manejan los expertos. Inteligencia Artificial, Machine Learning, Internet de las Cosas… Se trata de piezas de un puzzle que debemos encajar para comprender cómo funciona esto de los datos y ser conscientes de todo el jugo que le podemos sacar. Uno de los componentes claves del cuadro es el Data Scienceo Ciencia de Datos, que desempeña un papel crucial a la hora de convertir los registros en bruto en información.
¿Qué es el Data Science?
El Data Science o Ciencia de Datos es una disciplina que combina técnicas matemáticas y herramientas tecnológicas para la extracción, el estudio y el análisis de datos. El Data Science pretende, a partir de una observación minuciosa de la realidad, inferir conclusiones útiles para anticipar tendencias y guiar la toma de decisiones.
El Data Science se basa en tres pilares:
Matemáticas. Aunque la procedencia académica de los científicos de datos resulta de lo más variopinta, lo habitual es que nos encontremos con una gran mayoría de matemáticos y estadísticos. Esto se debe al gran peso que la generación de algoritmos y modelos y la aplicación de lógicas tiene en el Data Science. Los data scientists se apoyan en las técnicas de minería de datos que, simplificando mucho, no son más que ecuaciones muy complejas que, con ciertas variables dadas, buscan despejar una o varias incógnitas.
Tecnología. Cuando los conjuntos de datos que se manejan son manualmente inabarcables, el Data Science ha de recurrir a la tecnología, es decir, a la programación y a la informática.
Visión de negocio. El análisis de los datos debe llevarse a cabo con un objetivo tangible, esto es, con la vista puesta en emitir predicciones para orientar los siguientes pasos de un individuo, organización, sistema o negocio. El Data Science no implica únicamente únicamente conocer, sino que intenta utilizar el conocimiento generado como hoja de ruta para mejorar los productos y servicios, así como para ganar en rapidez, eficacia y rentabilidad.
Al Data Science se le puede sacar partido desde ámbitos muy diversos. Podemos pensar en la Salud, con el desarrollo de modelos de diagnóstico cada vez más certeros; o en los Recursos Humanos, donde la Ciencia de Datos nos ayudará a encontrar al candidato perfecto, a analizar el desempeño de los trabajadores o a retener el talento.
Pero la lista es casi infinita, ya que otros sectores como las finanzas, los seguros, el marketing digital, los medios de comunicación, la industria o la logística también pueden aprovecharse de las aplicaciones de esta disciplina. En general, las empresas están potenciando sus áreas de Business Intelligence con Data Sciencists para tener una visión del negocio más analítica y optimizar los procesos de toma de decisiones clave.
¿Qué se necesita para trabajar como científico de datos?
El perfil del científico de datos requiere una mezcla de pensamiento matemático y analítico, aderezado con la capacidad de generar insights y trasladarlos a los demás de forma sencilla y comprensible.
La mayoría de las ofertas de empleo para data scientists inciden en la importancia de saber programar con Python o R y estar familiarizado con Apache Spark. En cualquier caso, si no cuentas con estas habilidades informáticas no es una barrera infranqueable, puesto que los másters en Data Science como el de datahack incluyen estas disciplinas como parte de su programa de formación.
¿Por qué y dónde estudiar Data Science?
La profesión de científico de datos ocupa el tercer puesto en el ranking de profesiones emergentes de 2020 (Emerging Jobs Report) que elabora cada año LinkedIn. Estos especialistas están adquiriendo nuevas responsabilidades y ocupando espacios que antes se llenaban con otros roles más tradicionales. Su contratación creció nada menos que un 37% el año pasado con respecto al ejercicio anterior.
Estudiar un máster relacionado con el Data Science te dará la oportunidad de abrirte paso dentro de este prometedor itinerario laboral. Y si te decides por el Máster Experto Big Data Analytics tendrás aún más ventajas: formación práctica, dinámica, intensiva y 100% en streaming, basada en nuestra metodología Learning by doing. Infórmate ahora: ¡una de las plazas de la próxima convocatoria te está esperando!
La minería de datos se define como una serie de técnicas encaminadas a identificar patrones implícitos dentro de grandes conjuntos de datos, con el fin de entender sus mecanismos de comportamiento, su interrelación y su potencial evolución futura. El data mining es una tecnología exploratoria clave en los proyectos de Big Data, y se puede poner en funcionamiento tanto para resolver preguntas específicas como para la extracción de información de manera general, buscando tendencias y anomalías en la muestra.
Hace poco abordábamos en el Blog de datahack algunas de las metodologías de data mining más conocidas para el análisis en Big Data, como KDD, SEMMA y CRISP-DM. Hoy iremos un paso más allá y nos centraremos en las 7 técnicas de minería de datos más utilizadas en el mundo del Big Data. Aquí tienes nuestra selección:
1
Árboles de decisión
Los árboles de decisión son diagramas lógicos que plantean, ante una determinada situación, cuáles son las opciones de intervención posibles, agregando sus implicaciones, costes, ventajas y desventajas. Se basan en la aplicación de un algoritmo clasificatorio que, a partir de un nodo, desarrolla ramas (decisiones) y determina el potencial resultado de cada una de ellas.
Las redes neuronales son modelos que, a través del aprendizaje automático, intentan llenar los vacíos de interpretación en un sistema. Para ello imitan, en cierto modo, las conexiones entre neuronas que se producen en el sistema nervioso de los seres vivos.
Las redes neuronales se engloban dentro de las técnicas predictivas de minería de datos y, como todo modelo de machine learning, es preciso entrenarlas con distintos data sets con los que ir matizando los pesos de las neuronas para asegurar la fiabilidad de sus respuestas. Existen diferentes tipos de redes neuronales para data mining, como el perceptrón simple y el multicapa o los mapas de Kohonen.
2
Redes neuronales
3
Clustering
El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo atiende a condiciones de cercanía o similitud para hacer su trabajo.
Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de correos y promociones personalizadas a los usuarios que integran una base de datos.
Aprende más sobre la clusterización de clientes y llega a ellos de forma más personalizada con nuestro Máster Executive Inteligencia Artificial y Big Data.
La extracción de reglas de asociación como técnica de minería de datos persigue la inferencia de silogismos del tipo si…/entonces… a partir de conjuntos de registros. Esta búsqueda de regularidades nos permite discriminar y conocer mejor a una muestra, y establecer qué atributo o combinación de atributos es probable que traiga consigo una determinada consecuencia.
4
Extracción de reglas de asociación
5
Redes bayesianas
Las redes bayesianas son representaciones gráficas de relaciones de dependencia probabilística entre distintas variables. Sirven para dar solución tanto a problemas descriptivos como predictivos. Entre sus aplicaciones se incluyen el diagnóstico médico o el cálculo del riesgo en el sector financiero y asegurador.
La regresión como técnica de minería de datos toma como punto de partida una serie histórica para, a partir de ella, predecir qué sucederá a continuación. De manera resumida, podemos decir que, a través de este método, se localizan regularidades dentro de los datos que permiten trazar una línea de evolución extrapolable al futuro.
6
Regresión
7
Modelado estadístico
El modelado estadístico pretende dibujar el mapa de relaciones entre variables explicativas y dependientes, y mostrar cómo cambia a medida que lo hacen los parámetros considerados en su planteamiento. Lo hace estableciendo una ecuación matemática que intenta reproducir la realidad de la manera más fiel posible, incorporando, incluso, la influencia del azar y el posible margen de error en el cálculo.
Atrévete a formarte con nuestroMáster Experto en Data Science y Big Data
Una formación 100% online y adaptada a ti para que te conviertas en un especialista en Inteligencia de Negocio
El análisis en Big Data se define como un proceso que comprende la recolección, la depuración, el tratamiento, el modelado y el estudio de los datos con el fin de obtener conclusiones útiles que cristalicen en forma de conocimiento y que guíen la toma de decisiones en las organizaciones.
Para el desarrollo de este proceso de análisis en Big Data, utilizamos metodologías iterativas de minería de datos como KDD, SEMMA o CRISP-DM, que constan de varias fases de manejo de los datos claramente secuenciadas y que emplean técnicas de analítica descriptiva, diagnóstica, predictiva o prescriptiva. Veamos en qué consiste cada una de ellas.
Métodos de minería de datos para el análisis en Big Data
KDD (Knowledge Discovery in Databases)
KDD (Knowledge Discovery in Databases) es una metodología de minería de datos para el análisis en Big Data que busca identificar patrones implícitos en los grandes volúmenes de datos y convertirlos en conocimiento, filtrando y descartando aquellos hallazgos que no resulten de utilidad para los objetivos fijados. Por eso, antes de iniciar un proceso KDD, es imprescindible determinar qué queremos conseguir con él. Una vez establecido esto, se aplica el método KDD con los siguientes pasos:
Selección: de las muestras de datos y de las variables que se van a estudiar.
Preprocesamiento: se lleva a cabo una homogeneización de los registros, limpiando y normalizando para que no haya problemas con el procesamiento por parte de las herramientas de Big Data.
Transformación: se aplican técnicas de reducción de la dimensionalidad y de eliminación de las variables irrelevantes para reducir la complejidad de la muestra.
Minería de datos: se establece qué algoritmos y técnicas de data mining usar y se ponen en juego para descubrir y mapear las relaciones entre los datos.
Interpretación: finalmente, se traduce la información descubierta en dashboards y visualizaciones comprensibles para los actores encargados de evaluar el conocimiento adquirido y decidir qué hacer con él.
SEMMA (Sample, Explore, Modify, Model and Assess)
SEMMA (Sample, Explore, Modify, Model and Assess) es una metodología de data mining para el análisis en Big Data desarrollada por el SAS Institute. Va en consonancia con el sistema de trabajo de SAS Enterprise Miner, su software de minería de datos, y prevé cinco etapas:
Muestreo: se debe escoger un conjunto de datos representativo, con un tamaño adecuado para obtener conclusiones relevantes y generalizables.
Exploración: para atisbar las coincidencias y las tendencias más marcadas, que nos guíen en los siguientes pasos.
Modificación: mediante una labor de agrupación, limpieza y recorte de variables, o de creación de otras nuevas, que facilite las tareas posteriores.
Modelado: con técnicas de minería de datos como las redes neuronales, los árboles de decisión u otras herramientas estadísticas.
Evaluación: con tests que verifiquen la validez del modelo desarrollado, probando su fiabilidad en otras muestras.
CRISP-DM (Cross Industry Standard Process for Data Mining)
CRISP-DM supone un avance con respecto a KDD y SEMMA en el campo de los procesos de minería de datos para el análisis en Big Data, en el sentido de que anticipa la repercusión de los hallazgos obtenidos en el negocio. Las tareas de analítica se asumen como un proyecto que se documenta exhaustivamente para que todos los equipos de una organización puedan continuar trabajando a partir de él.
CRISP-DM se estructura en seis fases:
Comprensión del negocio: asunción de sus necesidades y objetivos y selección de los que van a motivar el análisis en Big Data.
Comprensión de los datos: primera aproximación a los datos para realizar agrupaciones, identificar patrones notorios y lanzar hipótesis preliminares.
Preparación de los datos: incluyendo selección de muestras, limpieza, normalización y transformación.
Modelado: con técnicas de analítica y data mining acordes al tipo de pregunta o preguntas a las que se pretende responder (qué ha ocurrido, por qué, qué sucederá a continuación o cómo deberíamos actuar ahora).
Evaluación: para, de nuevo, vigilar el nivel de fiabilidad de los resultados obtenidos y cerciorarnos de que el modelo toma en consideración todas las circunstancias del negocio.
Despliegue: generación del informe o entregable final o implantación en un entorno de producción.
Herramientas de análisis en Big Data
Los analistas de Big Data acometen estos procesos con la ayuda de una serie de herramientas tecnológicas que automatizan las tareas menos creativas de la explotación de datos. En datahack impartimos cursos específicos para aprender a manejar algunas de ellas, como:
El procesamiento de volúmenes ingentes de datos requiere de sistemas altamente eficientes, capaces de incorporar constantemente nuevas entradas sin parar de generar información útil para la toma de decisiones. Para satisfacer esta necesidad se diseñan las arquitecturas Big Data, modelos que han ido sofisticándose con el paso de los años con el fin de adaptarse a las exigencias de las organizaciones que los utilizan.
Hoy en datahack analizaremos las características y las diferencias que existen entre dos de las arquitecturas Big Data más extendidas: Lambda y la que muchos consideran como su evolución, Kappa.
¿Qué es la arquitectura Big Data?
Una arquitectura Big Data se define como un sistema de tratamiento de datos creado para tomar inputs de diferentes fuentes y con distintos formatos, analizarlos y convertirlos en conclusiones relevantes para el destinatario, de manera que le ayuden a predecir escenarios o determinar qué acción llevar a cabo en una situación dada.
Las arquitecturas Big Data se basan tanto en el almacenamiento como en el procesamiento distribuido de los datos, lo que las hace más seguras que los modelos centralizados en caso de fallos, ya que facilitan la localización y el aislamiento del nodo problemático con celeridad sin comprometer el funcionamiento del resto. Esto reduce, asimismo, la latencia en las conexiones, acortando los tiempos de respuesta en las solicitudes de información.
Otra de las grandes ventajas de las arquitecturas Big Data con respecto a las metodologías de análisis tradicionales es su escalabilidad: se conciben como sistemas adaptativos, preparados para asumir la entrada continua de nuevos conjuntos de datos y para ser extrapolados a ámbitos muy diversos.
Arquitectura Lambda: ¿en qué consiste?
Los principios de Lambda como arquitectura Big Data fueron establecidos por Nathan Marz en 2011 en su artículo How to beat the CAP theorem. Lambda se sustenta en una estructura de tres capas:
Capa de procesamiento batch, de segmentos o lotes.
Capa serving, de servidor o de consulta.
Capa de procesamiento streaming, speed o de velocidad.
En la arquitectura Lambda, los datos entran por duplicado, en la capa batch y en la capa streaming. A partir de aquí, se someten a dos tipos de tratamiento:
Procesamiento batch. Aborda los datos por lotes, conjuntos con un inicio y un final acotados. Los resultados de la consulta se muestran en vistas indexadas en la capa de servidor. Ofrece outputs muy fiables, dado que toma en cuenta segmentos completos de registros; pero, a cambio, precisa de un tiempo relativamente largo (minutos u horas) para completar la operación, por lo que no se considera útil en situaciones en las que la toma de decisiones deba ser casi instantánea. Para paliar esta desventaja, lo habitual es diseñar preconsultas en la capa batch que la capa serving indexará como vistas, lo que acelera la respuesta cuando se efectúa la solicitud.
Procesamiento streaming. Proporciona información en tiempo real con vistas que se muestran directamente en la propia capa de velocidad y que se actualizan de forma constante apoyándose en los datos más recientes.
Arquitectura Kappa: ¿alternativa a Lambda?
La arquitectura Kappa nació en 2014 de la mano de Jay Kreps y su reflexión Questioning the Lambda Architecture. En ella, Kreps criticaba el consumo innecesario de recursos que supone mantener y tratar los mismos datos, con el objetivo de obtener resultados similares, en dos sistemas distintos (la capa batch y la capa streaming).
Kreps opina que el procesamiento por lotes también se puede llevar a cabo en la capa streaming. Y, como consecuencia, en su idea de Kappa aboga por suprimir la capa de segmentos, quedándose solo con la de streaming y la de consulta, y pasando a considerar todo como un flujo de datos ininterrumpido, sin final definido, en el que aplicar las operaciones.
Arquitecturas Big Data Lambda y Kappa: ¿cuándo utilizar cada una?
A pesar de que Kappa supone una simplificación de Lambda, no por ello constituye una solución para todas las circunstancias. Valorar cuándo y dónde implementar una u otra arquitectura Big Data depende de factores como el tipo de procesamientos simultáneos de los datos que se pretenden realizar, la importancia de la latencia para los actores implicados o si vamos a utilizar la información recabada para el desarrollo de modelos de machine learning. Una decisión delicada que corresponde tomar a los especialistas en Big Data.
¿Quieres aprender más sobre arquitectura Big Data y sobre Lambda y Kappa? Infórmate sobre el Máster Experto en Arquitectura Big Data de datahack, una formación puntera, intensiva y online con la que darás un gran paso adelante en tu carrera profesional en tan solo 15 semanas. ¿Te interesa? Contacta con nosotros y resolveremos tus dudas. Con datahack, ¡te espera un gran futuro en el mundo del Big Data!
Resumen de privacidad
Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.
Cookies estrictamente necesarias
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_btrid
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en un año
datahack.es
_gat_UA-32658908
-1
Cookie necesaria para la utilización de las opciones y servicios del sitio web
Sesión
google.com
__Secure-1PAPISI
D
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en 2 años
google.com
__Secure-1PSID
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en 2 años
google.com
__Secure-3PSIDC
C
Cookie necesaria para la utilización de las opciones y servicios del sitio web
en un año
Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.
Cookies de terceros
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_ga
ID utiliza para identificar a los usuarios
en 2 años
datahack.es
_gid
ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad
en 20 horas
google.com
__Secure-3PAPISI
D
Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.
en 2 años
google.com
__Secure-3PSID
Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.
en 2 años
Publicitarias
Propiedad
Cookie
Finalidad
Plazo
datahack.es
_fbp
Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros
en 3 meses
datahack.es
_gcl_au
Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.
en 3 meses
google.com
APISID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
HSID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SAPISID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SID
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en 2 años
google.com
SIDCC
Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.
en un año
google.com
SSID
Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch.
Ajusta los anuncios que aparecen en la Búsqueda de Google.
en 2 años
¡Por favor, activa primero las cookies estrictamente necesarias para que podamos guardar tus preferencias!
Cookies adicionales
Los servicios de terceros son ajenos al control del editor. Los proveedores pueden modificar en todo momento sus condiciones de servicio, finalidad y utilización de las cookies, etc.