Curso

Máster Executive Big Data y Analytics

Especialízate en Big Data y Analytics con el Máster Executive de datahack. Programa de fin de semana con 6 meses de duración.

Duración

Duración del máster: 6 meses de clases lectivas.

Requisitos previos

Es necesario saber programar.

En caso de no tener los conocimientos previos necesarios, contamos con unos cursos previos gratuitos.

Ubicación

MADRID

BILBAO

BARCELONA (próximamente)

Profesores

Profesionales en las materias que imparten.

¿Qué vas a aprender?

CONOCIMIENTOS PREVIOS

  • Programación (tener experiencia en algún lenguaje de programación).
  • Linux a nivel Shell (saber moverse en el árbol).
  • SQL a nivel DML (recuperación de datos en una BBDD relacional).

REQUISITOS PORTÁTIL DEL ALUMNO

  • Procesador: i5 o superior.
  • Memoria: 8 gigas o más.
  • Disco duro: al menos 50 a 100 gigas disponibles.
  • Sistema Operativo: Linux, Windows o macOS.
  • El Software a utilizar es open source y el que no lo es, lo aporta la escuela. Es necesario poder ejecutar software de virtualización.

Proxima sesión:

Comienzo: 19/01/2018
Finalización: 14/07/2018

  • Modulo 1

    Data Discovery

    El data discovery, consiste en el uso coordinado de una serie de técnicas y metodologías para integrar y analizar diferentes fuentes de datos. De modo que se puedan descubrir relaciones y patrones comportamiento en los mismos y que no son perceptibles a través de técnicas analíticas tradicionales.

    Contenido del módulo

    Estadística descriptiva
    Probabilidad
    Estimación por intervalos de confianza
    Introducción a R
    Librerías de R
    Clusterización y estadística avanzada con R
    Conceptos básicos de Machine Learning
    Introducción al modelo relacional SQL

  • Modulo 2

    Machine Learning con PYTHON

    Python es un lenguaje de programación interpretado, cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Soporta tanto la programación funcional como la orientada a objetos, es multiplataforma, ofrece una gran cantidad de estructuras de datos y es uno de los lenguajes más utilizados por los científicos de datos . Es administrado por la Python Software Foundation y posee una licencia de código abierto.

    Contenido del módulo

    Introducción al lenguaje
    Tipos, colecciones y lógica básica
    Programación funcional
    Programación orientada a objetos
    Jupyter y Notebooks
    Uso bibliotecas
    Álgebra lineal con Numpy
    Panda y DataFrames
    Matplotlib
    Scipy
    Machine Learning (Scikit-Learn)

  • Modulo 3

    Machine Learning con SAS

    El Sistema SAS (Statistical Analisys System) es un paquete de software, que está especialmente centrado en la Estadística aplicada y en el Machine Learning, técnicas que se utilizan para la búsqueda de patrones en grandes conjuntos de datos y la creación de módelos predictivos, que ayuden a los toma de decisiones en una compañía.

    Contenido del módulo

    Preparación datos para data mining utilizando SAS Enterprise Guide
    Introducción a la técnica de Árboles de Decisión utilizando SAS Enterprise Miner
    Regresión Logística & Redes Neuronales con SAS Enterprise Miner
    Otras técnicas Avanzadas (Random Forest y Gradient Boosting, etc)
    Comparación de modelos y Scoring
    Algoritmos de segmentación (Clustering) y Cesta de la Compra

  • Modulo 4

    Bases de Datos NOSQL

    En NoSQL (“not only SQL”) se engloba un conjunto de sistemas de gestión de bases de datos que difieren del modelo clásico relacional, en aspectos como: no solo usan el SQL como lenguaje de consultas o que los datos no tienen que ser siempre almacenados en tablas, Normalmente no soportan operaciones JOIN, ni garantizan completamente ACID (atomicidad, consistencia, aislamiento y durabilidad), y habitualmente escalan bien horizontalmente.

    Contenido del módulo

    Descripción del caso de uso
    Restricciones de las bases de datos Relacionales
    Introducción a NoSQL
    Riak
    MongoDB
    Apache Cassandra
    Neo4j

  • Modulo 5

    HADOOP Basics

    Hadoop es una tecnología de infraestructura que permite el almacenamiento y procesamiento de grandes volúmenes de datos, a través de un sistema de almacenamiento y computación distribuida, que hace uso de: unos pocos servidores hasta miles de ellos, y modelos sencillos de programación.

    Contenido del módulo

    Introducción a Hadoop
    Arquitectura de Hadoop
    HDFS (almacenamiento distribuido)
    MapReduce / YARN (procesamiento distribuido)
    Creando un clúster de Hadoop
    Operación del clúster
    Backup y contingencia

  • Modulo 6

    Ecosistema HADOOP

    El Ecosistema de Hadoop lo componen un conjunto de herramientas que han surgido para facilitar los procesos de gestión y análisis datos sobre Hadoop. De este modo, en el pueden encontrarse herramientas de cargar y transformación de datos (ETL), otras para la consulta de los datos almacenados, gestión del clúster, streaming y Machine Learning. Vamos, todo un ecosistema!.

    Contenido del módulo

    Introducción al Ecosistema de Hadoop
    Elasticsearch y Solr
    Flume
    Sqoop
    Pig
    Hive
    Impala
    Hue
    Oozie

  • Modulo 7

    APACHE SPARK

    Apache Spark es un sistema de procesamiento distribuido, de código abierto, que se usa con frecuencia para procesar grandes cantidades de datos. En Spark se utiliza la caché de memoria y la ejecución optimizada para ofrecer un desempeño rápido, con él se obtienen velocidades de procesamiento 100 veces más rápidas que con el MapReduce de Hadoop. Es compatible con Hadoop, el procesamiento en streaming, el machine learning, las bases de datos de grafos y las consultas ad-hoc.

    Contenido del módulo

    Introducción a Apache Spark
    Spark Core
    Spark SQL
    Spark Streaming
    Machine Learning con Spark (MLlib)
    SparkR
    Notebook con Zeppelin

  • Modulo 8

    Visualización

    La visualización de datos es el proceso de búsqueda, interpretación y comparación de datos, que permite un conocimiento en profundidad y detalle de los mismos, de forma que se transformen en información compresible para el usuario. Contenido del módulo Introducción a la visualización de datos Visualización con Tableau y QlikView Librerías de visualización de Python Introducción a D3.js Visualización Geoespacial con CartoDB Grafos y sistemas Complejos, Gephi
  • Modulo 9

    Algoritmos Avanzados

    Un algoritmo es un procedimiento bien definido para llevar a cabo alguna tarea concreta. Se trata de una serie de instrucciones o reglas, establecidas y organizadas de forma lógica, que por medio de una sucesión de pasos, permiten obtener un resultado o solución a un problema. En informática un algoritmo es un conjunto de pasos que permiten que un programa pueda realizar una tarea y resolverla de forma eficiente (tiempo y consumo de recursos).

    Contenido del módulo

    Introducción a las SVM (Support Vector Machine)
    Modelos de las SVM
    Algoritmos SVM
    Introducción a las Redes Neuronales
    Optimización del Aprendizaje
    Redes Neuronales Convolucionales
    Redes Neuronales Recurrentes

¿Te interesa el máster de datahack?

Completa el siguiente formulario y en unos minutos, recibirás un correo con la información.

Revisa tu carpeta de SPAM si el correo no aparece en tu bandeja.

d

datahack

91 091 28 42
Iniciar sesión