2018 ha sido un año intenso en datahack. Un año de crecimiento, pero también un año de mejoras, tanto en nuestro Master de Big Data Analytics, que tiene un temario actualizado y ahora es modulable, como en el área de labs, donde ya estamos dando pasos más allá del deep learning para sacarle todo el jugo al proyecto DIA4RA.

¿Quieres saber lo que ha pasado este año en datahack? Este es un breve resumen de los pasos que hemos dado para ser los mejores expertos en Big Data & Analytics:

Nace nuestra división de talento: DH SEED, headhunter experto en Big Data y entornos digitales

Las vacantes en Big Data & Analytics de las empresas son cada vez más difíciles de cubrir, puesto que no hay suficientes perfiles especializados para todas las necesidades del mercado actual. Nosotros no solo tenemos una alta especialización en el sector y formamos a los mejores profesionales con nuestro Master de Big Data & Analytics, sino que además tenemos un equipo de recursos humanos que conoce el entorno y sabe adaptarse a las necesidades mejor que nadie.

Mejoramos el programa de nuestro Master de Big Data & Analytics

Actualizamos constantemente el programa del Master de Big Data & Analytics para que siempre esté a la última en las tecnologías más punteras, pero este año hemos ido más allá y hemos dado la posibilidad de modular el máster en dos: Máster de Científico de Datos y Máster de Arquitecto de Datos.

Academia Digital de Fundación ONCE

Datahack se encargó de impartir los tres itinerarios de cursos de la Academia Digital para personas con discapacidad de Fundación Once. El objetivo máximo de esta Primera Edición de la Academia Digital Fundación ONCE fue facilitar el acceso al empleo en el mundo digital a este grupo de apasionados estudiantes. Resultó ser un éxito rotundo.

Nuestro nuevo compañero de trabajo: el robot AIDA

Llevábamos ya tiempo trabajando en el proyecto DIA4RA (con robots más básicos o gracias a la ayuda del equipo de la URJC), pero la llegada de AIDA nos dio una gran agilidad y libertad para llevar a cabo la aventura. Es nuestra niña mimada y les estamos enseñando muchas cosas con lo último en tecnologías de deep learning, machine learning e inteligencia artificial que la ayudarán a asistir a las personas con alzheimer.

¡Nuestro Master de Big Data & Analytics se inauguró en Sevilla!

Ya habíamos hecho algunos proyectos en la ciudad, como la Academia Digital de Fundación ONCE para personas con discapacidad. Pero decidimos dar un paso más y ofreceros nuestros programas de formación en Big Data más avanzados también en esa ciudad. La primera edición del Master de Big Data & Analytics ya está en marcha y pronto habrá más. Si eres del Sur, ¡no dejes pasar la oportunidad!

Patrocinamos los dos grandes eventos de Big Data de España

Es decir, el Big Data Congress de Barcelona y el Big Data Spain de Madrid. Allí, no solo tuvimos nuestro stand donde poder informar de nuestra Formación en Big Data; de los servicios de nuestra área de talento, DH SEED, headhunter especializado en Big Data y perfiles digitales; de nuestro departamento de labs... sino que también ofrecimos diversas charlas y ponencias.

Éxito total en Innodata

También hicimos nuestro gran evento de Big Data en Madrid, el Innodata, que acogió a más de 100 personas interesadas en el mundo de los datos. Pronto iremos subiendo más información sobre todo lo que ocurrió allí, ¡estad atentos!

¡A por el próximo año!

Y eso es lo más importante, aunque no todo. Hemos experimentado un crecimiento importante, hemos sido anfitriones de numerosos eventos de Big Data & Analytics, hemos realizado interesantísimos artículos relacionados con el Big Data en nuestro blog... y un sinfín de cosas más. Os invitamos a que las descubráis todas buceando por nuestra web...

MÁSTER EXPERTO BIG DATA ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

En DHSEED somos conscientes de que orientar una compañía hacia la digitalización y el Big Data supone un proceso complejo de realizar. Por ello, acompañamos a la empresa en ese proceso, ya que ofrecemos consultoría orientada a la transformación digital; somos headhunters especialistas en la evaluación, búsqueda y selección de perfiles de IT, Big Data y digital. Para más información pincha aquí.

Hablamos de Recursos Humanos, de cuidado al empleado que trabaja en equipo y, en definitiva, de eficiencia en el empleo y gestión de grupos. Mas allá de la veracidad de los hechos de la película, y de lo enorme y grandioso de la música de un grupo que hizo historia desde muy pronto, en Bohemian Rapsody, en la historia y filosofía de Queen, podemos descubrir grandes lecciones para aplicar sobre la gestión de equipos.

1.- Perseguir el mismo objetivo

Aunar fuerzas, identificarse con el objetivo, hacer que todos los esfuerzos se centren en perseguir la misma meta, es la clave de la sinergia, del trabajo común, de poder tocar el éxito que uno a uno no hubieran podido alcanzar. A pesar del gran protagonismo de Freddie Mercury, en Queen, todos los miembros de la banda eran grandes músicos, todos eran compositores, todos aportaron algo brillante en todas las canciones. Perseguir la gloria común y compartida fue lo que los llevó a lo mas alto. Cuando abandonaron el objetivo común, el éxito de cada uno de los miembros por separado fue incomparable al de todos ellos juntos.

Buddy you're a boy make a big noise
Playin' in the street gonna be a big man some day
You got mud on yo' face. You big disgrace
Kickin' your can all over the place
Singin'
We will, we will rock you

2.- Tenacidad a pesar de la ignorancia del otro

Hacer de tu objetivo algo que suponga el perder el miedo a lo desconocido, poder defender lo innovador, a pesar de los “que llevan toda la vida haciendo lo mismo”, a pesar de los “esto siempre se ha hecho así”. Tener la personalidad y el coraje de decir que no a los que no estén alineados con el objetivo, a los que no entienden, a los que se miden por patrones antiguos, a los que tienen miedo. Todo ello basado en una gran transparencia y comunicación entre los miembros, lo que hace que todos puedan ser portavoces sin importar

One dream, one soul,
One prize, one goal.
One golden glance of what should be.
It's a kindofmagic.

3.- Abandonar la zona de confort (frase ya demasiado utilizada) para crecer hasta lo más alto

Freddie Mercury, desafiando todo estereotipo, y complementado con el resto de Queen, desata un universo innovador, arriesgado, transgresor y revolucionario. La frase del cartel de la película original es “fearless lives forever”.

Oh you gonna take me home tonight
Oh down beside that red fire light
Oh you gonna let it all hang out
Fat-bottomed girls you make the rocking world go round

4.- Flexibilidad

En el cantar, en el escribir, en el desafinar, en la forma de hacer música, en el cómo, en el cuándo y en el porqué , con gran respeto por el trabajo de los otros, por sus personas, por sus familias, por sus aspectos….

I see a little silhouetto of a man,
Scaramouche, Scaramouche, willyou do the Fandango?
Thunderbolt and lightning,
Very, very frightening me.
(Galileo) Galileo

5.- Perderse (o fallar) no es definitivo

Cuando la búsqueda de la gloria personal se impone, se acaba la magia, se acaba la comunicación, la confianza y el compañerismo. Ahí se pasa a otro estado en el que es muy fácil perderse, y ya no tienen sentido el equipo, los objetivos o el trabajo común. En este caso, la separación y el tocar fondo abren al diálogo, a poder pedir perdón y a la reconciliación, dando paso de nuevo a la magia

I've paid my dues. Time after time.
I've done my sentence
But committed no crime.

And bad mistakes‒I've made a few.
I've had my share of sand kicked in my face,
But I've come through.

We are the champions, my friends

6.- La mayor gloria conlleva el abandono del yo

Tras la reconciliación y sin disfraces, sin maquillaje, sin parafernalia, solo cuatro músicos tocando en camiseta y disfrutando de estar juntos, llega la mayor gloria, las voces que callan, aquello que aún recordamos

I have spent all my years in believing you
But I just can't get no relief, Lord!
Somebody, somebody
Can anybody find me somebody to love?

Paloma Romero

En nuestro afán por hacer llegar a todos una formación en Big Data y Analytics de calidad, datahack ha llegado a Sevilla y se está dando a conocer con su segundo evento en dos semanas. Una vez presentadas las credenciales, era momento de meterse un poco más en harina y acercar al potencial alumno aquello que se ofrece en el master. En esta ocasión se puso el foco en la parte relativa a Machine Learning. La intención no era dar una charla magistral, ni que la gente saliera impresionada, sino transmitir: acercar un concepto que en ocasiones parece difuso, desgranarlo y mostrar algunos de sus vericuetos a las personas que deseen instruirse en esta disciplina.

Una de las primeras ideas que se pretendía afianzar es que el Machine learning es un campo que lleva muchos años presente. Es quizá en tiempos más recientes (en los que la capacidad de procesamiento ha mejorado drásticamente y la cantidad de datos que se almacenan es crece exponencialmente) cuando ha recibido el reconocimiento que merece. Por tanto, ya no es un “hype”, sino que está aquí para quedarse.

Problemas que podemos abordar con el Machine Learning

Después de asentar el punto de partida a través de algunas definiciones, se pasó a desgranar algunos de los principales tipos de problemas que se pueden abordar a través del Machine Learning, como son el aprendizaje supervisado (incluyendo tareas de clasificación y de regresión) y el aprendizaje no supervisado.

Siguiendo el hilo de proporcionar un acercamiento real a la materia, se habló largo y tendido de los problemas que pueden aparecer (y que aparecerán) al ponerse manos a la obra. Por ejemplo, los relativos a los datos (distintos tipos de sesgos, representatividad, la calidad y limpieza de los mismos…) y por supuesto de los algoritmos (overfitting, underfitting y la regularización como posible solución al primero de ellos). Era importante aclarar la naturaleza iterativa del Machine Learning, el hecho de que no hay una checklist fácilmente aplicable que permita resolver todos los problemas que salgan al paso, con lo que es muy importante armarse de paciencia y no desesperar si los resultados tardan en llegar.

Qué hacer con los datos y los modelos entrenados

A medida que transcurría la representación las personas que asistieron se mostraron cada vez más participativas haciendo preguntas muy interesantes, algunas de las cuales permitían hilvanar un apartado con otro dando sensación de fluidez. Esto se hizo especialmente palpable en la parte final, que abordaba (¡por fin!) qué hacer con los datos y con los modelos entrenados con estos: aquí se expuso cómo dividir el conjunto de datos y cómo utilizar esos datos para entrenar distintos modelos, cómo apoyarse en los datos reservados para la validación para elegir el modelo campeón y muy especialmente destacar la importancia de los datos de test.

Esta porción es especialmente delicada ya que debe permanecer aislada de nosotros y de nuestros modelos (para evitar filtraciones), hasta que se haya escogido un modelo campeón y solo entonces será cuando dicho modelo se enfrente a los datos de test. El resultado revelará si el modelo está listo para pasar ser productivo o si, por lo contrario, necesitamos trabajar más a fondo para conseguir mejorarlo.

Más allá de la charla, cabe destacar a los asistentes que fueron: durante la charla demostraron mucho interés e hicieron preguntas sumamente interesantes y antes y después de las mismas, fue un placer hablar con ellos, de sus inquietudes y de sus intereses. Algunos incluso hicieron una fantástica crónica del evento (la foto, por cierto, la tomó él). Esperamos verles de nuevo (¡y que traigan más gente incluso!) en los siguientes jueves del Big Data. ¡Id bloqueando la agenda para la siguiente, sobre Blockchain y Sidechain!

Alejandro Arranz, Data Engineer en datahack

MÁSTER EXPERTO BIG DATA ANALYTICS

Mucho se está hablando en los últimos años acerca de estas tres cosas y casualmente lo han hecho de forma consecutiva. Todo esto despertó mi curiosidad y decidí investigar un poco más acerca de todo ello y ver si entre ellas existía alguna relación. Pero, antes de nada, lo primero sería definir y ubicar cada una de ellas.

IoT

Empezaré por el IoT, siglas que se corresponde al Internet of the Things o Internet de las Cosas. Es un concepto creado por Kevin Ashton en el año 1999, que hace referencia a "la conexión permanente de los objetos cotidianos entre sí, a través de internet y con repositorios de datos, donde 'depositan' la información que recogen del entorno".

Estos “objetos cotidianos”, irían desde los más pequeños (relojes, móviles y sensores médicos, ambientales e industriales), pasando por los de tamaño mediano (televisores, frigoríficos, lavadoras y otros electrodomésticos inteligentes), hasta los más grandes (coches, edificios y maquinaria agrícola e industrial).

Los datos son el corazón de esta tecnología y su potencial es casi infinito ya que todo puede ser medido. Actualmente se estima que hay 25.000 millones de dispositivos conectados en el mundo. Para 2020, la cifra ascenderá a 50.000 millones. Con lo que se prevé que la cantidad de datos disponibles en el mundo aumente de forma exponencial en los próximos años.

Big Data

Lo de la generación de datos no es algo exclusivo del IoT, es inherente a la actividad humana. Lo venimos haciendo desde que las épocas más antiguas de nuestra historia (los sumerios crearon la escritura en tres o cuatro a.C.). Pero algo muy interesante es que más del 90% de los datos existentes en la actualidad han sido creados en los últimos dos años y el 80% de esta información es no-estructurada, es decir, que no tienen estructura interna identificable. Es un conglomerado masivo y desorganizado de varios objetos que no tienen valor hasta que se identifican y almacenan de forma estructurada. Por ejemplo, dentro de las tablas de una base de datos.

Este aumento en la velocidad de generación de datos se empezó a marcar en el año 2005, cuando nace la web 2.0, donde predomina el contenido creado por los usuarios. Ante esta nueva situación surgió Hadoop, un framework “Big Data”, capaz de hacer frente a lo que se conoció como las 3 V’s (Volumen, Variedad y Velocidad, aunque últimamente se han ampliado a 5 v's del Big Data), es decir, fue capaz de procesar una gran Volumen de información, Variada (no solo texto sino también audio, imágenes, etc.) y que se generaba a mayor Velocidad. Así, el Big Data puede definirse como la recolección y procesamiento masivo de información (estructurada, semiestructurada y no-estructurada) que tras ser organizada, sirva para extraer información útil.

Con el tiempo Hadoop fue madurando, en 2009 se creó su primera versión estable, y entorno a él surgieron herramientas que la ayudarían en su tarea, formando lo que se conoce como ecosistema Hadoop. Así, en 2012 se produjo lo que se conoce como el Big Data Bang. En este año, también surgiría Spark, otra de las grandes herramientas del Big Data, que junto con Hadoop, marcó el camino a seguir en este campo.

Inteligencia Artificial

Por último, estaría la Inteligencia Artificial (IA), que fue definida por John McCarthy en 1956, como “Conjunto de técnicas que sirven para dotar de inteligencia a una máquina”. Es decir, un conjunto de programas informáticos, basados en algoritmos, que imitan el comportamiento humano.

Teniendo en cuenta esta definición y el hecho de un algoritmo es un conjunto ordenado de operaciones que llegan a un resultado, la cantidad y grado de organización de los datos es vital para el desarrollo de la inteligencia artificial. Respecto a esto, un dato interesante es que la IA se viene investigando y desarrollando desde 1956, pero ha sido a partir de 2016 cuando está empezando dar resultados que la están catapultando. Algo similar ocurre con el IoT; aunque empezó a utilizarse en 1999, su uso y desarrollo masivo no se ha hecho hasta 2017.

¿Tendrá todo esto que ver con que el hecho de Big Data Bang se produjera en 2012?.

Pues lo cierto es que sí, y es que el desarrollo y maduración de las tecnologías Big Data ha permitido una mayor capacidad de almacenamiento de datos procedentes del IoT (y otras fuentes) y el procesamiento y análisis de estos para generar grandes conjuntos de información estructurada, que sirvan para entrenar los algoritmos y llevar la IA a unas metas no conseguidas hasta la fecha.

De hecho, estas sinergias existentes en el Big Data, el IoT y la IA, son la base para el desarrollo de los Smart Systems (Smart Cities, Smart Health, Smart Home, etc.) de los que tanto se habla actualmente y que dicen, serán el futuro de la humanidad.

MÁSTER EXPERTO BIG DATA ANALYTICS

En un artículo anterior describí el contexto en el que aparecieron las mejores prácticas ágiles, especialmente adecuadas para proyectos de Analítica, Big Data y Business Intelligence. Hoy voy a profundizar en las mismas.

Manifiesto Ágil

Es casi obligado empezar mencionando el manifiesto ágil, una lista de principios en los que se fundamenta Scrum, y otras muchas prácticas ligadas a la implementación de productos informáticos. Me gustaría resumir las ideas principales del manifiesto, y de la llamada gestión adaptativa frente a la predictiva:

La agilidad conlleva simplificar los procesos de gestión, especialmente el de cambios.

Como el valor para el negocio se habilita mediante entregas de producto, es necesario realizar entregas frecuentes e incrementales que reflejen los cambios solicitados lo antes posible. No puede existir burocracia en la gestión porque rompería con el ritmo de entregas. Por ejemplo, tardanza en la toma de decisiones. El objetivo es mantener un ritmo constante de entregas. Además el producto que se entrega tiene que estar listo para ser usado, en otro caso no computa como avance.

(Nota: No necesariamente cada entrega se pone a disposición del usuario, como sería un paso a producción, pero es un producto listo para el usuario en cuanto lo requiera).

El equipo técnico trabaja como un grupo cohesionado

También forma equipo con personal no técnico. Tiene la autoridad para decidir la mejor manera de implementar los productos. También para estimar tiempos de tareas y establecer cierta priorización de las mismas. Es fundamental observar determinadas normas de calidad de implementación, para que la evolución del software no se convierta en un problema, y no debería haber un jefe de proyecto externo quien viniera a establecerlas.

Tampoco esperemos que Scrum nos detalle normas de codificación, o cómo se tienen que probar o versionar los desarrollos, ni qué se considera un prototipo. Esto no forma parte de su ámbito (lo mismo que ocurre con el PMBOK). En general, se trata de buscar soluciones lo más sencillas posibles pero vigilando la calidad del producto en un sentido muy amplio.

Es conveniente reunirse presencialmente con frecuencia, tanto entre los miembros del equipo técnico, como con los usuarios, equipo de negocio, otros equipos técnicos, gestores, etc. Claro está que las reuniones igualmente deben ser ágiles, y nunca caer en “la parálisis por el análisis”.

Scrum

Scrum (marco de gestión y de trabajo en grupo) es el paradigma del manifiesto ágil. Viene a estructurar el mismo para poder pasar de la filosofía a la práctica. Scrum es relativamente sencillo de entender, pero se reconoce la gran dificultad de ponerlo en marcha en proyectos reales, a veces resulta utópico. El punto de partida para introducirse (y certificarse o trabajar dentro del marco) en Scrum es la guía de Scrum. Veamos lo fundamental:

Principios de Scrum

Scrum ha establecido principios coherentes con el manifiesto ágil, basados en el empirismo:

Transparencia:

Necesaria para trabajar en grupo de manera efectiva. En todo momento se puede conocer en qué tareas trabaja el equipo técnico, y qué falta para completarlas. Incluso se llega a definir cómo se sabe si están completas. Igualmente las personas de negocio tienen expectativas claras sobre qué es lo próximo a entregar en un determinado plazo, y si sus cambios están siendo atendidos o no.

Inspección:

Como un equipo tiene autoridad sobre la gestión, requiere que se autoevalúe como grupo con cierta frecuencia, siempre que no se convierta en algo burocrático (no se hace énfasis en la documentación). El ejemplo típico es saber si se están cumpliendo o no las entregas comprometidas, en un compromiso que el propio equipo ha adquirido.

Adaptación:

Si algo impide alcanzar los resultados previstos, lo que se habrá detectado en la inspección, hay que introducir cambios empíricos y ágiles en la manera de hacer las cosas. La novedad es que no existe un Project Manager que venga a imponer dichos cambios. En su lugar, emergen tres roles que se reparten la responsabilidad (equipos autoorganizados). Conjuntamente estos tres roles conforman el Scrum Team.

Roles de Scrum (Scrum team)

Development Team:

La autoridad técnica a la hora de construir productos y soluciones, una vez que ha entendido los aspectos, digamos, funcionales del producto. La responsabilidad es conjunta y no individual. En rigor no puede haber roles diferenciados como los administradores de bases de datos, equipos de test, etc., aunque luego cada miembro pueda desarrollar tareas especializadas. La idea es que la distribución de tareas la realice el propio equipo técnico internamente, pero lo que miden el resto de roles son las entregas de producto. Scrum reconoce que un equipo técnico con más de 9 personas es demasiado grande para este tipo de gestión.

Product Owner:

Responsable de priorizar las funcionalidades requeridas por el producto, para maximizar el valor para el negocio. Será por ejemplo quien vaya introduciendo los posibles cambios, y quien explique con suficiente detalle lo que se pide, para que el equipo técnico consiga entenderlo. Una vez que parte del producto está disponible, tiene autoridad para decidir si responde o no a lo solicitado. No obstante, si se trata de cambios, no los hace pasar por incidencias de no conformidad. Aclaro que hablar de funcionalidades y de disconformidades no es ortodoxo en lenguaje Scrum, pero no quiero complicar este apartado ahora.

Scrum Master:

Como conocedor del marco, es un facilitador para el resto de roles, asegurando que no se pierden los beneficios de Scrum por malas interpretaciones. También se puede ver como un formador cuando trata con equipos con poca experiencia, ya que Scrum utiliza sus propios artefactos y eventos. Suele estar presente en las reuniones periódicas que requieren la inspección y la adaptación. No obstante, su rol no es tomar decisiones como asignar tareas a individuos, priorizarlas, probar el producto, etc. En su lugar, ayuda a buscar el consenso cuando existen discrepancias entre individuos. Dentro de su autoridad se encuentra el decidir si se está o no siguiendo el proceso completo de Scrum.

Mi enfoque particular

Podemos observar que un Scrum Master responde al concepto de “coach”, tan extendido en el mundo empresarial. Sin embargo, debemos huir de quien prometa resultados a muy corto plazo. Tampoco es lo mismo agilidad que rapidez, ya que los equipos invierten cierto tiempo en procesos empíricos de mejora continua. Introducir un cambio cultural paulatino requiere personas con amplia experiencia empresarial, acostumbrados al trabajo en grupo y que procuran flexibilizar los marcos de gestión. Saben cómo no caer en el dogmatismo, a la vez que establecen cierta exigencia formal, lo que siempre se ha llamado “tener mano izquierda”.

En este punto tengo que parafrasear a Groucho Marx: “Estos son mis principios ágiles. Pero, si no le gustan, aquí tengo otros”. Sé que los puristas de Scrum no van a quedar muy contentos, pero yo creo que el empirismo obliga a realizar adaptaciones de Scrum, no todas ellas amparadas por la Guía de Scrum. Esto es lo que se conoce como “ScrumBut”, y reconozco que lo hago cuando lo creo oportuno. Sin ir más lejos, las diferencias entre un proyecto de Data Science de carácter experimental, frente a la implementación de un ERP, ya obliga a ciertas adaptaciones del marco.

Como veis, cualquier marco de gestión o metodología no están exentos de polémica, y en diferentes empresas se aplican de manera dispar. Espero poder escribir sobre ello en futuros artículos. No obstante, en el próximo comentaré sobre las diferentes reuniones y artefactos de Scrum, para completar la visión general.

José Julio López, Business Intelligence, Data Science, IT Project Manager. SCRUM Master, PMP y antiguo alumno del máster de Big Data Analytics de datahack.

Una vez tenemos claro qué podemos hacer conectando twitter y R y cómo hacerlo, además de algunas de las funciones más importantes, es el momento de comenzar nuestro análisis. El análisis de datos de twitter con R seguidores te ofrece la posibilidad de extraer más información sobre tus seguidores.

SEGMENTANDO A MIS SEGUIDORES

Una vez que hemos sacado los seguidores de un usuario con la función getfollowers que comenté en el artículo anterior, podemos hacer una segmentación por idioma, localización, nivel de influencia… El análisis de datos de twitter con R seguidores es clave para conocer más sobre los perfiles

CÓMO SE AUTODEFINEN MIS SEGUIDORES

La descripción de cada usuario en twitter es, obligatoriamente, corta. Esto le obliga a seleccionar muy bien el texto para autodefinirse de la forma más precisa. Así pues, hacer un análisis de esos textos nos ayudará a segmentarlos cualitativamente, aparte de las obvias segmentaciones más clásicas. Para ver las palabras más repetidas mediante una nube de palabras, debemos instalar y llamar las librerías wordcloud y RColorBrewer, además de las que mencioné en el artículo anterior. El análisis de datos de twitter con R seguidores es una serie de artículos.

Lo primero que debemos hacer es conectar con la API de twitter, cargar todas las librerías, sacar la información del usuario cuyos seguidores queremos analizar, conseguir sus seguidores y convertirlo todo en un dataframe (el código está en el artículo anterior). Para este ejemplo, usaremos un dataframe llamado seguidores

#convertimos la descripción de esos seguidores en un String. 
texto2 <- toString(seguidores$description)
#El texto lo transformamos en una lista separada por espacios
texto_split2 = strsplit(texto2, split=" ")
#Deshacemos esa lista y tenemos el data.frame
texto_col2 = as.character(unlist(texto_split2))
texto_col2 = data.frame(toupper(texto_col2))
names(texto_col2) = c("V1")
#Eliminamos algunos caracteres regulares
texto_col2$V1 = gsub("([[:space:]])","",texto_col2$V1)
texto_col2$V1 = gsub("([[:digit:]])","",texto_col2$V1)
texto_col2$V1 = gsub("([[:punct:]])","",texto_col2$V1)
#Creamos una variable longitud de la palabra
texto_col2$largo = nchar(texto_col2$V1)
#Quitamos palabras cortas (también hay funciones que permiten quitar palabras comunes como de, en, para...)
texto_col2 = subset(texto_col2,largo>4 & largo<=10)
#crear dataframe
palabras_seguidores = data.frame(table(texto_col2$V1))
#Ordenamos
palabras_seguidores_f<-filter(palabras_seguidores, palabras_seguidores[["Freq"]]>3)
arrange(palabras_seguidores_f, desc(palabras_seguidores_f[["Freq"]]))
#Hacemos la nube de palabras
wordcloud(words = palabras_seguidores_f$Var1, freq = palabras_seguidores_f$Freq, min.freq = 1, max.words=200, random.order=FALSE, rot.per=0.35,colors=brewer.pal(8, "Dark2"))

De esta forma, tendremos una tabla ordenada con las palabras más frecuentes y una nube de palabras que nos permitirá ver los resultados de una forma más sencilla y bonita. Por ejemplo, si lo hacemos con los seguidores de la academia digital para personas con discapacidad de Fundación ONCE, cuyos cursos hemos llevado a cabo, veremos algo parecido a esto:

Como veis, de un solo vistazo vemos qué intereses tienen nuestros seguidores (o los seguidores de cualquiera) por orden de importancia, lo que nos da mucha información sobre ellos.

Optimizando followbacks

A la hora de crear una estrategia de followbacks efectiva no tenemos que perder el tiempo siguiendo a todo el que sigue a nuestra competencia para que nos siga de vuelta. Lo que debemos hacer es dirigirnos directamente a la gente que tiene potencial interés en nuestro tema, segmentada por lenguaje o localización y que además no sea de los que basan completamente en el followback su estrategia de crecimiento en redes sociales.

Para ello, podemos crear una columna nueva con la diferencia de seguidores y seguidos filtrando luego las filas con las características que nos interesan:

#creamos una columna nueva con la diferencia de seguidores y seguidos
followbackseguidores<-mutate(seguidores, DiferenciaSeguidos = followersCount-friendsCount)
#nos quedamos solo con las filas que tienen parámetros que nos interesan, en este caso lenguaje inglés con más seguidores que seguidos
followback1<-filter(followbackseguidores, lang=="en", DiferenciaSeguidos==TRUE)

Podemos incluso hilar más fino y quedarnos solo con los que en su descripción contienen ciertas palabras. análisis de datos de twitter con R seguidores

value <- "palabraquequieres"
followback2<-transmute(followback1, screenName, description, lang, DiferenciaSeguidos, contieneBD=grepl(value, followback1$description))
followback3<-followback2[followback2$contieneBD==TRUE,]

¿QUIERES APLICAR TODO ESTE CONOCIMIENTO? COMIENZA A A PROGRAMAR EN R

En nuestro curso de Análisis de datos con R aprenderás de forma rápida a utilizar este lenguaje.

El Big Data Congress de Barcelona

Como el año pasado, estaremos en nuestro stand para informarte y resolver todas tus dudas el 24 y 25 de octubre. Además, Rubén Martínez, de nuestro departamento de labs, nos mostrará un ejemplo de aplicación práctica de Deep Learning para resolver un problema de aprendizaje incremental de reconocimiento facial empleando Tensorflow. ¡Puedes apuntarte ya en el mismo formulario de inscripción al evento!

El Big Data Spain en Madrid

Una vez más, repetimos como patrocinadores en el Big Data Spain, donde tendremos nuestro stand los días 14 y 15 de noviembre. Rubén también dará una charla en este evento, pero todavía no nos han confirmado fechas y hora, ¡te mantendremos informado!

MÁSTER EXPERTO BIG DATA ANALYTICS

Últimamente, no es raro que encontremos los términos Big Data y Business Intelligence juntos o usados de forma indistinta. No obstante, aunque ambos términos hacen referencia al uso de información por parte de las organizaciones para obtener ventajas competitivas, tienen grandes diferencias. Se puede decir que, más que iguales, son complementarias.

Pero, antes de entrar en ellas, hagamos una pequeña definición de ambos conceptos. El Big Data ya lo dejé definido cuando hablamos de sus cinco v’s. El Business Intelligence, por su parte, es la disciplina que ayuda a las empresas, mediante el análisis de datos, a sacar información relevante para que ayude en la toma de decisiones.

Principales diferencias entre el Big Data y el Business Intelligence

	Big Data	Business intelligence
Almacenamiento	Sistema de ficheros distribuido	Sistema de ficheros centralizado
Datos analizados	Pueden ser estructurados y no estructurados	Solo pueden ser estructurados
Tipo de información	Puede ser histórica o en tiempo real	Solo puede ser histórica
Relación Función- datos	De las funciones de proceso a los datos	De los datos a las funciones
Procesamiento Paralelo Masivo	Sí (más velocidad e instrucciones simultáneas)	No
Fuentes de recogida	Múltiples	Escasas
Volumen de datos	Mayor que el Business intelligence	Grande
Origen de los datos	Externo e interno	Interno
Orientado a…	Innovación y descubrimiento	Consultas y respuestas
Usuarios	Personal técnico especializado	Todos los usuarios de negocio

MÁSTER EXPERTO BIG DATA ANALYTICS

El pasado día 27 de febrero, nuestra escuela de Madrid albergó la charla Big Data para Dummies. En ella, Lourdes Hernández hizo una introducción al fascinante mundo de la ciencia de los datos.

Qué es Big Data y para qué sirve

Tras una breve introducción explicando qué es el Big data, comenzó a mostrarnos por qué utilizarlo y todas las posibilidades que ofrece para ayudarnos a crecer:

mejor conocimiento del cliente para su mejor captación y retención
apoyo en la toma de decisiones
optimización de los procesos de negocio...
e incluso la posibilidad de crear nuevos modelos de negocio.

Todo ello quedó ilustrado con numerosos ejemplos y casos de éxito antes de pasar a la siguiente gran parte de la charla:

Machine learning y otras palabras imprescindibles en Big Data

En esta parte se mostraron los tipos de aprendizaje de las máquinas (supervisado o no supervisado), se explicó qué son los clusters, las regresiones, los árboles de decisión... Tras ello, se nos explicaron brevemente conceptos como Hadoop, Spark, NoSQL o marchine learning.

Finalmente, se resolvieron todas las dudas de los asistentes, muchos de los cuales salieron de lo más animados para profundizar en el Big data.

MÁSTER EXPERTO BIG DATA ANALYTICS

Acompañamos al alumno

Una de las características esenciales de nuestra escuela y del máster de Big Data y Analytics es que acompañamos al alumno en todo el proceso: desde el asesoramiento inicial hasta la inserción laboral. Para ello, ofrecemos a nuestros alumnos la posibilidad de asistir a las charlas de orientación laboral para profesionales del big data impartidas por nuestra experta en recursos humanos, Paloma Romero.

El objetivo de estas charlas es optimizar los currículum de los alumnos y los perfiles en redes para ser más “visibles” y pasar los primeros filtros de selección, pues esta parte es clave para conseguir llegar a la ronda de entrevistas.

La última fue el pasado día 23, donde Paloma explicó a nuestros alumnos, de una forma práctica y resolviendo todas las dudas, cómo afrontan los responsables de selección la búsqueda de profesionales de big data. Una búsqueda para la que, en muchos casos, el profesional de RRHH no tiene conocimientos técnicos suficientes: por poner un ejemplo, ¿sabrías enumerar los programas que se utilizan en big data y distinguirlos de una lista de pokemons?

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/