Cuando se pregunta a los expertos sobre el Big Data, son muchas las definiciones que surgen, lo cual puede llevar a confusión. No obstante, hay un cierto consenso en sus cinco características principales, que curiosamente empiezan todas por “v”. En principio eran solo tres (volumen, velocidad y variedad), que se refieren las características de los datos, pero poco a poco se han ido añadiendo dos más (veracidad y valor), que engloban lo que se debe hacer con esos datos.

CARACTERÍSTICAS DE LOS DATOS EN BIG DATA

Volumen

Se  trabaja con ingentes cantidades de datos, estructurados pero sobre todo desestructurados, procedentes de distintas fuentes. Los datos son tantos que resulta difícil su almacenamiento y análisis, suponiendo retos técnicos y analíticos

Velocidad (y volatilidad)

Los datos se generan con cada vez mayor rapidez, exigiendo una respuesta veloz porque también quedan obsoletos pronto. Esto requiere tiempos de recopilación, procesamiento, análisis y gestión de la información cortos, a veces incluso en el mismo momento.

Variedad

Los datos recibidos son diversos (algunos estructurados, otros no), procediendo de diversas fuentes, herramientas y plataformas. Además, muchas veces están en varios formatos, lo que aumenta la complejidad tanto en su almacenamiento como en su procesamiento y análisis. Esto es porque lo habitual es que cada tipo de información se trate de manera distinta, mediante herramientas específicas, en especial en los datos desestructurados.

LO QUE SE DEBE HACER CON LOS DATOS EN BIG DATA

Veracidad

El grado de confianza en los datos debe ser alto, con resultados de calidad y verificables. Hay que tener en cuenta muchos de los datos llegan incompletos, por lo que deben ser limpiados y analizados.  Para ello, se hace necesario invertir tiempo y dinero para conseguir datos de calidad o para aplicar soluciones y métodos capaces de eliminar al máximo los errores en los que tenemos.

Valor

Los datos generados, una vez procesados y convertidos en información, deben ser útiles y tener un valor real, tanto más si tenemos en cuenta la inversión necesaria para recopilarlos y procesarlos. Para tener valor, tienen que ser accionables, es decir, deben ayudarnos a tomar una decisión en base a ellos.

Cómo conseguir veracidad y valor en los datos

Para conseguir recopilar, limpiar, procesar, analizar y visualizar grandes cantidades de datos, muchas veces desectructurados, necesitamos conocer y dominar una larga lista de herramientas. Python, R, Hadoop, Spark… son herramientas y lenguajes imprescindibles para lograr sacar la máxima veracidad y valor de nuestros datos. En el master Big Data & Analytics aprenderás a dominar las principales herramientas del mercado de forma 100% práctica y de la mano de profesionales que trabajan en el sector.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Ya habrás oído hablar de las 3 y 5' Vs del Big Data, pero, ¿qué sabes de las restantes? En este artículo te contaremos todo sobre sus 10 propiedades más importantes.

Las 10 v's del Big Data. 1 - Volumen

El volumen es la cantidad masiva de datos que se generan cada segundo, minuto, hora o cualquier otra cifra de tiempo estimada. Han de ser grandes cifras de datos para considerarse Big Data. Por ejemplo, Youtube almacena 18.000 segundos de vídeo por minuto de sus usuarios.

Las 10 v's del Big Data. 2 - Velocidad

La velocidad a la que se generan o actualizan los datos. Un ejemplo de ello es Google, que procesa unas " 40,000 consultas de búsqueda por segundo ", lo que se traduce apróximadamente en más de 3,5 mil millones de búsquedas por día.

Las 10 v's del Big Data. 3 - Variedad

Cuando se trata de Big Data, no solo tenemos que manejar datos estructurados, sino también semiestructurados y principalmente no estructurados. Desde archivos de audio, imagen, video, actualizaciones de redes sociales y otros formatos de texto, hasta archivos de registro, datos de clics, de máquinas y sensores, etc.

Las 10 v's del Big Data. 4 - Variabilidad

La variabilidad en el contexto de big data tiene dos significados:
Uno es el número de inconsistencias en los datos. Estos deben ser encontrados por métodos de detección de anomalías y valores atípicos para que ocurra cualquier análisis significativo.
Otro es la multitud de dimensiones de datos que resultan de múltiples tipos y fuentes de datos dispares. La variabilidad también puede referirse a la velocidad inconsistente a la que se cargan grandes datos en bases de datos.

Las 10 v's del Big Data. 5 - Veracidad

La veracidad se refiere a la procedencia o confiabilidad de la fuente de datos, su contexto y cuán significativo es para el análisis basado en ella. A medida que aumentan algunas o todas las propiedades anteriores la veracidad disminuye.

Ejemplo: imagine un conjunto de datos estadísticos sobre lo que la gente compra en los restaurantes y los precios de estos artículos en los últimos cinco años. Puede preguntar: ¿Quién creó la fuente? ¿Qué metodología siguieron para recopilar los datos? ¿Solo se incluyeron ciertas cocinas o ciertos tipos de restaurantes? ¿Los creadores de datos resumieron la información? ¿Esta ha sido editada o modificada por alguien más?

Las 10 v's del Big Data. 6 - Validez

Se refiere a la limpieza que tienen los datos, a cuán precisos y correctos son para su uso. El beneficio del análisis de Big Data es tan bueno como sus datos subyacentes, por lo que se deben adoptar buenas prácticas de gobernanza de datos para garantizar una calidad de datos coherente, definiciones comunes y metadatos.

Las 10 v's del Big Data. 7 - Vulnerabilidad

Toda preocupación de seguridad respecto a los datos. Se han dado muchos casos de hackeo y violación de macrodatos para posteriores actividades ilegales.

Las 10 v's del Big Data. 8 - Volatilidad

O el tiempo que deben conservarse los datos. Antes del Big Data, se tendía a almacenar datos indefinidamente debido a que a su pequeño volumen apenas suponía gastos. Incluso podía mantenerse en la base de datos en vivo sin causar problemas de rendimiento.

Sin embargo, debido a la velocidad y el volumen de los macrodatos, su volatilidad debe considerarse cuidadosamente. Ahora hay que establecer reglas para la disponibilidad y la vigencia de estos datos, así como para garantizar una recuperación rápida de la información cuando sea necesario.

Las 10 v's del Big Data. 9 - Visualización

Otra característica de los grandes datos es la complejidad para visualizarlos. No se puede confiar en los gráficos tradicionales para trazar un billón de puntos de datos, por ejemplo, por lo que son necesarias diferentes formas de representarlos, como la agrupación o el uso de mapas, las coordenadas, los diagramas, etc.

Las 10 v's del Big Data. 10 - Valor

Por último y posiblemente el más importante de todos. Las otras características no tienen sentido si no se obtiene un valor, como puede ser: comprender mejor a los clientes, optimizar procesos, mejorar el rendimiento, …

Conclusión

Por lo que, cada vez más se la da el valor al poder del dato, cada vez se sabe más sobre los datos y cada vez más está creciendo la importancia de la gestión de los datos dentro de las empresas.

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master Experto Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

chevron-down