Viernes, 26 junio 2020

Las tres V del Big Data: todo un reto por su volumen, variedad y velocidad

Las tres V del Big Data se refiere a los siguientes términos: volumen, variedad y velocidad, que son las tres características o magnitudes que lo definen, además de sus principales retos. El Big Data se refiere a volúmenes tan grandes de datos que no pueden ser accedidos, almacenarse ni procesarse en una única máquina, por lo que requieren de sistemas específicos para ello. ¿Quieres saber más sobre las 3 V del Big Data? En UNIR abordamos las tres magnitudes fundamentales en el procesamiento de datos.

Volumen

Hace referencia a la cantidad de datos del Big Data, que se generan y recopilan constantemente. Se estima que en el año 2020 se hayan superado ampliamente los 25 mil millones de endpoints conectados a Internet, alcanzando unos 40 billones de GB de datos, un volumen inmenso cuya gestión y análisis es todo un reto.

El Big Data en las organizaciones no solo está conformado por los datos internos creados por la organización, sino que a menudo se necesita de datos externos a la misma, que provienen de redes sociales, de interacciones con los clientes, datos que se generan automáticamente durante los procesos de negocio (como por ejemplo el e-commerce).

El principal reto de las soluciones de Big Data es el almacenamiento y procesamiento de una grandísima cantidad de datos que supera ampliamente las capacidades de los equipos y sistemas tradicionales.

 

Variedad

Los datos del Big Data no son homogéneos, esto es, no tienen una única característica común a todos ellos que permita procesarlos a todos de la misma manera y en una única iteración. Los datos son muy diversos ya que provienen de distintos orígenes o fuentes (archivos, bases de datos, sensores, webs…), son de distintos tipos (texto, numéricos, imágenes…) y tienen distintos formatos (timestamp, fecha…).

Además, los datos pueden ser estructurados (estructura definida perfectamente por su formato, tipo y tamaño como por ejemplo los de las BBDD relacionales), semiestructurados (su estructura no está estrictamente definida pero sí están organizados, como por ejemplo XML, JSON, HTML…) o no estructurados (sin formato específico, como documentos de Word, PDFs…).

Todas estas particularidades es lo que se conoce como variedad de los datos y es una de las características fundamentales que deben tener los sistemas de procesamiento del Big Data: deben ser capaces de procesar datos de diversas formas, tipos y fuentes.

 

Velocidad

Continuamente se están generando datos, por lo que las plataformas de Big Data deben ser capaces de acceder a ellos, almacenarlos y tratarlos para que las organizaciones puedan tomar mejores decisiones basadas en la información que aportan. Por lo tanto, la velocidad se refiere a la rapidez con que los datos son creados, accedidos, almacenados y procesados. Además, en los casos en los que el tiempo es una variable fundamental, como por ejemplo la detección de un fraude, la monitorización de eventos en sistemas para detección de incidentes, etc. los sistemas deben ser capaces de acceder, almacenar y procesar los flujos de datos en tiempo real.

 

Otras 5 V en Big Data que no debes perder de vista

En los últimos tiempos se habla de otras V importantes del Big Data como son:

– Veracidad: los datos son fiables y adecuados para los propósitos de análisis y necesidades de las organizaciones.

– Volatilidad: el período de tiempo en el que los datos son válidos y deben ser retenidos o almacenados.

– Valor: información de valor para la organización que se puede obtener de los datos.

– Viabilidad: capacidad de las organizaciones para hacer un uso eficaz de los datos y transformarlos en información que les aporte valor.

– Visualización: el modo en el que la información de valor obtenida de los datos es presentada.

Cada vez son más las empresas y organismos que asumen la importancia del Big Data. Sin embargo, el volumen, variedad y velocidad de los datos es tan amplio que es fundamental contar con herramientas y profesionales especializados para saber manejar y quitar rendimiento a esa información.