Definición de Velocidad en Big Data

 

Las 3 V’s de Big Data son Volumen, Velocidad y Variedad. El concepto de Velocidad es fácil de entender. Sin embargo, es importante tener muy claro a qué nos referimos exactamente en términos de Big Data.

¿De qué Velocidad hablamos en un entorno de Big Data? ¿Cuál es la Velocidad que nos lleva a la utilización de Big Data por la imposibilidad de obtener respuestas analíticas con una solución tradicional?

 

¿Velocidad de qué?

Para determinar si existe Velocidad es importante saber el ámbito al que nos referimos.

Existen dos conceptos de Velocidad que acompañan a la generación, proceso, almacenamiento y análisis de datos. Éstos son:

  • Velocidad en la generación de datos
  • Velocidad como urgencia del análisis de datos

Velocidad en la generación de datos

Los datos a analizar son generados por los sistemas origen. La manera cómo los datos son generados depende de la naturaleza del sistema origen.

Por ejemplo, si un sistema genera datos a partir de su introducción por parte de una persona mediante una interfaz, la velocidad de generación será relativamente lenta. En cambio, si los datos se generan automáticamente, mediante mediciones realizadas por sensores, por poner un ejemplo, la velocidad de generación de datos puede ser muy elevada.

En una solución de Business Intelligence (BI) tradicional, partimos de la base de que los datos se procesan mediante cargas de datos (batch). Estas cargas obtienen los datos acumulados desde la última carga y los procesan, almacenándolos en el repositorio de datos (típicamente un Data Warehouse).

La idea de que una generación de datos a una gran velocidad no puede ser procesada por un BI tradicional es cierta hasta cierto punto. Veamos un ejemplo.

Para un experimento científico, medimos la temperatura en el interior de un espacio cerrado mediante un sensor de temperatura. Este sensor es capaz de medir la temperatura cada microsegundo (μs). Es decir, es capaz de efectuar 1 millón de medidas por segundo. En nuestro caso, si el experimento se alarga durante 1 hora, el número de registros de temperatura generados será de 3.600 millones.

En este caso, la velocidad de generación de datos es elevada, así como el volumen de datos, debido a la larga duración del experimento.

En cambio, si el experimento dura tan solo 10 milisegundo (10 ms), el número de registros generados será tan solo de 10.000, un volumen que no puede considerarse elevado.

Y ahora la gran pregunta que debemos hacernos a la hora de evaluar Big Data como la solución a seguir en un proyecto analítico: ¿Puede una solución de BI tradicional tratar los datos generados en ese experimento?

La respuesta depende del análisis que vayamos a hacer con esos datos. Si los datos deben ser analizados a posteriori, un BI tradicional será capaz de procesar esos datos y proporcionar un análisis para la toma de decisiones. De hecho, incluso con un experimento de 1 hora, si los datos son analizados después del experimento, un BI tradicional podría procesar esos datos en una carga y almacenarlos en el repositorio.

Hasta en una generación constante de datos, los datos pueden cargarse en un repositorio para su análisis posterior. En ese caso, el problema que aparecería sería el del volumen, pero eso lo veremos en otro artículo.

Velocidad como urgencia del análisis de datos

¿Pero qué sucede cuando necesitamos analizar los datos en tiempo real?

En este caso, incluso con un volumen de datos pequeño, como los 10.000 registros del experimento de 10 ms, un BI tradicional no sería capaz de proporcionar una solución a este requerimiento.

Es posible que necesitemos analizar las medidas de temperatura de nuestro experimento para detectar patrones que puedan indicar un posible fallo en el sistema, y que éste implique el inmediato aborto del experimento para no dañar los componentes utilizados. En este caso, es necesario procesar los datos a medida que son generados para poder anticipar la toma de decisión tanto como sea posible.

La arquitectura de un BI tradicional, incluso con una arquitectura Lambda no es capaz de ofrecer análisis en tiempo real. Por tanto, es necesario el uso de tecnología Big Data para poder dar respuesta a esta necesidad.

Conclusión

La Velocidad puede entenderse como la rapidez en la generación de datos y como la urgencia en el análisis de la información.

Generar datos velozmente no es, en sí misma, una razón para el uso de Big Data en una solución analítica, aunque puede ser la causa de un gran volumen, que podría justificar el uso de Big Data.

En cambio, la velocidad entendida como la necesidad de procesar datos con urgencia, para su análisis en tiempo real (o casi real), sí que justifica el uso de Big Data, puesto que un BI tradicional no es capaz de procesar datos con esa velocidad.