¿Qué es la computación distribuida de Big Data?

 

 

Las tres características principales de los datos que hacen necesario aplicar técnicas de Big Data en un proyecto de análisis de datos son: Grandes volúmenes de datos, la necesidad de procesar esos datos de manera rápida, y el uso de tipos de datos complejos.

En cualquier caso, eso se traduce en la necesidad de una gran capacidad computacional, para así poder satisfacer los requerimientos analíticos de los usuarios.

Un gran problema

El hecho de trabajar con grandes volúmenes de datos, de tener que procesar un conjunto de datos a una gran velocidad o de tratar con tipos de datos complejos que requieren de cálculos intensivos para poder obtener información de éstos, supone una dificultad que Big Data debe resolver.

En una solución de Business Intelligence (BI) tradicional, se trabaja en la gran mayoría de casos con una arquitectura basada en un único servidor. Este servidor, a pesar de poder ser multi-core, no puede paralelizar una tarea a alto nivel, con lo que debe asumir toda la carga computacional. El resultado es la ejecución de largos procesos para resolver cálculos analíticos o simplemente para procesar los datos que van llegando al sistema analítico.

Computación distribuida

En cambio, Big Data se basa en el paradigma de la computación distribuida. Es decir, existe una red computacional (llamada cluster), formada por un conjunto de ordenadores (llamados nodos), que trabajan de manera organizada y colaborativa para resolver el mismo problema.

El proceso es el siguiente: Cuando una tarea llega al cluster de Big Data, ésta se descompone en un conjunto de subtareas, que son asignadas a los distintos nodos del cluster. Los nodos trabajan entonces en paralelo (a la vez) en cada una de sus tareas, con lo que el tiempo de cálculo del conjunto de tareas se ve reducido considerablemente. Finalmente, es necesario un post-proceso para consolidar los datos antes de ofrecer el resultado a los usuarios.

En resumen, podemos decir que la computación distribuida añade un par de tareas al cálculo propiamente dicho (descomposición de la tarea principal y asignación de tareas a los nodos por una parte, y consolidación de los resultados por otra). Sin embargo, el hecho de disponer de una red de nodos trabajando en paralelo permite acelerar el tiempo de proceso total de la tarea hasta el punto que, a pesar de tener que realizar un trabajo adicional, la computación distribuida es más eficiente en procesos de cálculos repetitivos y con muchos datos.

Divide y vencerás

La frase “Divide y vencerás” ha sido pronunciada o atribuida a lo largo de los siglos por grandes figuras que han influido en la historia de la humanidad. Desde Filipo II de Macedonia hasta Napoleón Bonaparte, pasando por Julio César y Nicolas Maquiavelo, todos han reconocido la importancia de este mensaje.

Esta máxima sostiene que, ante un problema de gran tamaño con una solución complicada, conviene dividir el problema inicial en subproblemas de más fácil solución, para así poder resolver el problema inicial de una manera más sencilla y eficiente.

En el área de la computación, ocurre lo mismo. Como ejemplo, citaré un clásico: El algoritmo de ordenación Quicksort. Este algoritmo permite reducir el coste del algoritmo de ordenación de burbuja (uso de la fuerza bruta), siendo este θ(n²), hasta θ(n·log ⁡n ).

De manera similar, en procesos de cálculo repetitivos con grandes volúmenes de datos, como los que nos encontramos en escenarios con Big Data, el uso de los distintos nodos del cluster para paralelizar las tareas, supone un gran aumento en la eficiencia.

Conclusión

La distribución de la carga de trabajo entre los distintos nodos de un cluster en una solución Big Data, permite realizar las tareas en paralelo, consiguiendo grandes mejoras en la eficiencia de los procesos.

La computación distribuida es más eficiente en escenarios con unos cálculos a realizar sobre un gran conjunto de datos. De esta manera se paraleliza el trabajo y se reduce el tiempo total de cálculo.

A la hora de diseñar la arquitectura de un sistema Big Data, es conveniente tener en cuenta el grado de paralelización de las tareas, que será función del número de procesadores y cores disponibles en el sistema. Si el grado de paralelización es bajo, el rendimiento en según qué tareas, puede acabar siendo también muy bajo.

Elegir una herramienta de BI

 

 

Para realizar una tarea, es necesario disponer de las herramientas adecuadas. Con un proyecto de Business Intelligence (BI) sucede lo mismo.

En este caso, es muy importante saber qué debe hacer nuestra solución de BI, ya que hay una gran variedad de herramientas en el mercado. Y solamente con un previo análisis de los requerimientos, seremos capaces de elegir la herramienta que más nos convenga.

 

Ecosistema tecnológico

Las herramientas de BI pueden ser clasificadas en tres grandes bloques:

  • Sistemas de almacenamiento de datos (bases de datos)
  • Herramientas de extracción, transformación y carga de datos (ETL)
  • Aplicaciones de modelización y visualización de los datos

En cada uno de estos tres bloques podemos encontrar una gran variedad de productos de diferentes fabricantes o de comunidades de desarrolladores, de código abierto y bajo licenciamiento, y disponibles en varias plataformas.

Esta variedad conlleva una gran confusión a la hora de elegir las herramientas adecuadas para cada proyecto.

Un mal enfoque

Por desgracia, continúan produciéndose en las organizaciones errores básicos a la hora de elegir la tecnología de una solución de BI.

Básicamente, podemos reducir estos errores a dos escenarios:

  • Continuismo de la tecnología existente: Por ejemplo, cuando una empresa utiliza mayoritariamente software de una gran compañía, ésta puede disponer de software de BI, con lo cual hay una predisposición a elegir la solución tecnológica del mismo fabricante.
  • Aceptación de la tecnología propuesta por el proveedor de servicios: Por ejemplo, cuando se contrata una empresa para realizar un proyecto, si ésta propone un paquete de herramientas, es muy posible que se acabe utilizando ese paquete de software.

En ambos casos, si la decisión final tiene en cuenta alguno de estos dos motivos expuestos, otorgándoles un gran peso en la decisión final, el peso que puedan tener los requerimientos puede acabar reduciéndose hasta el punto de ser insignificante.

Ejemplo práctico

Hace muchos años, estuve trabajando en un proyecto en Londres donde sucedió precisamente esto. Cuando me incorporé al proyecto, éste se encontraba en fase de mantenimiento, con una tecnología consolidada. La solución de BI permitía el análisis de datos refrescados a partir de cargas diarias.

La tarea que me encomendaron fue la de crear un modelo de análisis paralelo para poder consultar la información en tiempo real, utilizando una herramienta que, aunque permitía esa opción, no era la idónea para este tipo de proyectos.

Cuando llegué al proyecto no sabía exactamente qué debía hacer. Pero cuando me dijeron cuál era mi tarea, entendí perfectamente porqué necesitaban un consultor. Replicar el modelo de negocio para el acceso a los datos en tiempo real era una tarea muy complicada, y nadie en el equipo del cliente tenía la capacidad técnica para llevarla a cabo.

El proyecto duró unos tres meses, incluyendo la documentación y el traspaso al equipo del cliente. He incluido éstas dos últimas tareas porque recuerdo que el coste de documentación y de traspaso fueron altos, puesto que tuve que explicar con todos los detalles cómo había implementado la solución, incluyendo partes conceptuales de BI y partes técnicas específicas de la herramienta.

Estoy plenamente convencido de que, con otra tecnología, el desarrollo del proyecto, la documentación y el traspaso hubieran tardado mucho menos, resultando más económico y fácil de mantener por parte del cliente. Sin embargo, al no dar suficiente peso a los requerimientos y sí al fabricante, cayeron en este error.

Conclusión

A la hora de elegir las herramientas con las que trabajar en una solución de BI, es muy importante tener en cuenta los requerimientos del proyecto, tanto a nivel funcional como técnico.

Si obviamos estos requerimientos y basamos la decisión en otros factores, es probable que nos encontremos con un software que nos plantee dificultades a la hora de implementar la solución deseada. Es incluso posible que, por limitaciones de la herramienta, debamos reducir los requerimientos.

Mi recomendación a la hora de elegir el software con el que vamos a implementar nuestra solución de BI, es que tengamos en cuenta los requerimientos, teniendo en cuenta aquellas tareas a realizar tanto a corto como medio y largo plazo. Solamente de esta manera, evitaremos sorpresas desagradables con la tecnología elegida.

Democratización de la información

 

 

Permitir el acceso a la información a todos los empleados de una organización es lo que se conoce como “democratización de la información”.

Esta es una práctica que, según mi experiencia, goza de pocos adeptos, a pesar de aportar grandes beneficios a las organizaciones que la ponen en práctica. ¿Qué frena entonces a las organizaciones a abrirse a compartir información entre sus empleados?

Restringiendo el acceso a la información

Como consultor de Business Intelligence (BI), he tenido la suerte de poder trabajar para un gran número de organizaciones, todas ellas con sus propias particularidades. Si bien algunas de ellas (pocas), abogaban por una política de apertura a sus empleados con respecto a la propagación de información, la gran mayoría tenían políticas restrictivas.

Cabe decir que, la democratización de la información tiene un límite. Existen datos sensible que no deben ser visibles más que a un grupo reducido de empleados. Estas restricciones siempre deben estar por encima de la democratización del acceso a los datos.

Algunos de los motivos eximidos por algunas de estas organizaciones son:

  • Los empleados no necesitan esta información para realizar su trabajo.
  • Los empleados no están capacitados para entender esta información o interpretarla de manera correcta.
  • No tenemos una solución tecnológica que nos permita analizar la información y distribuirla de manera efectiva.

Mi tesoro…

Pero la democratización de la información no se centra solamente en proporcionar acceso a todos los empleados a la información. Hay otro nivel de compartición de información sobre el cual es muy importante poner la atención: El nivel interdepartamental.

Este caso se suele dar cuando no hay un gobierno fuerte de la información en una organización. En un escenario así, es habitual que no exista una solución corporativa para el análisis de información (una solución de BI). En este caso, suelen ser los propios departamentos quienes, impulsados por la necesidad de obtener respuestas para poder tomar decisiones, recurren a la creación de soluciones analíticas departamentales.

La situación habitual es que cuando un departamento decide crear su propia solución de BI, lo haga con cierta independencia del resto de departamentos, incluido el de IT. Esto implica que el conocimiento se acumule en cada uno de los grupos departamentales, que posiblemente usen tecnologías diferentes, y que se tienda a proteger su inversión con cierto recelo.

¿Porqué debería un departamento compartir información con otro departamento? Al hacer esto, los costes de explotación de la información van directamente al departamento propietario de la solución analítica, mientras que el beneficio va para el departamento que realiza la petición de información. ¿Qué va a obtener a cambio?

Además, la verdad sea dicha, pueden existir tensiones políticas* entre departamentos, lo que influye en la no predisposición a ceder información. Como consultor, siempre me dijeron que no se podía hablar de conflictos políticos en un cliente. Pero la realidad es que es una situación que se da en muchas organizaciones y es un motivo muy importante para la no compartición de datos a nivel interdepartamental.

Es un hecho probado que la cooperación entre departamentos y el acceso a información de otras áreas de la empresa, aumenta la efectividad de una organización. Pongamos, por ejemplo, una organización que desea tener una visión de 360° de sus clientes. Es posible hacerlo solamente con los datos recabados por un departamento o área de negocio? Ciertamente no. Para ello, necesitamos información de:

  • Captación del cliente
  • Ventas
  • Marketing
  • Atención al cliente
  • Distribución

Sin la cooperación de todas las partes implicadas, no podríamos tener una visión completa de la realidad que afecta a nuestros clientes. Y sin esta visión, no se pueden tomar decisiones de manera informada.

Beneficios de la democratización de la información

Algunos de los beneficios de permitir el acceso a la información de una organización, podemos enunciarlas a partir de las excusas citadas anteriormente. Éstas son:

  • Los empleados no necesitan esta información para realizar su trabajo. La información no hará que realicen sus tareas peor. En todo caso, si la información es irrelevante, la descartarán y seguirán realizando sus tareas sin tenerla en cuenta. Pero podría ser que esa información les proporcione algo para mejorar sus procesos, ser más eficientes y más productivos.
  • Los empleados no están capacitados para entender esta información o interpretarla de manera correcta. Si el empleado no está capacitado para entender algo, quizá deberíamos capacitarlo. De esta manera podemos hacer que nuestros empleados crezcan y se sientan parte de la organización.
  • No tenemos una solución tecnológica que nos permita analizar la información y distribuirla de manera efectiva. Un proyecto de BI solventaría esta necesidad, permitiendo la compartición de información interdepartamental y el acceso a la información de todos los empleados.

Además, podemos citar otros beneficios, como por ejemplo:

  • A nivel estratégico y táctico, la compartición de información es clave para el buen gobierno de una organización y un área de negocio.
  • La transparencia aumenta la satisfacción de la plantilla. Los empleados prefieren tener acceso a la información (aunque no lo hagan efectivo) que la opacidad en su organización.
  • Acceder a información permite tener una visión más amplia de la realidad de una organización. A nivel de empleado, le permite entender mejor su rol dentro de la organización y las implicaciones de su trabajo.
  • Tener una visión más amplia puede hacer que afloren ideas para mejorar procesos dependientes entre diferentes áreas de negocio. Éstas ideas pueden tener su origen en los empleados, que son los que viven los procesos operacionales día tras día.

Finalmente, me gustaría lanzar un par de preguntas al aire para la reflexión: ¿Qué beneficios podría aportar a una organización abrir el acceso a su información a sus clientes, proveedores, etc.? Por ejemplo, ¿sería un valor añadido para un cliente poder ver el estado de las ventas, pedidos, pagos, etc.?

Conclusión

Permitir el acceso a la información dentro de una organización es clave para mejorar los resultados de ésta, la satisfacción de sus empleados, su crecimiento, y la efectividad de los procesos internos.

Las soluciones analíticas departamentales, a pesar de ofrecer respuestas, no facilitan la compartición de información al mismo nivel que una solución corporativa.

Un gobierno fuerte del dato y la información corporativa es la base para para poder tener un sistema global de análisis de la información en una organización.

MS Excel como herramienta de BI

 

 

MS Excel es una herramienta muy versátil, útil e intuitiva. Además la curva de aprendizaje es muy rápida para funcionalidades simples, lo que permite obtener resultados de manera rápida.

Por estos motivos, es una de las herramientas informáticas más usadas en el mundo.

 

Las funcionalidades de MS Excel incluyen, entre otras:

  • La carga de datos externos.
  • La transformación de esos datos mediante fórmulas.
  • La visualización de datos en forma de tablas, tablas dinámicas y gráficos.

Es decir, MS Excel contiene los componentes básicos de un sistema de Business Intelligence (BI).

Esto explica porqué hay organizaciones que utilizan MS Excel como su herramienta de BI.

Hoy voy a exponer los 3 motivos principales por los cuales considero que BI no puede ser considerada una herramienta de BI:

  • La limitación en el número de filas
  • La carga y transformación de datos
  • El rendimiento

Limitación en el número de filas

El número de filas de una hoja (pestaña) de MS Excel es de 1.048.576 (220). Ahora estamos de suerte, puesto que en versiones anteriores a MS Excel 2007, esta limitación era tan solo de 65.536 filas (216).

En algunos entornos, este volumen de datos es suficiente. Si no se dispone de una gran cantidad de datos, MS Excel es capaz de acomodarlos en su poco más de un millón de filas por pestaña.

Sin embargo, esta situación podría no darse si la organización decide ampliar el objeto de su solución de BI. Quizá los nuevos procesos de negocio a analizar requieren el uso de más datos, con lo que chocaríamos con esta limitación.

En mi vida como consultor me he encontrado con clientes muy contentos con su solución de BI basada en MS Excel. Pero algunos de ellos no podían analizar todo su negocio porque algunas áreas de éste tenía demasiados datos, con lo cual tenían que pedir a IT una solución técnica cada vez que necesitaban sacar información de esas áreas de negocio. Esto implica la existencia de diferentes procesos de gestión de los datos y la imposibilidad de cruzar información de distintas áreas de negocio en una única solución de BI.

La conclusión es que la existencia de un número máximo de filas puede ser una limitación para el crecimiento de una solución de BI.

Y aún otra limitación para los que necesitan muchos datos: El número de columnas en una hoja de MS Excel es de 16.384 (214).

Carga y transformación de datos

En BI, el proceso de carga y extracción de datos (también conocido como ETL, del inglés Extraction, Transformation and Load), permite obtener datos de fuentes externas, adaptarlos a una estructura nueva (el modelo de datos) y realizar transformaciones en los valores (como puede ser usar un formato común).

La gran variedad de fuentes de datos existentes hoy en día hacen que cualquier herramienta de ETL necesite conectores a una gran cantidad de fuentes de datos para poder ser versátil.

En este apartado, Microsoft ha hecho un buen trabajo ampliando la conectividad de MS Excel. Actualmente, cuenta con conectores a los siguientes tipos de fuentes de datos:

  • Fichero
  • Base de datos
  • Microsoft Azure
  • Servicios Online
  • Otras fuentes de datos

Podéis obtener una lista completa y actualizada en el siguiente enlace:

Import data from external data sources (Power Query)

Sin embargo, en el área de la transformación de los datos, ésta se realiza a partir de las fórmulas disponibles en MS Excel.

MS Excel contiene una gran variedad de fórmulas. Con ellas podemos realizar una gran variedad de transformaciones en los datos, ya sean de tipo texto, como numérico o fecha. Su sintaxis es clara y concisa, pero cuando debemos realizar transformaciones complejas que incluyen el uso de distintas fórmulas, el resultado es una fórmula compleja por su difícil lectura y mantenimiento.

Cierto es que podemos simplificar las fórmulas partiéndolas en componentes, usando columnas para calcular los pasos intermedios, pero este procedimiento tiene un inconveniente: Incrementa los datos en la hoja MS Excel por el uso de nuevas columnas, hecho que dificulta la gestión del fichero y aumenta el número de cálculos a realizar para mantener los datos actualizados.

Además, para poder guardar los datos en pasos intermedios (como sería una tabla temporal en un proceso de ETL), los datos deben guardarse en la misma hoja MS Excel, lo que puede generar grandes volúmenes de datos y confusión a la hora de gestionar el fichero.

En resumen, el uso de las fórmulas de MS Excel proporciona la capacidad de transformar los datos, pero no es una solución cómoda desde el punto de vista del mantenimiento de la solución de BI.

Rendimiento

MS Excel realiza un recálculo de los valores de las celdas en función de sus dependencias. Toda celda puede tener dependencias si contiene una fórmula basada en otras celdas. Por tanto, cada vez que el valor de una celda cambia, MS Excel debe recalcular el valor de las celdas que dependen de esa celda cuyo valor se ha modificado.

Si realizamos una carga de datos externa, MS Excel deberá cambiar las celdas (dependientes) que dependan del valor de las filas cargadas. Y si las celdas dependientes han cambiado su valor, deberá propagar los cambios a otras celdas con dependencias sobre éstas. Y éstas a su vez pueden tener dependencias, con lo que el proceso debe hacer cálculos hasta que no se encuentren más dependencias entre celdas.

Por tanto, si el número de celdas cargadas es elevado, el número de dependencias en toda la hoja MS Excel puede crecer rápidamente. Y esto hace que MS Excel tenga que realizar una gran cantidad de cálculos.

Si el usuario trabaja con un ordenador personal, normalmente no suele ser un ordenador de grandes prestaciones. Con lo cual, en una situación así, puede darse el caso de que MS Excel deba dedicar unos segundos (o hasta minutos) a la realización de cálculos para poder actualizar todos los valores dependientes. En este caso, se produce una experiencia de usuario pobre debido al bloqueo de MS Excel durante el tiempo de recálculo. Una situación nunca deseada.

Conclusión

MS Excel tiene muchas funcionalidades muy interesantes desde el punto de vista del análisis de datos. Cuando los requerimientos que puede tener una organización lo permiten, MS Excel puede ser una buena solución para analizar datos.

Sin embargo, hay ciertas limitaciones a tener en cuenta, como son la limitación en el número de filas, la carga y transformación de datos, y el rendimiento de un fichero MS Excel.

Yo soy partidario de conocer bien los requerimientos y necesidades de mi cliente, tanto a corto como medio plazo, antes de proponer una tecnología. Pensando en grande, no recomendaría el uso de MS Excel. Sin embargo, si una organización está utilizando esta herramienta y ésta no le supone ningún problema, no veo mal que continúen utilizándola… a corto plazo, puesto que tarde o temprano, estoy seguro de que se encontrarán con alguna de estas limitaciones.

Big Data y huracanes

 

En el año 2004 prácticamente nadie había oído hablar de Big Data. De hecho, hay diferentes versiones que nos hablan del origen de este término. Se dice que fue acuñado por primera vez en el año 1998, en 2003, en 2005… ¡Qué más da! Sin embargo, lo interesante para nosotros es que el germen de lo que hoy conocemos como Big Data, ya venía cocinándose en esos años.

El caso que os presento hoy es un ejemplo de cómo, a pesar de no disponer de una tecnología estándar, con nombre y apellidos, los escenarios de Big Data existen desde siempre, y que gracias a un buen análisis de los datos, las organizaciones pueden llegar a obtener resultados con un alto valor.

Análisis con el máximo nivel de detalle

Walmart, una de las mayores cadenas de supermercados de EEUU, decidió a principios de siglo analizar las ventas de sus supermercados. Este análisis se realizó al máximo nivel de detalle. Se incluyó información de los productos vendidos por transacción, incluyendo la fecha, la hora de la compra… y también, el tiempo que hacía (soleado, nublado, lluvioso, etc.). Además, se realizó el análisis incluyendo los datos históricos de ventas.

Este nivel de detalle, teniendo en cuenta el volumen de ventas de Walmart a lo largo de los años, era un proyecto muy ambicioso. ¿Porqué realizar un análisis tan exhaustivo con información histórica?

Un enfoque diferente

El objetivo de Walmart no era obtener un informe agregado de ventas por línea de producto o por región, por poner dos ejemplos. El objetivo era buscar correlaciones entre las diferentes variables que se podían extraer de este análisis. Por ejemplo, qué productos se venden conjuntamente, qué día de la semana se vende más un producto, cómo influye el tiempo en la venta de algunos productos…

Este tipo de análisis se basa en cálculos estadísticos, que incluyen de manera implícita cierta incertidumbre. Sin embargo, cuando el volumen de datos analizados es muy alto, el análisis goza de un alto grado de validez. En el caso que nos ocupa, se daba esta situación por la gran cantidad de transacciones históricas incluidas en el análisis.

Resultados del análisis

Una de las conclusiones del análisis fue la siguiente:

Cuando se aproximaba un huracán, aparte de incrementarse las ventas de artículos de supervivencia como linternas, agua embotellada, etc., se observó un incremento en la venta de Pop-Tarts, un dulce consumido en desayunos y meriendas.

Esta conclusión propició un cambio en la distribución del producto Pop-Tarts al aproximarse un huracán. Walmart decidió distribuir el producto en función de la fecha de llegada de los huracanes a sus supermercados, resultando en una mayor disponibilidad de un producto con muchas ventas. Esto supuso un aumento considerable de las ventas.

Conclusión

Los datos siempre han escondido información muy útil.

La llegada del término “Big Data” y su globalización en los últimos años ha supuesto un cambio en la mentalidad de mucha gente respecto al análisis de datos. Sin embargo, aún falta mucho camino por recorrer.

Por suerte, casos de éxito como éste nos sirven para que la gente entienda el verdadero potencial de sus datos y de su análisis con Big Data.

Big Data y el uso de datos personales

 

En la sociedad actual, estamos constantemente generando datos de carácter personal como son nuestra localización, intereses, gustos, preferencias y relaciones sociales, por citar algunos.

El simple hecho de utilizar un teléfono inteligente (smartphone) o un ordenador conectado a Internet, provoca que ciertos datos puedan asociarse al usuario de estos dispositivos.

 

¿Quién, dónde y para qué se almacenan mis datos?

Estos datos son almacenados por compañías que ofrecen servicios o por los fabricantes de los productos que utilizamos y que generan estos datos.

Su destino es desconocido para nosotros, algo que suele causar inseguridad, incluso malestar. Éste suele ser un Centro de Proceso de Datos (CPD) privado o la nube (cloud), aunque en ambos casos, los datos se hallan bajo sofisticados mecanismos de seguridad (en teoría).

Y su uso suele ser, típicamente, para obtener un beneficio para la compañía que los almacena, bien por la explotación directa de los datos o por la venta de éstos a terceros.

¿Cómo perciben los individuos que esos datos personales estén en manos de estas organizaciones? Básicamente, podemos distinguir tres maneras diferentes de percibir esa misma realidad:

  • Una amenaza a la privacidad
  • Una simbiosis
  • Una oportunidad

Amenaza a la privacidad

Posiblemente, la opinión más generalizada acerca del Big Data es que, gracias a éste, los individuos vemos amenazada nuestra privacidad.

Los buscadores en Internet almacenan información acerca de nuestras búsquedas, incluido desde dónde las realizamos. Solamente con esta información y basándose en correlaciones con millones de búsquedas de otros usuarios, es posible deducir con bastante precisión información personal de los usuarios (el género, rango de edad, estado civil, zona del domicilio habitual, lugar de trabajo, itinerario seguido durante el día y un largo etcétera). Y como más busquemos en Internet, más refinado será nuestro perfil y más fácil será poder ser identificados.

Pero Internet no es la única fuente de generación de información personal. Las aplicaciones para smartphones y los diferentes dispositivos tecnológicos que nos rodean, también generan grandes cantidades de información. Ejemplos de estos dispositivos son el ordenador de un coche, pulseras medidoras de pasos, pulsómetros, contadores de la luz de última generación, etc.

Claramente, en este escenario, tanto la privacidad como el anonimato se ven comprometidos.

En el libro “Big Data. La Revolución De Los Datos Masivos” de Viktor Mayer-Schönberger y Kenneth Cukier, se habla de un caso en el cual, a pesar de haber anonimizado los datos, fue posible identificar a una persona a través de las diferentes búsquedas realizadas por ésta. Claramente, un caso de vulneración del anonimato a pesar de que los datos personales (nombre y apellido, edad, domicilio, etc.) fueron eliminados.

Sin embargo, no hace falta llegar a tal extremo. El mero hecho de que quien posee nuestros datos de actividad en Internet pueda pensar que una persona tiene la intención de comprar un ordenador portátil (esto es lo que sucede al hacer un par de búsquedas sobre portátiles, por ejemplo), suele provocar un aluvión de anuncios en las diferentes páginas web con anuncios específicos dirigidos a esa persona para que compre un ordenador portátil. Y eso puede ser identificado como una violación de la privacidad personal.

Generalmente, las empresas no tienen como objetivo principal identificar al usuario. Lo que les interesa es segmentar el conjunto de usuarios de Internet o de sus productos, para así poder dirigir campañas de marketing específicas a esos usuarios, con el fin de aumentar su efectividad. Y esto se puede traducir en una reducción de los costes y aumento de los ingresos en ventas.

A pesar de ello, el fantasma de poder ser identificado y de tener al Gran Hermano (que ya introdujo George Orwell en su novela “1984” en el año 1949) observando nuestros movimientos y decisiones, planea por encima de nuestras cabezas. Y para un grupo de gente, eso es claramente una amenaza a su privacidad.

Simbiosis

Otra manera de percibir esta realidad es la de sacar provecho de ésta. Es decir, identificar una situación de win-win entre las diferentes partes. Lo que se conoce en el mundo natural como una simbiosis.

Partamos del ejemplo anterior: La búsqueda de ordenadores portátiles en Internet. Se trata de un ejemplo real que me contó un amigo. Al hacer la búsqueda, le empezaron a aparecer anuncios con ofertas de portátiles al cabo de poco tiempo. La verdad es que fue muy útil, porque descubrió modelos de portátiles que desconocía, todos ellos con unas características muy similares al portátil que estaba buscando. Se trataba de campañas de marketing para un producto muy concreto (no aparecían portátiles con características muy alejadas de lo que buscaba), que le aportaron información muy útil para decidir sobre qué modelo comprar. Descubrió opciones que ni siquiera sabía que existían, algo que, a la postre, acabó siendo clave en su decisión final.

En este escenario, el usuario está obteniendo un beneficio del hecho de ofrecer información sobre sus intereses. Por tanto, se produce una situación en la que tanto éste, como la empresa recolectora de datos (que los utiliza para mostrar la campaña de marketing), como el propietario de la página donde aparece la campaña de marketing, como el vendedor del producto final, obtienen un beneficio.

Además, depende de cómo lo veamos, podemos pensar que este modelo de interacción, de alguna manera no solo no es una amenaza a nuestra privacidad, sino que la salvaguarda. Internet proporciona el anonimato desde el punto de vista en que no hace falta salir de casa para comprar algo. Pero cuando vamos a una tienda a mirar ordenadores (por seguir con el mismo ejemplo), todas las personas que nos han visto entrar en la tienda y los que hay dentro, pueden deducir que tenemos cierto interés en los productos ofrecidos por esa tienda. Es más, los vendedores de la tienda nos observarán y vendrán a ofrecer su ayuda cuando nos paremos frente a algún modelo. Y ellos nos verán la cara, sabrán cómo vestimos, el rango de precios de los portátiles que estamos mirando, etc. ¿Dónde está mi privacidad en ese momento?

Oportunidad

Generar ingentes cantidades de datos personales puede llegar a ser muy útil para el individuo si éste es capaz de explotar esos datos de manera inteligente.

En el artículo “Big Data no es solo para grandes empresas”, ya introduje este tema en la sección “Big Data personal”.

Una persona, por norma general, es consciente de sus movimientos, sus preferencias, sus amistades, sus gustos, etc. Sin embargo, el individuo no tiene la capacidad de cálculo necesaria para buscar correlaciones entre estos datos y obtener conclusiones interesantes. Podemos deducir algo, pero nunca llegaremos a la altura de los algoritmos de Inteligencia Artificial (IA).

Existe información de carácter público que desconocemos y que podría ser muy interesante para nosotros. Los algoritmos de IA amasan grandes cantidades de datos y los mezclan para deducir y predecir información para la toma inteligente de decisiones. En este escenario, ¿podemos utilizar el potencial de los datos y la IA para mejorar nuestra toma de decisiones e influir de manera positiva en nuestras vidas? La respuesta es que sí.

Aún en una fase incipiente, el Big Data personal trata precisamente de esto. El individuo debería tener acceso a toda su información personal para, a través de algoritmos de IA, poder influir de manera positiva en su vida.

Por ejemplo, si al individuo le gusta la comida vegetariana, ha hecho pagos en restaurante vegetarianos y visita páginas web de dietas vegetarianas, muy posiblemente agradecerá que su Big Data personal le informe de la apertura de un restaurante vegetariano a dos calles de su domicilio.

Éste es solamente un ejemplo de lo que el Big Data personal puede hacer. Pero las utilidades son infinitas. Tan solo hay que disponer de datos, almacenarlos y tratarlos de manera efectiva. Y eso es lo que hace Big Data.

Resumen

Vivimos en una sociedad donde la captura de información es constante. Cada vez existen más dispositivos electrónicos en nuestras vidas que miden lo que sucede a nuestro alrededor.

La captura, almacenamiento y uso de esta información para el beneficio de quien la gestiona es una realidad.

La percepción que los usuarios tienen de esta realidad suele ser de una amenaza para su privacidad. Sin embargo, existen otras maneras de ver el uso de los datos personales y su explotación mediante Big Data.

El usuario puede beneficiarse de la generación de esos datos por terceros (simbiosis), y en un futuro cercano será capaz de sacar provecho de toda esta información, obteniendo beneficios personales (Big Data personal).

La evolución tecnológica nos depara un futuro lleno de cambios. La actitud del individuo frente al cambio es lo que hace que se interprete éste como un riesgo o una oportunidad. Y tú, ¿cómo ves el futuro?

Big Data no es solo para grandes empresas

 

Existe una creencia bastante generalizada de que Big Data es solo para grandes empresas. Sin embargo, lo cierto es que Big Data es una solución tecnológica para todo tipo de organizaciones.

En este artículo os quiero mostrar cómo cualquier organización es susceptible de necesitar una solución Big Data, y cómo el hardware no es una limitación cuando hablamos de tecnología en este tipo de proyectos.

 

Cualquiera puede usar Big Data

La necesidad de utilizar Big Data viene dada por los datos y el uso que se haga de éstos, no por el tamaño de la organización que tiene esa necesidad.

En mi artículo “¿Qué es Big Data?” podéis leer acerca de las 3 V’s que dictan la necesidad de implementar una solución basada en Big Data. En ningún momento hablo del tamaño de la organización ni de su presupuesto. Todo gira alrededor de los datos y el uso que se haga de ellos.

Cualquier organización de hoy en día es susceptible de necesitar Big Data. Tan solo hace falta tener procesos que capturen la información, y una firme voluntad de explotarla.

La generación de grandes volúmenes de datos es posible en una gran cantidad de procesos. La velocidad necesaria para explotar la información dependerá del uso que se le quiera dar y del tiempo de vida útil de ésta. Y el uso de tipos de datos complejos como imágenes, vídeos, etc. es algo que también está al alcance de la mano de las organizaciones de hoy en día.

Big Data personal

Un claro ejemplo de que cualquiera puede usar Big Data es el de las personas físicas.

En la red ya se empieza a encontrar información acerca de lo que se ha denominado el “Big Data personal”. Este término responde a la idea de que los propios individuos generan cada vez más información. Y esta información se almacena tanto en nuestros dispositivos, los que generan la información, como en la nube (cloud). Esto es lo que se denomina la huella digital (digital footprint).

En nuestro día a día usamos móviles, ordenadores, relojes con sensores que están constantemente midiendo nuestra actividad… Toda esta información es susceptible de ser utilizada. Pero no solamente por los fabricantes de los dispositivos y las empresas del software y las Apps que usamos, sino también por nosotros mismos.

La cantidad de datos que generamos la podríamos utilizar para obtener un beneficio propio. Por ejemplo, la ruta recomendada para ir al trabajo para una persona con sobrepeso e hipertensión a quien le guste la arquitectura, podría ser adaptada para dar un rodeo de 5′ a pie, aprovechando para ver un par de edificios de modernistas un día, una iglesia otro día, etc.

Big Data en las PYMEs

Si una persona genera suficientes datos y puede obtener resultados útiles para sí misma, ¿qué no puede hacer una organización?

Todo proceso es medible. He estado en muchas empresas hablando con directivos sobre la importancia del análisis de datos para la toma de decisiones. A menudo me comentan que no generan datos suficientes, y que por eso no ven viable implementar una solución analítica. Es una lástima por ellos, porque seguro que sus competidores sí que estan capturando información. Y quizá la estén analizando para mejorar su posicionamiento en el mercado y su eficiencia interna.

La no existencia de datos es un punto de incio a partir del cual las organizaciones deben tomar consciencia de lo que están dejando de lado. Una vez una organización se da cuenta de esta situación, debe empezar a capturar datos para así poder explotarlos.

Los datos que potencialmente se pueden obtener en la gran mayoría de las empresas (por no decir todas), está por encima del límite que separa el Business Intelligence (BI) tradicional del Big Data. Así pues, cualquier PYME puede tener la necesidad de una solución analítica basada en Big Data.

No es necesario un superordenador

Llegados a este punto, otra de las creencias extendidas es que para utilizar Big Data necesitamos una máquina con un poder de cálculo inmenso, inasumible desde el punto de vista económico para la gran mayoría de empresas. Esa es una creencia errónea.

A diferencia del BI tradicional, Big Data puede trabajar sobre lo que se conoce como commodity hardware. Es decir, hardware de baja capacidad computacional. Por lo tanto, hardware con un coste medio o bajo. Esto permite que organizaciones sin un gran presupuesto para hardware, puedan incorporar Big Data a su conjunto de herramientas tecnológicas.

Supone esto un hándicap para las organizaciones que trabajan con hardware de media o baja potencia? En absoluto. Big Data permite añadir ordenadores a su red computacional de Big Data, permitiendo ampliar la potencia de cálculo de todo el sistema. En otras palabras, una organización será capaz de ampliar su capacidad de análisis de datos con el tiempo, a partir de pequeñas inversiones. Esta flexibilidad que ofrece Big Data, permite que las organizaciones puedan crear un cluster de Big Data (un conjunto de ordenadores que colaboran entre ellos para obtener unos objetivos comunes) de manera progresiva, sin tener que realizar una gran inversión inicial.

Conclusión

Big Data es una solución tecnológica que surge como respuesta a unas necesidades. Todas las empresas, por muy pequeñas que sean, trabajan con procesos que generan datos. Si las organizaciones son capaces de capturar esos datos, éstos pueden crecer hasta llegar a límites más allá de lo que un BI tradicional puede gestionar de manera eficiente. En ese momento es en el que aparece la necesidad de usar Big Data.

Por otra parte, Big Data es capaz de funcionar en entornos de sistemas muy variados, bien sea un superordenador o un conjunto de ordenadores de gama baja. Esta flexibilidad permite que cualquier organización ya sea grande, mediana o pequeña, pueda implementar una solución de Big Data.

Veracidad: ¿La 4ª “V” de Big Data?

En el artículo “¿Qué es Big Data?“, os expliqué las tres situaciones que pueden definir un escenario donde es necesario aplicar una solución de Big Data. Éstas se definen como las 3 V’s. Hay gente que incluye otras V’s al hablar de Big Data.

Hoy os hablaré de la V de veracidad, puesto que una lectura errónea de ésta puede llevar a malas interpretaciones.

Calidad de datos

Para realizar el mejor análisis de datos que podamos imaginar, necesitamos disponer de un conjunto de datos completo y con una calidad de datos impoluta.

Estas condiciones son las ideales, pero lo cierto es que la realidad nos presenta escenarios que difieren de esta situación ideal. Es por eso que, durante la carga de datos (ETL), hay que realizar un proceso de verificación de los datos. Es lo que se conoce como el proceso de limpieza de datos, durante el cual se intentan arreglar los datos incorrectos o incompletos para así poder disponer de un conjunto de datos útil para su análisis posterior.

Este proceso de limpieza de datos incluye la aplicación de normas de dominio sobre los datos (e.g. Verificar que la provincia informada corresponde al país informado), de formato (e.g. Los números de teléfono empezarán todos con el código internacional con un “+” al principio y solamente contendrán números a continuación, sin espacios, puntos, guiones, etc.), y de negocio (e.g. El descuento “ABC” no aplica a clientes que compren por un valor inferior al millón de euros anuales).

Así pues, los datos que pueden ser arreglados durante la carga de datos, serán modificados para asegurar una buena calidad, mientras que los que no puedan ser arreglados, serán descartados y marcados como pendientes de arreglar en el sistema origen. De esta manera, conseguimos aumentar la calidad de datos no solo en el repositorio de datos destino de la carga, sino también en los sistemas origen.

Un gran coste en un escenario Big Data

El problema de realizar un proceso de limpieza de los datos durante la carga de éstos, es que es un proceso costoso. Muy costoso.

Sabemos que Big Data trabaja en muchos casos con datos masivos o con la necesidad de disponer de los datos con una latencia (retraso) muy baja. Por tanto, no puede perder ese tiempo en un proceso de verificación y limpieza de datos.

Y aquí aparece la contraposición de intereses. ¿Es Big Data incompatible con el hecho de tener un buen análisis de datos? La respuesta es que no es incompatible, aunque deberíamos analizar qué entendemos por “buen análisis”.

En un escenario tradicional de Business Intelligence (BI), por ejemplo, basado en el análisis de información comercial, es importante que la calidad de datos sea correcta, sin errores. Si el importe de una venta es incorrecto, o si una venta no se carga en el repositorio analítico, no podremos obtener análisis de ventas que muestren un resultado correcto. Es decir, para obtener una visión exacta de la realidad, es necesario aplicar un proceso de limpieza de datos para evitar la pérdida de información durante la carga de datos.

Pero, por otra parte, en un escenario de Big Data, por ejemplo, basado en la obtención de lecturas de temperatura cada 5″ mediante 100 sensores repartidos por toda la ciudad, ¿es necesario tener una visión exacta de esa realidad? ¿Necesito saber la temperatura media exacta? Seguramente no. Por tanto, situaciones anómalas pueden ser aceptadas sin la necesidad de limpiar los datos.

Incertidumbre

Estas situaciones anómalas pueden introducir errores en los datos. En otras palabras, provocan que la veracidad de los datos y de los resultados del análisis de éstos sea incierto. Pero en Big Data trabajamos con grandes volúmenes de datos. Y tener errores en algunos de ellos, no tiene porqué distorsionar en gran manera el resultado del análisis. Por ejemplo, ¿una temperatura ambiente media de 20,375°C (incluyendo anomalías) sería aceptable si la temperatura real fuese 20,384°C? Estoy convencido de que así es para la gran mayoría de personas.

En Big Data, podemos distinguir entre los siguientes tipos de incertidumbre en función de dónde y cómo se genera ésta:

• Adquisición de los datos: Como ejemplo, pensemos en un sensor, un trozo de hardware, susceptible a errores de lectura. Si la temperatura leída es de 20°C durante 1 hora pero nos encontramos con una única lectura durante este periodo con un valor de 28°C (con su predecesor y sucesor, separados 5″, marcando 20°C ), podemos considerar que se trata de un error de lectura, un error de funcionamiento del sensor.
• Proceso de los datos: Imaginemos ahora, que hay un fallo de comunicación en un sector de la ciudad y no nos llega información durante 30′ de los 20 sensores que hay desplegados en esa zona. Los datos se perderán y no podremos hacer nada al respecto. Pero podemos continuaremos analizando los datos recibidos y mostrándolos en tiempo real. De hecho, para los datos no disponibles, podría mostrar la última información recibida o hacer una previsión en función de datos históricos y los datos del resto de sensores.
• Análisis de datos: El tipo de análisis de datos a realizar también puede introducir incertidumbre. En el caso de una predicción, existe un grado de confianza que debemos elegir. Si utilizamos un algoritmo de clustering para agrupar datos, también introducimos incertidumbre en el análisis. Es decir, el propio algoritmo utilizado incluye cierto nivel de incertidumbre.

Por tanto, Big Data, por sus propias características, introduce de por sí elementos que pueden provocar que el resultado del análisis de los datos no sea fiable al 100%.

Cuando pensamos en Big Data no debemos pensar en el análisi de todos los datos disponibles como en un BI tradicional, mostrando resultados exactos y 100% fiables. Debemos verlo como un análisis con un alto grado de fiabilidad (obtenido a partir del uso de datos masivos), pero con cierto grado de incertidumbre, que proporcionará información útil para la toma de decisiones.

Conclusión

El uso de Big Data viene precedido por una necesidad, ya sea de tratar un escenario con un gran volumen de datos, con una velocidad de tratamiento de éstos muy elevada o con variedad de tipos de datos, entendiendo ésta como el uso de tipos de datos no convencionales. Esto se conoce como las 3 V’s del Big Data.

Incluir una cuarta V para la veracidad puede causar confusión, puesto que no se trata de una necesidad de veracidad la que hace que tengamos que aplicar Big Data, tal y como sucede con el volumen, la velocidad y la variedad.

La realidad es que Big Data introduce cierto grado de incertidumbre durante el proceso de adquisición, proceso y análisis de datos.

Sin embargo, a pesar de este grado de incertidumbre, el hecho de trabajar con datos masivos nos permite obtener análisis de datos con una fiabilidad muy alta, lo cual justifica el uso de Big Data.

¿Qué es Big Data?

 

El Big Data está de moda. Es interesante comprobar como la gran mayoría de la gente ha oído hablar del Big Data alguna vez aunque no pertenezcan ni al mundo empresarial ni tecnológico.

Pero también es muy interesante oir la gran variedad de definiciones que afloran cuando la gente es preguntada acerca del Big Data. En este artículo voy a intentar resolver esa duda que muchos tenéis: ¿Qué es Big Data?

 

Definición de Big Data

Big Data es un conjunto de técnicas y tecnologías que permiten el análisis de datos.

Estas técnicas y tecnologías nos permiten almacenar, transformar, analizar y visualizar los datos de manera eficiente. Y gracias a esto, podemos satisfacer las necesidades de análisis de existentes hoy en día, con un nivel de exigencia mucho más elevado que el que existía hace unos años.

Es decir, utilizaremos Big Data en escenarios donde una solución de BI tradicional (usada para el análisis de datos) no nos permite satisfacer los objetivos del cliente.

Definición de un escenario Big Data

Big Data debe utilizarse en situaciones en las que el análisis de datos no es posible de manera eficiente mediante una solución de Business Intelligence (BI) tradicional. Estas situaciones se han asociado históricamente a lo que se conoce como las 3 V’s: Volumen, velocidad y variedad. Cierto es que hay personas que incluyen otras V’s como la veracidad, la volatilidad, la validez, la visibilidad y la variabilidad, pero la definición más extendida sigue siendo la de las 3 V’s.

Volumen

Por volúmenes masivos se entiende una cantidad de datos muy elevada, que deja de ser manipulada de manera eficiente por los repositorios de datos tradicionales. Éstos son, en la gran mayoría de casos, bases de datos relacionales, que aunque hayan evolucionado en los últimos años para ser más eficientes y puedan ejecutarse en un hardware más potente que antaño, siguen siendo un cuello de botella para el almacenaje de grandes volúmenes de datos.

El uso de este tipo de sistemas de almacenaje para el análisis de grandes volúmenes de datos, puede llevarlos más allá de los límites para los que fueron diseñados, produciendo un descenso en el rendimiento en el almacenaje y acceso a la información. Estos límites varían en función del hardware y el software utilizados, por lo que se hace casi imposible trazar una línea para delimitar el inicio de lo que se puede considerar volúmenes masivos. Hace unos años este límite era del orden de gigabytes, mientras que hoy en día, con las innovaciones recientes en el hardware y el software, estamos hablando del orden de los pocos terabytes.

Velocidad

Cuando alguien analiza datos, lo hace con el objetivo de hallar una respuesta a una pregunta, dentro de un espacio temporal en el cual esa respuesta le aportará un beneficio. Si esa respuesta llega fuera de ese margen de tiempo, carece de valor.

Por ejemplo, el análisis de la localización de vehículos y dispositivos móviles puede proporcionar información sobre la fluidez del tráfico. En este escenario, la pregunta sería: “¿A qué velocidad se desplazan los vehículos por las vías en las que están circulando?”. Si estos datos proporcionan en un corto espacio de tiempo la respuesta a esta pregunta, pueden ser muy útiles, ya que las podemos mostrar en un navegador para ofrecer información “actualizada” de la densidad del tráfico en cada vía (urbana o interurbana) de la que dispongamos datos. Sin embargo, si esta respuesta la obtenemos con una hora de retraso, no nos será útil para mostrar en un navegador.

Por tanto, queda claro que la velocidad es un factor clave a la hora de tomar decisiones.

Esta velocidad para obtener una respuesta a partir de los datos puede desglosarse en dos componentes: la velocidad de carga del dato (obtención, transformación y almacenamiento) y la velocidad de análisis de la información (explotación del dato mediante técnicas de análisis de datos como son la estadística o la inteligencia artificial).

Si alguna de estas velocidades es baja, se corre el riesgo de sobrepasar el límite de validez de la respuesta, con lo que ésta carecerá de valor para el usuario.

Un sistema de BI tradicional, debido a su diseño y arquitectura, tiene una velocidad de respuesta desde la aparición del evento que genera un dato, que suele ir de entre algunos minutos (en casos concretos como es el caso de arquitecturas lambda) a las 24 horas (en un escenario de cargas de datos diarias), aunque podría llegar a ser superior. Si tomamos el escenario del ejemplo del tráfico, un BI tradicional claramente no podría satisfacer los requerimientos de los conductores.

Variedad

Los tipos de datos tradicionales son tres: numéricos, cadenas de caracteres y fechas. Históricamente, cuando había necesidad de analizar tipos de datos más allá de éstos, se recurría a aplicaciones especializadas, que quedaban fuera de lo que se consideran las herramientas de BI.

Por ejemplo, hace años que existían aplicaciones y librerías que permitían analizar imágenes y poder obtener respuestas a preguntas como “¿Aparece algún color verde en la imagen?” (que podría ser muy útil para saber el tiempo transcurrido en el crecimiento de un hongo en un cultivo de laboratorio). Pero esas aplicaciones y librerías no estaban integradas en una herramienta de BI tradicional.

Por tanto, el análisis de tipos de datos más allá de los tradicionales no se consideraba, en el pasado, como algo factible dentro de una solución de BI.

En la actualidad, con el crecimiento de los datos disponibles en las organizaciones y en Internet, cada vez hay más necesidad de encontrar respuestas a partir de datos no básicos, entre los que se incluyen audios, fotografías, vídeos, geolocalizaciones, etc. Cuando este es un requerimiento, nos encontramos delante de un escenario donde es necesaria la aplicación de Big Data.

Diferencias entre un BI tradicional y Big Data

Sin entrar en tecnicidades, la siguiente tabla intenta resumir las diferencias más importantes entre un BI tradicional y Big Data:

FactorTradicionalBig Data
VolumenPocos TerabytesTerabytes y superior
VelocidadCargas periódicas (típicamente diarias)Reducción del tiempo entre cargas de datos → Tiempo real
VariedadTipos de datos básicosVirtualmente, cualquier tipo de datos
ComputaciónCentralizada en una única máquinaDistribuida
HardwareAltas especificacionesCualquiera (Commodity hardware)
EscalabilidadDifícilSimple
Calidad de datos (veracidad)Muy importanteImportancia relativa (se asume cierto grado de incertidumbre)

Conclusión

El Big Data nos permite llegar más allá en el análisis de datos de lo que podemos con un BI tradicional. Se trata de una respuesta a unas necesidades de los usuarios, al igual que en su tiempo lo fue el BI. Eso no significa que el BI deba eliminarse como una opción a tener en cuenta a la hora de analizar datos. Al contrario, deberá ser siempre una opción.

Sin embargo, cuando las necesidades de los usuarios incluyan el uso de datos masivos (volumen), con respuestas obtenidas en un tiempo muy corto (velocidad) u obtenidas a partir de tipos de datos complejos (variedad), deberemos descartar el BI tradicional por sus limitaciones tecnológicas, y decantarnos por el uso de una solución con Big Data.

Big Data – Un arma de doble filo

Como consultor del Máster de BI de la UOC, es mi responsabilidad definir los trabajos que los estudiantes deben realizar en las asignaturas que imparto. Dentro de esta definición de trabajos, me gusta dar libertad a los estudiantes para que ellos mismos definan el escenario sobre el que basarse. De esta manera suprimimos la complejidad inicial de comprender un escenario desconocido para ellos. Este enfoque funciona muy bien pero a la vez acarrea un problema: Es el escenario de partida válido?

A lo largo de los semestres he podido constatar algo que ya había visto en mi vida profesional: Plantear soluciones mediante el uso de Big Data en escenarios que pueden resolverse mediante técnicas de BI tradicional es un error que se produce con demasiada asiduidad.

Big Data es un camino, no una finalidad

Big Data. Qué bien suena… Estas dos palabras están de moda. Quien implementa una solución con Big Data crece profesionalmente. Y las organizaciones adquieren un status de modernidad al ejecutar proyectos con esta tecnología.

Quizá sea esto lo que esté provocando que las organizaciones se estén lanzando a implementar soluciones de Big Data con tanto fervor. Pero, nos hemos parado a pensar si se trata de lo mejor para esa organización y en ese escenario concreto?

Es indudable que Big Data está mitificado. Se ha producido una corriente a nivel mundial que está constantemente alimentando este término. Eso está causando que se inicien proyectos de Big Data sin ser realmente necesarios.

Un proyecto de BI se inicia a partir de una necesidad de negocio. En la fase de obtención de requerimientos se identifican las fuentes de datos y la información a extraer de cada una de ellas. Y finalmente, después del análisis de dichos requerimientos, es cuando se diseña la solución que más convenga en cada escenario. Esta solución puede que implique el uso de Big Data, pero puede que no.

El planteamiento erróneo es el que define la tecnología sin tener en cuenta los requerimientos. He aquí un ejemplo:

Cuando se quiere analizar la información de Social Media de una organización, la gran mayoría de personas piensan inmediatamente en Big Data. Tengamos en cuenta este requerimiento de negocio:

  • Una organización quiere analizar el número de comentarios recibidos en su página de Facebook en función de la fecha y el país de origen de los comentarios.
  • Esta información será analizada semanalmente y utilizada para definir la línea a seguir en las siguientes semanas en Social Media.
  • El número de posts diarios es de cinco como máximo.
  • El número de comentarios recibidos no ha excedido nunca los 10.000 semanales.

La información requerida está disponible a partir del análisis básico de los campos proporcionados por Facebook. Es pues necesario implementar Big Data? La respuesta es “no”. Por volumen, velocidad de generación y estructura de datos, la información necesaria para el análisis puede ser obtenida mediante herramientas de BI tradicionales. En este caso, no es necesario embarcarse en un proyecto de Big Data, ya que el coste y el riesgo son elevados.
 

Big Data, “Big Risk”

Big Data significa el uso de una nueva tecnología, de un paradigma de diseño distinto a los utilizados en el BI tradicional, y de formación nueva y especializada para los equipos de proyecto.

Big Data usa una tecnología aún en fase de crecimiento, una tecnología no lo suficientemente madura, donde los cambios y las mejoras se suceden constantemente. Esto significa que los componentes usados en un proyecto pueden quedar anticuados en un periodo corto de tiempo debido a esa constante evolución.

Así pues, podemos resumir los riesgos introducidos hoy en día al implementar un proyecto de Big Data en:

  • Tecnología no consolidada
  • Necesidad de formación y de cambio de mentalidad del equipo de proyecto

Con estos riesgos, cabe pues plantearse si el uso de Big Data en un proyecto es realmente necesario cuando es posible obtener las mismas respuestas mediante técnicas de BI tradicionales.

 

Resumen

  • Big Data nos permite poder analizar datos que en el pasado eran descartados para el análisis.
  • El uso de Big Data en un proyecto debe responder a necesidades de acceso y tratamiento de la información.
  • Si los requerimientos de negocio pueden satisfacerse mediante la implementación de una solución de BI tradicional, la elección de Big Data supondría un riesgo añadido en el proyecto.
  • Tratándose de una nueva tecnología aún en evolución, hay un elevado riesgo de que ésta quede obsoleto en un plazo relativamente corto.
  • Los equipos implicados en el diseño y desarrollo de una solución de BI con Big Data, deben adaptarse a un nuevo paradigma de programación, lo que constituye de por sí un importante riesgo.

Si quieres conocer más acerca de Big Data, no lo dudes y ponte en contacto conmigo.