MS Excel como herramienta de BI

 

 

MS Excel es una herramienta muy versátil, útil e intuitiva. Además la curva de aprendizaje es muy rápida para funcionalidades simples, lo que permite obtener resultados de manera rápida.

Por estos motivos, es una de las herramientas informáticas más usadas en el mundo.

 

Las funcionalidades de MS Excel incluyen, entre otras:

  • La carga de datos externos.
  • La transformación de esos datos mediante fórmulas.
  • La visualización de datos en forma de tablas, tablas dinámicas y gráficos.

Es decir, MS Excel contiene los componentes básicos de un sistema de Business Intelligence (BI).

Esto explica porqué hay organizaciones que utilizan MS Excel como su herramienta de BI.

Hoy voy a exponer los 3 motivos principales por los cuales considero que BI no puede ser considerada una herramienta de BI:

  • La limitación en el número de filas
  • La carga y transformación de datos
  • El rendimiento

Limitación en el número de filas

El número de filas de una hoja (pestaña) de MS Excel es de 1.048.576 (220). Ahora estamos de suerte, puesto que en versiones anteriores a MS Excel 2007, esta limitación era tan solo de 65.536 filas (216).

En algunos entornos, este volumen de datos es suficiente. Si no se dispone de una gran cantidad de datos, MS Excel es capaz de acomodarlos en su poco más de un millón de filas por pestaña.

Sin embargo, esta situación podría no darse si la organización decide ampliar el objeto de su solución de BI. Quizá los nuevos procesos de negocio a analizar requieren el uso de más datos, con lo que chocaríamos con esta limitación.

En mi vida como consultor me he encontrado con clientes muy contentos con su solución de BI basada en MS Excel. Pero algunos de ellos no podían analizar todo su negocio porque algunas áreas de éste tenía demasiados datos, con lo cual tenían que pedir a IT una solución técnica cada vez que necesitaban sacar información de esas áreas de negocio. Esto implica la existencia de diferentes procesos de gestión de los datos y la imposibilidad de cruzar información de distintas áreas de negocio en una única solución de BI.

La conclusión es que la existencia de un número máximo de filas puede ser una limitación para el crecimiento de una solución de BI.

Y aún otra limitación para los que necesitan muchos datos: El número de columnas en una hoja de MS Excel es de 16.384 (214).

Carga y transformación de datos

En BI, el proceso de carga y extracción de datos (también conocido como ETL, del inglés Extraction, Transformation and Load), permite obtener datos de fuentes externas, adaptarlos a una estructura nueva (el modelo de datos) y realizar transformaciones en los valores (como puede ser usar un formato común).

La gran variedad de fuentes de datos existentes hoy en día hacen que cualquier herramienta de ETL necesite conectores a una gran cantidad de fuentes de datos para poder ser versátil.

En este apartado, Microsoft ha hecho un buen trabajo ampliando la conectividad de MS Excel. Actualmente, cuenta con conectores a los siguientes tipos de fuentes de datos:

  • Fichero
  • Base de datos
  • Microsoft Azure
  • Servicios Online
  • Otras fuentes de datos

Podéis obtener una lista completa y actualizada en el siguiente enlace:

Import data from external data sources (Power Query)

Sin embargo, en el área de la transformación de los datos, ésta se realiza a partir de las fórmulas disponibles en MS Excel.

MS Excel contiene una gran variedad de fórmulas. Con ellas podemos realizar una gran variedad de transformaciones en los datos, ya sean de tipo texto, como numérico o fecha. Su sintaxis es clara y concisa, pero cuando debemos realizar transformaciones complejas que incluyen el uso de distintas fórmulas, el resultado es una fórmula compleja por su difícil lectura y mantenimiento.

Cierto es que podemos simplificar las fórmulas partiéndolas en componentes, usando columnas para calcular los pasos intermedios, pero este procedimiento tiene un inconveniente: Incrementa los datos en la hoja MS Excel por el uso de nuevas columnas, hecho que dificulta la gestión del fichero y aumenta el número de cálculos a realizar para mantener los datos actualizados.

Además, para poder guardar los datos en pasos intermedios (como sería una tabla temporal en un proceso de ETL), los datos deben guardarse en la misma hoja MS Excel, lo que puede generar grandes volúmenes de datos y confusión a la hora de gestionar el fichero.

En resumen, el uso de las fórmulas de MS Excel proporciona la capacidad de transformar los datos, pero no es una solución cómoda desde el punto de vista del mantenimiento de la solución de BI.

Rendimiento

MS Excel realiza un recálculo de los valores de las celdas en función de sus dependencias. Toda celda puede tener dependencias si contiene una fórmula basada en otras celdas. Por tanto, cada vez que el valor de una celda cambia, MS Excel debe recalcular el valor de las celdas que dependen de esa celda cuyo valor se ha modificado.

Si realizamos una carga de datos externa, MS Excel deberá cambiar las celdas (dependientes) que dependan del valor de las filas cargadas. Y si las celdas dependientes han cambiado su valor, deberá propagar los cambios a otras celdas con dependencias sobre éstas. Y éstas a su vez pueden tener dependencias, con lo que el proceso debe hacer cálculos hasta que no se encuentren más dependencias entre celdas.

Por tanto, si el número de celdas cargadas es elevado, el número de dependencias en toda la hoja MS Excel puede crecer rápidamente. Y esto hace que MS Excel tenga que realizar una gran cantidad de cálculos.

Si el usuario trabaja con un ordenador personal, normalmente no suele ser un ordenador de grandes prestaciones. Con lo cual, en una situación así, puede darse el caso de que MS Excel deba dedicar unos segundos (o hasta minutos) a la realización de cálculos para poder actualizar todos los valores dependientes. En este caso, se produce una experiencia de usuario pobre debido al bloqueo de MS Excel durante el tiempo de recálculo. Una situación nunca deseada.

Conclusión

MS Excel tiene muchas funcionalidades muy interesantes desde el punto de vista del análisis de datos. Cuando los requerimientos que puede tener una organización lo permiten, MS Excel puede ser una buena solución para analizar datos.

Sin embargo, hay ciertas limitaciones a tener en cuenta, como son la limitación en el número de filas, la carga y transformación de datos, y el rendimiento de un fichero MS Excel.

Yo soy partidario de conocer bien los requerimientos y necesidades de mi cliente, tanto a corto como medio plazo, antes de proponer una tecnología. Pensando en grande, no recomendaría el uso de MS Excel. Sin embargo, si una organización está utilizando esta herramienta y ésta no le supone ningún problema, no veo mal que continúen utilizándola… a corto plazo, puesto que tarde o temprano, estoy seguro de que se encontrarán con alguna de estas limitaciones.

Big Data y huracanes

 

En el año 2004 prácticamente nadie había oído hablar de Big Data. De hecho, hay diferentes versiones que nos hablan del origen de este término. Se dice que fue acuñado por primera vez en el año 1998, en 2003, en 2005… ¡Qué más da! Sin embargo, lo interesante para nosotros es que el germen de lo que hoy conocemos como Big Data, ya venía cocinándose en esos años.

El caso que os presento hoy es un ejemplo de cómo, a pesar de no disponer de una tecnología estándar, con nombre y apellidos, los escenarios de Big Data existen desde siempre, y que gracias a un buen análisis de los datos, las organizaciones pueden llegar a obtener resultados con un alto valor.

Análisis con el máximo nivel de detalle

Walmart, una de las mayores cadenas de supermercados de EEUU, decidió a principios de siglo analizar las ventas de sus supermercados. Este análisis se realizó al máximo nivel de detalle. Se incluyó información de los productos vendidos por transacción, incluyendo la fecha, la hora de la compra… y también, el tiempo que hacía (soleado, nublado, lluvioso, etc.). Además, se realizó el análisis incluyendo los datos históricos de ventas.

Este nivel de detalle, teniendo en cuenta el volumen de ventas de Walmart a lo largo de los años, era un proyecto muy ambicioso. ¿Porqué realizar un análisis tan exhaustivo con información histórica?

Un enfoque diferente

El objetivo de Walmart no era obtener un informe agregado de ventas por línea de producto o por región, por poner dos ejemplos. El objetivo era buscar correlaciones entre las diferentes variables que se podían extraer de este análisis. Por ejemplo, qué productos se venden conjuntamente, qué día de la semana se vende más un producto, cómo influye el tiempo en la venta de algunos productos…

Este tipo de análisis se basa en cálculos estadísticos, que incluyen de manera implícita cierta incertidumbre. Sin embargo, cuando el volumen de datos analizados es muy alto, el análisis goza de un alto grado de validez. En el caso que nos ocupa, se daba esta situación por la gran cantidad de transacciones históricas incluidas en el análisis.

Resultados del análisis

Una de las conclusiones del análisis fue la siguiente:

Cuando se aproximaba un huracán, aparte de incrementarse las ventas de artículos de supervivencia como linternas, agua embotellada, etc., se observó un incremento en la venta de Pop-Tarts, un dulce consumido en desayunos y meriendas.

Esta conclusión propició un cambio en la distribución del producto Pop-Tarts al aproximarse un huracán. Walmart decidió distribuir el producto en función de la fecha de llegada de los huracanes a sus supermercados, resultando en una mayor disponibilidad de un producto con muchas ventas. Esto supuso un aumento considerable de las ventas.

Conclusión

Los datos siempre han escondido información muy útil.

La llegada del término «Big Data» y su globalización en los últimos años ha supuesto un cambio en la mentalidad de mucha gente respecto al análisis de datos. Sin embargo, aún falta mucho camino por recorrer.

Por suerte, casos de éxito como éste nos sirven para que la gente entienda el verdadero potencial de sus datos y de su análisis con Big Data.

Big Data y el uso de datos personales

 

En la sociedad actual, estamos constantemente generando datos de carácter personal como son nuestra localización, intereses, gustos, preferencias y relaciones sociales, por citar algunos.

El simple hecho de utilizar un teléfono inteligente (smartphone) o un ordenador conectado a Internet, provoca que ciertos datos puedan asociarse al usuario de estos dispositivos.

 

¿Quién, dónde y para qué se almacenan mis datos?

Estos datos son almacenados por compañías que ofrecen servicios o por los fabricantes de los productos que utilizamos y que generan estos datos.

Su destino es desconocido para nosotros, algo que suele causar inseguridad, incluso malestar. Éste suele ser un Centro de Proceso de Datos (CPD) privado o la nube (cloud), aunque en ambos casos, los datos se hallan bajo sofisticados mecanismos de seguridad (en teoría).

Y su uso suele ser, típicamente, para obtener un beneficio para la compañía que los almacena, bien por la explotación directa de los datos o por la venta de éstos a terceros.

¿Cómo perciben los individuos que esos datos personales estén en manos de estas organizaciones? Básicamente, podemos distinguir tres maneras diferentes de percibir esa misma realidad:

  • Una amenaza a la privacidad
  • Una simbiosis
  • Una oportunidad

Amenaza a la privacidad

Posiblemente, la opinión más generalizada acerca del Big Data es que, gracias a éste, los individuos vemos amenazada nuestra privacidad.

Los buscadores en Internet almacenan información acerca de nuestras búsquedas, incluido desde dónde las realizamos. Solamente con esta información y basándose en correlaciones con millones de búsquedas de otros usuarios, es posible deducir con bastante precisión información personal de los usuarios (el género, rango de edad, estado civil, zona del domicilio habitual, lugar de trabajo, itinerario seguido durante el día y un largo etcétera). Y como más busquemos en Internet, más refinado será nuestro perfil y más fácil será poder ser identificados.

Pero Internet no es la única fuente de generación de información personal. Las aplicaciones para smartphones y los diferentes dispositivos tecnológicos que nos rodean, también generan grandes cantidades de información. Ejemplos de estos dispositivos son el ordenador de un coche, pulseras medidoras de pasos, pulsómetros, contadores de la luz de última generación, etc.

Claramente, en este escenario, tanto la privacidad como el anonimato se ven comprometidos.

En el libro «Big Data. La Revolución De Los Datos Masivos» de Viktor Mayer-Schönberger y Kenneth Cukier, se habla de un caso en el cual, a pesar de haber anonimizado los datos, fue posible identificar a una persona a través de las diferentes búsquedas realizadas por ésta. Claramente, un caso de vulneración del anonimato a pesar de que los datos personales (nombre y apellido, edad, domicilio, etc.) fueron eliminados.

Sin embargo, no hace falta llegar a tal extremo. El mero hecho de que quien posee nuestros datos de actividad en Internet pueda pensar que una persona tiene la intención de comprar un ordenador portátil (esto es lo que sucede al hacer un par de búsquedas sobre portátiles, por ejemplo), suele provocar un aluvión de anuncios en las diferentes páginas web con anuncios específicos dirigidos a esa persona para que compre un ordenador portátil. Y eso puede ser identificado como una violación de la privacidad personal.

Generalmente, las empresas no tienen como objetivo principal identificar al usuario. Lo que les interesa es segmentar el conjunto de usuarios de Internet o de sus productos, para así poder dirigir campañas de marketing específicas a esos usuarios, con el fin de aumentar su efectividad. Y esto se puede traducir en una reducción de los costes y aumento de los ingresos en ventas.

A pesar de ello, el fantasma de poder ser identificado y de tener al Gran Hermano (que ya introdujo George Orwell en su novela «1984» en el año 1949) observando nuestros movimientos y decisiones, planea por encima de nuestras cabezas. Y para un grupo de gente, eso es claramente una amenaza a su privacidad.

Simbiosis

Otra manera de percibir esta realidad es la de sacar provecho de ésta. Es decir, identificar una situación de win-win entre las diferentes partes. Lo que se conoce en el mundo natural como una simbiosis.

Partamos del ejemplo anterior: La búsqueda de ordenadores portátiles en Internet. Se trata de un ejemplo real que me contó un amigo. Al hacer la búsqueda, le empezaron a aparecer anuncios con ofertas de portátiles al cabo de poco tiempo. La verdad es que fue muy útil, porque descubrió modelos de portátiles que desconocía, todos ellos con unas características muy similares al portátil que estaba buscando. Se trataba de campañas de marketing para un producto muy concreto (no aparecían portátiles con características muy alejadas de lo que buscaba), que le aportaron información muy útil para decidir sobre qué modelo comprar. Descubrió opciones que ni siquiera sabía que existían, algo que, a la postre, acabó siendo clave en su decisión final.

En este escenario, el usuario está obteniendo un beneficio del hecho de ofrecer información sobre sus intereses. Por tanto, se produce una situación en la que tanto éste, como la empresa recolectora de datos (que los utiliza para mostrar la campaña de marketing), como el propietario de la página donde aparece la campaña de marketing, como el vendedor del producto final, obtienen un beneficio.

Además, depende de cómo lo veamos, podemos pensar que este modelo de interacción, de alguna manera no solo no es una amenaza a nuestra privacidad, sino que la salvaguarda. Internet proporciona el anonimato desde el punto de vista en que no hace falta salir de casa para comprar algo. Pero cuando vamos a una tienda a mirar ordenadores (por seguir con el mismo ejemplo), todas las personas que nos han visto entrar en la tienda y los que hay dentro, pueden deducir que tenemos cierto interés en los productos ofrecidos por esa tienda. Es más, los vendedores de la tienda nos observarán y vendrán a ofrecer su ayuda cuando nos paremos frente a algún modelo. Y ellos nos verán la cara, sabrán cómo vestimos, el rango de precios de los portátiles que estamos mirando, etc. ¿Dónde está mi privacidad en ese momento?

Oportunidad

Generar ingentes cantidades de datos personales puede llegar a ser muy útil para el individuo si éste es capaz de explotar esos datos de manera inteligente.

En el artículo «Big Data no es solo para grandes empresas», ya introduje este tema en la sección «Big Data personal».

Una persona, por norma general, es consciente de sus movimientos, sus preferencias, sus amistades, sus gustos, etc. Sin embargo, el individuo no tiene la capacidad de cálculo necesaria para buscar correlaciones entre estos datos y obtener conclusiones interesantes. Podemos deducir algo, pero nunca llegaremos a la altura de los algoritmos de Inteligencia Artificial (IA).

Existe información de carácter público que desconocemos y que podría ser muy interesante para nosotros. Los algoritmos de IA amasan grandes cantidades de datos y los mezclan para deducir y predecir información para la toma inteligente de decisiones. En este escenario, ¿podemos utilizar el potencial de los datos y la IA para mejorar nuestra toma de decisiones e influir de manera positiva en nuestras vidas? La respuesta es que sí.

Aún en una fase incipiente, el Big Data personal trata precisamente de esto. El individuo debería tener acceso a toda su información personal para, a través de algoritmos de IA, poder influir de manera positiva en su vida.

Por ejemplo, si al individuo le gusta la comida vegetariana, ha hecho pagos en restaurante vegetarianos y visita páginas web de dietas vegetarianas, muy posiblemente agradecerá que su Big Data personal le informe de la apertura de un restaurante vegetariano a dos calles de su domicilio.

Éste es solamente un ejemplo de lo que el Big Data personal puede hacer. Pero las utilidades son infinitas. Tan solo hay que disponer de datos, almacenarlos y tratarlos de manera efectiva. Y eso es lo que hace Big Data.

Resumen

Vivimos en una sociedad donde la captura de información es constante. Cada vez existen más dispositivos electrónicos en nuestras vidas que miden lo que sucede a nuestro alrededor.

La captura, almacenamiento y uso de esta información para el beneficio de quien la gestiona es una realidad.

La percepción que los usuarios tienen de esta realidad suele ser de una amenaza para su privacidad. Sin embargo, existen otras maneras de ver el uso de los datos personales y su explotación mediante Big Data.

El usuario puede beneficiarse de la generación de esos datos por terceros (simbiosis), y en un futuro cercano será capaz de sacar provecho de toda esta información, obteniendo beneficios personales (Big Data personal).

La evolución tecnológica nos depara un futuro lleno de cambios. La actitud del individuo frente al cambio es lo que hace que se interprete éste como un riesgo o una oportunidad. Y tú, ¿cómo ves el futuro?

Big Data no es solo para grandes empresas

 

Existe una creencia bastante generalizada de que Big Data es solo para grandes empresas. Sin embargo, lo cierto es que Big Data es una solución tecnológica para todo tipo de organizaciones.

En este artículo os quiero mostrar cómo cualquier organización es susceptible de necesitar una solución Big Data, y cómo el hardware no es una limitación cuando hablamos de tecnología en este tipo de proyectos.

 

Cualquiera puede usar Big Data

La necesidad de utilizar Big Data viene dada por los datos y el uso que se haga de éstos, no por el tamaño de la organización que tiene esa necesidad.

En mi artículo «¿Qué es Big Data?» podéis leer acerca de las 3 V’s que dictan la necesidad de implementar una solución basada en Big Data. En ningún momento hablo del tamaño de la organización ni de su presupuesto. Todo gira alrededor de los datos y el uso que se haga de ellos.

Cualquier organización de hoy en día es susceptible de necesitar Big Data. Tan solo hace falta tener procesos que capturen la información, y una firme voluntad de explotarla.

La generación de grandes volúmenes de datos es posible en una gran cantidad de procesos. La velocidad necesaria para explotar la información dependerá del uso que se le quiera dar y del tiempo de vida útil de ésta. Y el uso de tipos de datos complejos como imágenes, vídeos, etc. es algo que también está al alcance de la mano de las organizaciones de hoy en día.

Big Data personal

Un claro ejemplo de que cualquiera puede usar Big Data es el de las personas físicas.

En la red ya se empieza a encontrar información acerca de lo que se ha denominado el «Big Data personal». Este término responde a la idea de que los propios individuos generan cada vez más información. Y esta información se almacena tanto en nuestros dispositivos, los que generan la información, como en la nube (cloud). Esto es lo que se denomina la huella digital (digital footprint).

En nuestro día a día usamos móviles, ordenadores, relojes con sensores que están constantemente midiendo nuestra actividad… Toda esta información es susceptible de ser utilizada. Pero no solamente por los fabricantes de los dispositivos y las empresas del software y las Apps que usamos, sino también por nosotros mismos.

La cantidad de datos que generamos la podríamos utilizar para obtener un beneficio propio. Por ejemplo, la ruta recomendada para ir al trabajo para una persona con sobrepeso e hipertensión a quien le guste la arquitectura, podría ser adaptada para dar un rodeo de 5′ a pie, aprovechando para ver un par de edificios de modernistas un día, una iglesia otro día, etc.

Big Data en las PYMEs

Si una persona genera suficientes datos y puede obtener resultados útiles para sí misma, ¿qué no puede hacer una organización?

Todo proceso es medible. He estado en muchas empresas hablando con directivos sobre la importancia del análisis de datos para la toma de decisiones. A menudo me comentan que no generan datos suficientes, y que por eso no ven viable implementar una solución analítica. Es una lástima por ellos, porque seguro que sus competidores sí que estan capturando información. Y quizá la estén analizando para mejorar su posicionamiento en el mercado y su eficiencia interna.

La no existencia de datos es un punto de incio a partir del cual las organizaciones deben tomar consciencia de lo que están dejando de lado. Una vez una organización se da cuenta de esta situación, debe empezar a capturar datos para así poder explotarlos.

Los datos que potencialmente se pueden obtener en la gran mayoría de las empresas (por no decir todas), está por encima del límite que separa el Business Intelligence (BI) tradicional del Big Data. Así pues, cualquier PYME puede tener la necesidad de una solución analítica basada en Big Data.

No es necesario un superordenador

Llegados a este punto, otra de las creencias extendidas es que para utilizar Big Data necesitamos una máquina con un poder de cálculo inmenso, inasumible desde el punto de vista económico para la gran mayoría de empresas. Esa es una creencia errónea.

A diferencia del BI tradicional, Big Data puede trabajar sobre lo que se conoce como commodity hardware. Es decir, hardware de baja capacidad computacional. Por lo tanto, hardware con un coste medio o bajo. Esto permite que organizaciones sin un gran presupuesto para hardware, puedan incorporar Big Data a su conjunto de herramientas tecnológicas.

Supone esto un hándicap para las organizaciones que trabajan con hardware de media o baja potencia? En absoluto. Big Data permite añadir ordenadores a su red computacional de Big Data, permitiendo ampliar la potencia de cálculo de todo el sistema. En otras palabras, una organización será capaz de ampliar su capacidad de análisis de datos con el tiempo, a partir de pequeñas inversiones. Esta flexibilidad que ofrece Big Data, permite que las organizaciones puedan crear un cluster de Big Data (un conjunto de ordenadores que colaboran entre ellos para obtener unos objetivos comunes) de manera progresiva, sin tener que realizar una gran inversión inicial.

Conclusión

Big Data es una solución tecnológica que surge como respuesta a unas necesidades. Todas las empresas, por muy pequeñas que sean, trabajan con procesos que generan datos. Si las organizaciones son capaces de capturar esos datos, éstos pueden crecer hasta llegar a límites más allá de lo que un BI tradicional puede gestionar de manera eficiente. En ese momento es en el que aparece la necesidad de usar Big Data.

Por otra parte, Big Data es capaz de funcionar en entornos de sistemas muy variados, bien sea un superordenador o un conjunto de ordenadores de gama baja. Esta flexibilidad permite que cualquier organización ya sea grande, mediana o pequeña, pueda implementar una solución de Big Data.