El antes, durante y después de un proceso ETL

El antes, durante y después de un proceso ETL

Los que llevamos un tiempo en el mundo de Business Intelligence (BI), sabemos que un buen proceso ETL es algo un poco más complejo de lo que parece. Cuando incursionamos en esta aventura de conocer BI, procesos de migración de datos o poblamientos de grandes estructuras, quedamos fascinados con las herramientas y la versatilidad de éstas para facilitarnos el desarrollo de procesos ETL. Por ende, he visto como desarrolladores, arquitectos y demás especialistas de BI pueden llegar a caer en un peligroso nivel de confianza, asumiendo que las herramientas resolverán todo el entorno, manejo y control de procesos y hoy en día estoy convencida que no es así.

Acá te dejo unos simples pasos que te orientarán como especialista técnico en el mundo de los ETL’s para que los procesos que diseñes, construyas u operes tengan un tiempo de vida útil y óptimo, los mejores tiempos de ejecución y la menor frecuencia de incidencias posibles.

El Antes de un proceso ETL

  • Define tu proceso ETL, debes contemplar inicialmente si lo que vas a diseñar y construir pertenece a un proceso de simple de migración de datos, el poblamiento de una base de datos relacional, la creación de un modelo analítico, el poblamiento de un Data Warehouse, Data Marts, Data Lakes, etc. Esto es muy importante porque te permitirá dimensionar la envergadura y blindaje de tu proceso ETL. A partir de acá, ya se te abrirá la mente para saber qué tipo de orquestación, cálculos y estructuras tendrás de realizar para tener éxito.
  • No estás solo, el entorno es importante: Valida los sistemas de origen, sus ventanas de acceso y la disponibilidad de los datos al momento de extraerlos de las fuentes. Dicen los expertos que el proceso de extracción ideal es el que apenas se nota, es por ello que siempre nos van a exigir que el proceso de extracción de datos desde las diversas fuentes cause el menor impacto posible. Por ejemplo, que no suponga ningún retraso a los empleados que, diariamente, trabajan con los datos y registros, que no genere contención dentro de una fuente transaccional, etc. Una extracción de un número demasiado grande de datos de una sola vez puede llegar a ralentizar e incluso colapsar, el sistema. Por este motivo, es importante valorar muy bien las necesidades y el alcance de la operación a realizar y, si es necesario, llevar a cabo la operación de forma escalonada en bloques de menor tamaño y/o en las fechas y horas más adecuadas para lograr ese mínimo impacto.
  • Haz un levantamiento de los diversos tipos de fuentes que formarán parte del proceso de extracción: 1. Si son fuentes estructuradas: ambientes, servidores, bases de datos, tipos de acceso, propietarios (owners), esquemas, tablas, campos, meta datos. 2. Si son fuentes no estructuradas: apis, tokens, links, distintos tipos de archivos, etc. A todos éstos debes cederle un espacio formal a nivel de estaciones (stagings) o sistemas de archivo (filesystem) para luego proceder a la fase de transformación.
  • La figura de Arquitecto de Información influye mucho porque el éxito de un proceso ETL radica en que la fase de carga (Load) se ejecute de manera correcta y para ello es imprescindible que los datos que se están cargando vayan a un destino con integridad referencial al 100% si aplica, en caso que no (si se tratase de un data lake por ejemplo) pues el destino debe tener un diseño y arquitectura lo suficientemente robusto que genere estabilidad de los datos conforme a su crecimiento.
  • Recopila toda la información del punto anterior e identifica qué es variable y qué es fijo… ¡No te confíes! Más adelante sabrás por qué.
  • Levanta las reglas de negocio: muchas de ellas aplicarán en el proceso de Extracción y las restantes en el proceso de transformación, esto dependerá del diseño del proceso, lo importante es no dejar de levantarlas. Aun así, si llegase a quedar por fuera alguna regla, como ya sabes que debes hacer tu proceso escalable (como un rompecabezas) no será muy difícil incorporar dicha regla.
  • Cuando llegas a la transformación, tras la extracción de los datos y como paso previo a su carga, haz llegado al corazón del proceso. Allí debes plasmar todas las reglas negocio que le darán otra cara a los datos que se extrajeron. En esta fase, las herramientas de integración con las que trabajemos influyen mucho y nos brindan ciertas bondades para lograr este objetivo. ¿Qué se hace en esta fase? Por lo general operaciones como reformateo de datos, conversión de unidades, selección de columnas para su carga posterior, agregación (suma) de columnas, dividir una columna en varias, traducir códigos, obtener nuevos valores calculados, unir datos de varias fuentes, los llamados look ups: que es cuando se toma un dato y se lo compara con otro tipo de datos, cruzando información, lo que llaman pivoting: que es un proceso parecido a los looks pero con un grado mayor de complejidad, ya que se cruzan datos de distintas fuentes. Y para usted de contar. Lo importante es que cada operación sea óptima, puntual y finita.

El Durante de un proceso ETL

Al momento de construir un ETL considérate todo un maestro de las piezas, un arquitecto, un ingeniero de partes. Imagina que construyes una gran tubería por la que deban viajar datos y meta datos y deben llegar completos y estructurados a su destino. Toma en cuenta que la herramienta que estés utilizando tiene una gran importancia y un papel determinante en dicha construcción, pero… El protagonismo te lo llevas tú.

  • Haz tu proceso escalable y flexible. Las extracciones con extracciones, las transformaciones con transformaciones, las cargas con las cargas. No mezcles estos procesos.
  • Ajusta tu proceso a las ventanas de disponibilidad de los servicios, tanto a nivel de extracción (lectura de datos) como a nivel de carga (escritura de datos). Recuerda que muchas veces nuestra fuente y destinos no son administrados por nosotros, por lo que el proceso debe acoplarse de forma óptima a estas ventanas.
  • Diseña bloques programados que realicen notificaciones de fallo vía correo o mensajes de texto, creación y mantenimiento de logs, etc., de cada paso o estación que se pueda construir dentro del proceso.
  • Identifica todo desarrollo dentro del proceso ETL, identifica los jobs de extracción, los jobs de transformación, los jobs de carga, los Jobs de control.
  • Documenta el proceso. Lo sé, esto no suele gustar, pero… documenta, documenta ¡documenta! No te arrepentirás.
  • Parametriza todo dentro del proceso ETL, cuando te comenté en la sección del Antes del Proceso ETL que debes identificar de toda la información levantada y recopilada todo aquello que pueda ser variable o fijo es porque un buen desarrollador BI conoce un secreto: en el mundo de las Empresas, en el mundo de la informática, en el mundo actual… ¿Cuál es la única constante? El Cambio. Por tanto, es posible, probable, seguro, que en el pasar del tiempo cambien nombre de rutas, librerías, nombres de tablas, nombres de archivos, nombres de esquemas, etc. Por tanto, una excelente práctica durante la construcción de los procesos ETL es parametrizar todos los nombres y variables que sean posibles. Hoy en día, la gran mayoría (por no decir todas) de las herramientas de integración ETL permiten colocar parámetros de este tipo. Así que, no dejes de hacerlo.
  • No te olvides de incorporar dentro del proceso todos aquellos puntos de control que hagan manejable y operativo el ETL, mecanismos de selección de frecuencias de ejecución, modalidades de ejecución: por ejemplo, si deseas ejecutar todo el proceso ETL, si deseas ejecutar solo Extracción y Transformación: ET, si deseas ejecutar solo Transformación y Carga: TL o cualquier combinación posible y efectiva.

 

El Después de un proceso ETL

¡Felicidades! Haz construido un proceso ETL… ¿Y ahora?

Déjame decirte si has llegado a esta etapa apenas tienes la mitad del camino recorrido. Si construiste un proceso ETL pensando que jamás fallaría, tú y tu proceso están destinados al fracaso, pero, si tomaste en cuenta todos los pasos anteriores, inclusive los que te voy a mencionar a continuación, entonces es altamente probable que logres tu objetivo y tu proceso ETL tenga un largo tiempo de vida útil y tenga adaptabilidad a la incorporación de nuevos productos dentro de su línea de ejecución.

El Después de un proceso ETL tiene existencia o razón de ser gracias al nivel de prevención que le otorgues antes y durante la construcción del mismo, por lo que el éxito vendrá en la fase de implementación en la medida que consideres lo siguiente:

  • Creando políticas de respaldo de todos los componentes involucrados dentro del proceso ETL: Jobs, transformaciones, bases de datos intermedias (stagings), filesystem, etc., garantizas el no perder código de programación realizado durante la construcción.
  • Realiza procesos de limpieza o depuración de datos, de esto dependerá el óptimo resultado de un proceso ETL. No es posible lograr un buen resultado final, acorde a los objetos marcados, sino se realiza previamente una buena limpieza de los datos. Sin esta etapa previa no es posible disponer de una base de datos de calidad que permite la toma de decisiones acertadas a nivel estratégico o ejecutivo. Esto da una idea de la enorme necesidad de tomarse muy en serio esta etapa, realizándola acorde a unos parámetros correctos y teniendo en cuenta las recomendaciones de los expertos.
  • Minimiza fallos en cadenas de ejecución… ¿cómo? Sabemos que muchas veces los errores son inevitables, pero siempre se pueden amortiguar. Tu experticia como desarrollador e implantador de procesos ETL te ayudará a minimizar fallos, más si no eres experto, el tener una idea de qué podría fallar te alertará a prevenir estas incidencias. Existen dos tipos de incidencias que pueden afectar un proceso ETL: 1. Una falla dentro del proceso ETL: éstas debes evitarlas a toda costa porque es tu nombre o el de tu empresa el que saldrá a relucir al momento que ocurra la falla. 2. Una falla en algún componente externo que se involucre con el proceso ETL: interrupción eléctrica, fallos de funcionamiento en los discos de almacenamiento. ¡Es cierto! Acá ya no es tu responsabilidad, pero si estableciste políticas de respaldo respectivas, no tendrás problema al momento de recuperar.
  • Han pasado 11 meses y tu proceso ETL se ejecuta correctamente, pero se acerca el cierre anual. ¿Estableciste todos los parámetros necesarios para un cambio de frecuencia? Esto no siempre ocurre, depende mucho del tipo de información que estés procesando dentro del ETL, sin embargo, establecer modos de frecuencia de ejecución permite reutilizar los componentes en diferentes instancias del tiempo, solo es cuestión que lo tomes en cuenta en tu fase de construcción y pasado un tiempo de la implantación no tendrás problema.
  • ¿Tu proceso ETL es a prueba de Contingencia? En muchas empresas, sobre todo las más grandes, se realizan eventos de contingencia que pueden ser desde simulacros hasta mecanismos reales dada una situación particular. Los procesos ETL no deben estar exentos a este tipo de eventualidades, ya que muy seguramente forman parte un sistema mayor, ya sea en el proceso de extracción o carga de datos. Ahora bien, no es algo descabellado implementar contingencia a tu proceso y mientras más escalable lo hayas construido menos complicado será incorporar un bloque de contingencia que determine cómo será la ejecución durante dicho evento. La naturaleza de la Contingencia determinará en qué punto del ETL se colocará dicho bloque, que puede ser tan sencillo o complicado como consideres, es decir, desde una serie de comandos que introduzcas en la Base de Datos que leas como un archivo demonio que aparezca al momento de activar la contingencia y forcé al ETL a finalizar o tomar otro camino… la decisión es tuya.

Son muchos los caminos o vías que puedes tomar para construir un proceso ETL, pero considero que este abreboca te dará muchas ideas para que te destaques como desarrollador BI. Siempre que te apegues a un marco metodológico, a estándares de programación y dejar volar tu ingenio e imaginación.

Bibliografía:

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos

Qué es un KPI y como se puede usar para mejorar el rendimiento de una organización

¿Cómo puede usarse para mejorar el rendimiento de una organización?

Con el advenimiento de las nuevas tecnologías han surgido diversas métricas para evaluar el comportamiento de las organizaciones, algunas de estas métricas son de aplicación general y otras pueden ser especificas dependiendo del tipo de organización que se trate: ya sea que esté dedicada a procesos de transformación, que preste servicios, se dedique a la agricultura, sea una empresa del sector bancario, etc.

A esta serie de métricas se les conoce como KPI’s, pero ¿qué es un KPI?

Un KPI es una medida o indicador que ayuda a una organización a entender qué tan bien está respecto con sus metas y objetivos estratégicos definidos. Es decir, un KPI muestra si una organización va en el camino correcto o no.

Los KPI’s también ayudan a reducir la complejidad del desempeño organizativo a un número pequeño y manejable de indicadores -estos indicadores ofrecen información que puede, a su vez, ayudar a la toma de decisiones y, por ende, mejorar el rendimiento de dicha organización-.

Ahora bien, ¿qué se debe tomar en cuenta para definir estos KPI’s?

Objetivo estratégico

Al definir un KPI siempre es mejor especificar claramente a qué objetivo estratégico se relaciona, de modo que todos los que miren dicho KPI de inmediato aprecien su relevancia y su aplicación dentro del entorno de la organización.

Ejemplo: Nivel de satisfacción del cliente, nivel de mermas, etc.

Audiencia y acceso

Los KPI’s no son para todos, hay que definir su audiencia principal: para quién es esta información, quién tendrá acceso a ella y a que área aplica, con esto podremos realizar tableros de indicadores (Dashboards) definidos para cierto tipo de auditorios.

Ejemplo: Directivos, personal de las áreas productivas, de áreas de RRHH o de ventas.

Preguntas clave de rendimiento

Se deben indicar las preguntas clave de rendimiento que el indicador está ayudando a responder. Esto ayuda a proporcionar un contexto sobre por qué se está introduciendo este KPI en particular y sobre qué tema específico arrojará más luz.

Ejemplo: ¿En qué medida nuestros clientes actuales están satisfechos con nuestro servicio?

Cómo se usará este indicador

Hay que especificar cómo se usará el KPI para que todos tengan claro de qué forma se piensa utilizar la información. También será necesario definir cómo no será usado dicho KPI ya que, a veces, las personas tienen miedo de informar sobre las medidas porque temen que los resultados negativos puedan usarse contra de ellos. Aquí, se puede informar que el KPI no se usará para determinar el rendimiento de las personas y no se vinculará al pago de la bonificación.

Ejemplo: El indicador se usará para evaluar e informar internamente sobre el éxito de nuestros clientes. No se usará para evaluar el desempeño de las personas o para determinar los pagos de bonos.

Nombre del indicador

Cada KPI necesita un nombre para que se pueda debatir colectivamente y tenga un significado único dentro de la organización, en la medida de lo posible se deben evitar nombres que se presten a confusión y puedan interpretar otras métricas, por lo que hay que elegir un nombre que explique claramente de qué se trata.

Ejemplo: Puntaje neto del promotor

Método de recolección de datos

Se debe identificar y describir el método de recopilación de datos que se va a utilizar para cada KPI. Los métodos de recopilación de datos pueden incluir encuestas, cuestionarios, entrevistas, recolección de datos de sensores, grupos focales, recolección automática de datos de sistemas informáticos, así como la recopilación de datos desde archivos de diversos formatos (Texto, Excel, etc).

Ejemplo: los datos se recopilarán mediante una encuesta por correo.

Criterios de evaluación / fórmula / escala

Se deben describir cómo se determinarán los niveles de rendimiento. Esto puede ser cualitativo, en cuyo caso los criterios de evaluación deben ser identificados, puede ser numérico o usar una escala, en cuyo caso se debe identificar la fórmula o escalas con categorías.

Ejemplo: Usando una escala de 0-10 (No es probable – es extremadamente probable), los participantes responderán: ¿Cuán probable es que nos recomiende un amigo?

Objetivos y umbrales de rendimiento

Es recomendable definir un objetivo o punto de referencia para cada indicador. Aquí también se pueden delinear los umbrales de rendimiento, es decir, en cuanto al rendimiento los niveles son juzgados como buenos o malos.

Ejemplo: Indicador de lealtad del cliente del 55% a fines de 2020.

Fuente de datos

Se debe especificar de dónde provienen los datos para que las personas que utilizan el KPI puedan tener la seguridad de su confiabilidad y validez.

Ejemplo: Encuesta de clientes existentes.

Frecuencia de recolección de datos

Hay que Indicar con qué frecuencia se recopilarán los datos del KPI y coordinar las fechas de recolección. Algunos KPI requieren datos que deben ser recogidos continuamente, otros especifican la recolección por hora, diaria, mensual, trimestral o anual. Asegurar que el horario lo permita y se tenga el tiempo suficiente para recopilar los datos, perseguir a las personas cuando sea necesario, analizarlas, agregarlas, resolver cualquier problema y entregar el informe sin dejar de garantizar que los datos que contiene sean lo más recientes posible.

Ejemplo: Recopilación mensual de datos de una muestra del 10% de nuestra base de datos de clientes.

Frecuencia de informes de datos

Se debe especificar cuándo y con qué frecuencia se informarán los datos para el KPI. Con que frecuencia tiene sentido coordinar la recopilación de datos y la generación de informes para garantizar que los datos que se están informando sean tan actualizados como sea posible. ¡No quiera terminar en una situación donde los datos se recopilan en enero y se informan al final del año!

Ejemplo: Informes mensuales.

Entrada de datos (persona responsable)

Es recomendable también especificar el título individual o de trabajo de la persona responsable de la recopilación de datos y las actualizaciones de los mismos. El propietario del KPI puede ser un empleado designado, una función comercial u operacional o una agencia externa.

Ejemplo: Rodrigo Gómez, Asistente de Marketing.

Vencimiento / fecha de revisión

Siempre se debe incluir una fecha de vencimiento o una fecha de revisión. Los KPI’s a veces sólo son necesarios durante un período de tiempo específico y sin una fecha de caducidad o revisión, estos KPI’s pueden continuar indefinidamente, lo que causa un trabajo innecesario. Incluso si los indicadores no son específicos del tiempo o del proyecto, se les debe asignar una fecha de revisión para garantizar que sigan siendo relevantes y útiles.

Ejemplo: En 12 meses.

¿Cuánto costará?

La medición y la recopilación de datos pueden ser costosas. Es importante estimar los costos para recolectar y monitorear un indicador y evaluar si los costos están justificados.

Ejemplo: Los costos son significativos, pero son más baratos que una encuesta tradicional de satisfacción del cliente.

¿Qué tan completo es este indicador?

Se debe evaluar brevemente qué tanto este indicador está ayudando a responder la pregunta clave de rendimiento asociada e identificar sus posibles limitaciones.

Ejemplo: Nos proporciona un buen número simple, pero los datos deberían completarse idealmente con clientes no estructurados retroalimentando sobre lo que es particularmente bueno y lo que podría mejorarse.

Posibles consecuencias no deseadas

Hay que describir brevemente cómo éste indicador podría influir en los comportamientos incorrectos o en cómo las personas pueden hacer trampa con este KPI.

Ejemplo: Las personas podrían influir en los clientes antes de realizar la encuesta o podrían seleccionar clientes que probablemente respondan de forma positiva.

Si ya se tienen KPI’s definidos en la organización hay que revisar si cumplen los puntos anteriores, si requieren ser ajustados o si es necesario adicionar algunos nuevos que sean construidos bajo dichas recomendaciones.

BI y gobernabilidad de los datos

Matrix CPM Solutions puede apoyarle en la concepción de proyectos de BI que le permitan autogestionar sus datos y empoderarse de ellos

Hoy en día es muy importante para cualquier organización conocer sus datos y poder -en base a ellos- responder rápidamente a situaciones cotidianas que puedan potenciar su negocio.

Cuando en una organización cada unidad de negocio trabaja de forma aislada con sus datos, o sencillamente no los utiliza o analiza, no existe una visión integral y controlada de los mismos, por lo que lograr los objetivos organizacionales se convierte en un gran problema.

BI-Y-GOBERNABILIAD-DE-LOS-DATOS_BLOG-01El objetivo principal de la Gobernabilidad de Datos consiste en asegurar que exista visión integral de los datos, que haya comunicación entre negocio y TI, que las unidades de negocio están alineadas, que los datos sean lo que deben ser, sin dejar a un lado el monitoreo y protección de los mismos, al ser estos uno de los activos más importantes de las organizaciones.

Para implementar Gobernabilidad de Datos en una empresa es imprescindible establecer procesos, políticas y roles; a través de un equipo conformado por profesionales de TI y de las áreas de negocio involucradas, cuya misión sea justamente entender los datos en búsqueda de alcanzar los objetivos organizacionales.

La Gestión de los Datos subyacente a la Gobernabilidad de Datos de una empresa no es más que la Gestión del Conocimiento que se realiza con ellos.

Las ventajas que se pueden nombrar al establecer un Gobierno de Datos son:

– Mejorar la calidad de la información y la integridad de los datos

– Aumentar la eficiencia operativa a través de proyectos de BI que permitan obtener visualizaciones para establecer pronósticos de comportamiento de los productos o servicios ofrecidos

– Ser más agiles al colocar nuevos productos en el mercado

– Reducir el posible solapamiento de funciones y/o trabajos repetitivos en el análisis de los datos

– Mejorar el uso del tiempo

Con la implementación de la Gobernabilidad de Datos, las diferentes áreas de negocio involucradas podrán acceder a sus implementaciones de BI con plena confianza de que los datos obtenidos le permitirán tomar las decisiones adecuadas sin intervención del equipo de TI, quienes podrán dedicarse a realizar otro tipo de actividades más estratégicas para su línea de reporte.

Hyper: Revolucione sus motores de datos

Hyper es la nueva tecnología de motor de datos en memoria de alto rendimiento de Tableau, diseñada para acelerar la ingesta de datos y el procesamiento analítico de consultas en conjuntos de datos grandes y complejos.

Hyper, la tecnología incluida en Tableau 10.5, optimiza la creación de extracciones, actualiza el rendimiento y admite conjuntos de datos aún más grandes. Esto le permitirá beneficiarse de velocidades de consultas cinco veces más rápidas y una velocidad de creación de extracciones hasta tres veces mayor. Como resultado, los clientes pueden crear las extracciones en función de las necesidades de su negocio, sin preocuparse por establecer limitaciones. Asimismo, para mantener a los clientes en el flujo de análisis, Hyper puede completar consultas sobre grandes conjuntos de datos en solo unos segundos. Gracias al rendimiento acelerado de las consultas, los dashboards complejos se abren con mayor rapidez, los filtros son más veloces y la incorporación de nuevos campos a las visualizaciones es casi instantánea. Hyper tiene sus orígenes en la Universidad Técnica de Múnich (TUM), en Alemania. Más tarde, Tableau adquirió la filial comercial e integró la tecnología al producto en menos de 18 meses.

Hyper también ayuda a los clientes a adaptar sus extracciones para un uso más amplio. Para ello, aprovecha los avances en procesadores de múltiples núcleos y la implementación de novedosas técnicas de paralelización de las cargas de trabajo. La tecnología Hyper constituye un rápido sistema en memoria diseñado para ejecutar cargas de trabajo transaccionales y analíticas sin afectar al rendimiento. Mediante el uso de técnicas de optimización de consultas innovadoras y un estado de almacenamiento en la misma columna para todas las cargas de trabajo, Hyper ayudará a acercar a los clientes a sus datos.

hyper1

Diseño exclusivo de Hyper

Durante la última década, los motores de datos en memoria y las tecnologías de análisis de bases de datos incorporaron distintas técnicas, como el muestreo y el resumen. Con ellas, lograron incrementar enormemente el rendimiento de las consultas. Sin embargo, estas mejoras de rendimiento tuvieron un costo. Muchos sistemas sacrificaron rendimiento de escritura (indispensable para la velocidad en la creación de extracciones y las actualizaciones) en pro de optimizar el rendimiento de la carga de análisis. Cuando la escritura es lenta, los datos pierden relevancia y se vuelven obsoletos. ¿Cuál fue el resultado? Se generó una desconexión entre las personas y los datos que estas deseaban analizar. La misión de Hyper es acercar los datos a las personas mediante una escritura y una carga de análisis veloces. En resumen, Hyper proporciona datos actualizados con rapidez. De ese modo, le permite analizar una vista más amplia y completa de sus datos.

Redefinición de la arquitectura de sistema: un estado para las transacciones y las consultas analíticas

Con Hyper, las transacciones y las consultas analíticas se procesan en el mismo almacén de columnas, sin necesidad de volver a procesar los datos después de su obtención e importación. Así, se reduce la cantidad de datos obsoletos y se minimiza la desconexión entre los sistemas especializados. La metodología exclusiva de Hyper admite la combinación de intensas cargas de trabajo de escritura y lectura en un mismo sistema. En consecuencia, se pueden crear extracciones con rapidez sin sacrificar el rendimiento de consulta. Se gana en todos los frentes.

hyper2

Una nueva metodología para la ejecución de consultas: generación de código dinámico

Hyper usa un novedoso modelo de ejecución de compilación JIT (Just-In-Time). Muchos otros sistemas usan modelos tradicionales de ejecución de consultas que no pueden aprovechar por completo el hardware moderno de varios núcleos. Por el contrario, Hyper optimiza y compila las consultas en código informático personalizado para hacer un uso más eficaz del hardware subyacente. Cuando Hyper recibe una consulta, crea un árbol, lo optimiza de manera lógica y, después, lo usa como modelo para generar el programa específico que se va a ejecutar. Como resultado, se optimiza el uso del hardware moderno para una ejecución de consultas más rápida.

hyper3

Mayor aprovechamiento del hardware: paralelización basada en fragmentos

Hyper fue diseñado desde cero para entornos grandes de varios núcleos. Este modelo de paralelización se basa en unidades de trabajo muy pequeñas (fragmentos). Estos fragmentos se asignan de manera eficaz a todos los núcleos disponibles y permiten a Hyper responder, con mayor precisión, ante las diferencias de velocidad de los núcleos. En consecuencia, el hardware se usa con mayor eficacia y el rendimiento es superior.

hyper4

Actualización del extracto a formato .hyper

En esta versión de Tableau (a partir de la 10.5), los nuevos extractos utilizan el formato .hyper en lugar del formato .tde.

Aunque existen muchas ventajas ya mencionadas en el uso de extractos .hyper, las ventajas principales son las siguientes:

  • Crear extracciones de mayor tamaño: las extracciones en formato .hyper pueden contener miles de millones de filas de datos. Como las extracciones .hyper admiten más datos, puede utilizar la versión de Tableau Desktop 10.5 para consolidar las extracciones .tde que anteriormente tenía que crear por separado.
  • Creación y actualización más rápida de extractos: mientras que Tableau siempre ha optimizado el rendimiento para la creación y actualización de extractos, esta versión admite la creación y actualización de extractos para conjuntos de datos aún más grandes.
  • Un mejor rendimiento al interactuar con las vistas que utilizan fuentes de datos de extracción de mayor tamaño: vistas que utilizan fuentes de datos de extracción para obtener un mejor rendimiento que el que tenían anteriormente. Aunque las extracciones más pequeñas siguen funcionando eficazmente, las de mayor tamaño tienen un rendimiento más eficiente.

Más allá del auge del Big Data

La explosión de los datos

Los datos tienen el poder de transformar de gran manera cada industria o negocio, e incluso el cómo nosotros llevamos nuestra vida diaria, los datos pueden hacer que los negocios de cualquier tamaño agreguen valor e impulsen mayor competitividad, no me refiero únicamente a las grandes compañías que integran una cantidad de datos impresionante de manera masiva, sino a cualquier negocio incluso al más pequeño que se aprovecha de los datos de las redes sociales para entender mejor a sus consumidores.

El término “Big Data” se refiere a estos enormes conjuntos de datos que estamos construyendo, así como a la interpretación, análisis y acciones que tomamos en base a los conocimientos adquiridos, derivados de ésta.

Young man pointing at Big Data concept over a tabletLos grandes monstruos online como Google, Facebook y Amazon, recaban grandes cantidades de datos de las personas y usan esta información para determinar lo que la gente quiere, así como para vender servicios de publicidad dirigida, en Latinoamérica un ejemplo es Mercado Libre y BestDay.

Cuantas veces hemos hecho búsquedas en diversos servicios de compra en línea o hemos reservado boletos para un determinado tipo de película y posteriormente cuando estamos navegando, por simplemente revisar las publicaciones de Internet, nos aparecen -sin pedirlo- notas relacionadas al producto que estábamos buscando o publicaciones del tipo de película que reservamos los boletos, es aquí en donde vemos como la información de nuestras preferencias, recolectada por estos monstruos se aplica.

Hay que considerar que el aprovechamiento de los datos no es solo para los grandes jugadores como mencionábamos en un inicio, no importa si se es grande o pequeño, los datos tienen valor para cada empresa en cualquier industria.

El Internet de las cosas (IoT)

Parte de la explosión de los datos es el Internet de las Cosas (IoT) también conocido como el Internet de Todo (IoE), referido a los diversos dispositivos existentes en el mercado que recaudan datos y los transmiten vía Internet; tales como los teléfonos inteligentes, relojes deportivos, bandas deportivas, incluso televisores, refrigeradores y otros aparatos electrónicos de uso frecuente.

Estos pequeños dispositivos están transformando nuestro mundo, nuestras casas, nuestros autos y nuestros negocios, se estima que para el año 2020 un cuarto de billón de autos estén conectados a Internet, permitiendo un amplio abanico de servicios, incluyendo el manejo automatizado.

El advenimiento de los dispositivos “wereables” (aquellos que usan las personas sobre si mismos como relojes inteligentes, medidores de rendimiento de ejercicio, etc.) ha sido un hito tecnológico crucial para el Internet de las Cosas. Una de cada seis personas usa alguno de estos dispositivos de una manera u otra y estas unidades crean una riqueza de datos que muchos negocios están considerando, extrayendo de ellos datos valiosos para provecharlos.

Estos pequeños dispositivos no sólo se conectan a Internet, sino que se comunican entre ellos y comparten información. De hecho, las conexiones máquina a máquina crecerán a 27 billones para el 2024.

Imagínense, en un futuro no muy lejano, que su refrigerador pueda detectar que la leche ya está cerca de caducar o que los huevos están cerca de agotarse y que automáticamente le envié un mensaje a su reloj inteligente para notificarle la situación, al tiempo que automáticamente hace el pedido a su tienda en línea; así, al llegar a casa usted encontrará el paquete del mercado en su puerta.

En conclusión…

Cada vez será mayor la cantidad de datos que se generaran, así que las empresas que sepan aprovechar estos enormes conjuntos de datos serán las que se mantendrán y prosperaran en el futuro, las demás desaparecerán irremediablemente.

Dentro de las empresas de tecnología, aquellas que desarrollen manejadores de bases de datos más eficientes: preparados para el procesamiento de cantidades de datos jamás imaginadas, con tiempos de respuesta a las peticiones de consulta muy cortos y con un uso eficiente de las capacidades de computo; que desarrollen nuevas tecnologías que lleven a una analítica poderosa, pero de fácil acceso y manipulable directamente por los usuarios, con una manera de comunicación de resultados muy visual y en menor tiempo, serán las triunfadoras.

¿Cuándo usar NoSQL y qué familia usar?

Hoy en día las tecnologías han avanzado a paso agigantados, lo que antes conocíamos como las mejores prácticas que daban excelentes soluciones a los problemas organizaciones, en la actualidad deben ser bien evaluadas para determinar si convienen o no al negocio.

En este post en particular versaremos sobre los datos, su almacenamiento y cuando es conveniente salirse de “lo tradicional” y aplicar una Base de Datos NoSQL.

Los gestores de Base de Datos utilizados por muchos años como los Relacionales (RDBMS) han sido los preferidos de las empresas para manipular y almacenar sus datos de forma fácil, rápida y segura. Pero, teniendo en cuenta que su modelo es relacional, los datos se representan mediante un conjunto de tablas vinculadas entre sí. Es por ello que cuando se hacen consultas por lo general implica unir estos conjuntos, lo cual es costoso a nivel de los recursos del equipo.

Sin embargo, en la actualidad ha surgido una tendencia muy importante en el mundo de las Bases de Datos: las NoSQL (Not-Only SQL). Creadas en 1998 por Carlo Strozzi, quien empleó ese término para expresar que su base de datos era open-source, ligera y que no presentaba una interfaz de SQL tradicional.

Estas bases de datos NoSQL difieren del modelo clásico de relaciones entre entidades (tablas), y no usan SQL como lenguaje de consultas. También utilizan varios modelos de datos como los documentos, gráficos, claves-valores y columnas. Las bases de datos NoSQL se distinguen por su fácil desarrollo, desempeño escalable, alta disponibilidad y adaptabilidad.

Ahora bien, la gran pregunta ¿Cuándo usar NoSQL? Todo dependerá de las necesidades del proyecto. Si se necesita escalabilidad, hay escases de recursos físicos y, sobre todo, no se necesita mantener la integridad de los datos, se podría elegir una base de datos como esta. También se debe tener en cuenta el gran volumen de los datos, cómo leerlos de manera rápida y sencilla. Ya que algunas NoSQL pueden devolver esa cantidad de registros en un archivo JSON y después son manipulados desde ahí.

Los principales proyectos donde se sugiere utilizar NoSQL son:

  • Redes sociales
  • Desarrollo Web
  • Desarrollo Móvil
  • BigData
  • Cloud (XaaS)

¿Cuáles son las ventajas y desventajas de las Bases de Datos NoSQL?

Captura de pantalla 2018-03-10 18.47.32

Dar clic para agrandar

 

En suma, existen varias opciones en cuanto al almacenamiento y manipulación de nuestros datos, sólo debemos tener en cuenta qué se quiere lograr en el proyecto, qué tipo de información estamos manejando y evaluar bien cuál formato conviene utilizar, para darle la mejor utilidad posible a la tecnología que se decida implementar.

¿Microsoft destronó a Tableau?

Cada mes de febrero escuchamos comentarios sobre el “Cuadrante mágico de Gartner” pero sabemos en realidad cómo leer este análisis, los invitamos a ir más allá de la “distribución espacial” de los puntos azules en estos cuatro cuadros…

Recientemente fuimos parte de los resultados actualizados del cuadrante mágico de Gartner y hubo un gran rebullicio entre los usuarios de la herramienta de visualización analítica Tableau ¿Será posible que Power BI haya desplazado a Tableau como líder del mercado?

En primer lugar, es importante aclarar quién es Gartner y por qué es tan relevante su medición del uso de estas herramientas:

  1. Gideon Gartner es el autor de los experimentos mentales “Stalking Horses”, que despiertan el pensamiento innovador. Este método gráfico evolucionó en los años 90 hasta llegar a convertirse en una investigación oficial.
  2. Gartner Inc. es una empresa consultora y de investigación de las tecnologías de la información(TI) que organiza sus estudios en tres áreas: investigación de mercado, investigación por asuntos e investigación por sectores.
  3. El “Cuadrante mágico de Gartner” es un ranking de los fabricantes de TI con mejores solucionesy productos, creado en 1992 por Jenni Lehman, vicepresidente del grupo de operaciones de investigación de Gartner.
  4. El Cuadrante Mágico tiene dos ejes: el horizontal es “integridad de visión”, refleja cuántas características puede tener un producto y las mejoras innovadoras que están obligando a otros proveedores a reaccionar para mantener el ritmo. El eje vertical es “la capacidad de ejecución” está determinado por los ingresos, el número y calidad de los distribuidores, el número de empleados y su distribución entre las áreas de ingeniería, ventas, soporte y otros asuntos del negocio (Stiennon, 2012).
Capacidad de ejecución Retadores/Aspirantes

Caracterizados por ofrecer buenas funcionalidades y un número considerable de instalaciones del producto, pero sin la visión de los líderes

Líderes

Obtienen la mayor puntuación al combinar su habilidad para ejecutar (lo bien que un vendedor vende y ofrece soporte a sus productos y servicios a nivel global) y el alcance de visión, que se refiere a su potencial

Jugadores de nicho

Enfocados en determinadas áreas o mercados, pero sin capacidad de innovación

Visionarios

Tienen productos que cumplen con los últimos requerimientos del mercado y lo conjuntan con una habilidad para anticiparse a las necesidades futuras, pero no son tan buenos en la ejecución

                                                                                                                                           Integridad de visión

5.-   Esta herramienta representa gráficamente la situación de un producto tecnológico en un momento determinado, muestra una referencia de su comportamiento en el mercado, de cuáles son los fabricantes de productos y/o soluciones mejor valorados. Por ejemplo, una clasificación de líder brinda una ventaja competitiva a la hora de seleccionar un producto o solución y nos indica que este fabricante posee la habilidad de ejecutar el proyecto con una visión orientada a la nuestra organización.

Ahora que ya tenemos más claro el método gráfico es conveniente centrarnos en la ubicación obtenida por una de las herramientas que promovemos y que consideramos revoluciona la forma en que las organizaciones visualizan y potencian sus datos: Tableau.

gartmer_mq20182Tableau se robustece este 2018 con su sexto año de liderazgo en el Cuadrante Mágico de Gartner en análisis e inteligencia de negocios; François Ajenstat (2018) responsable de la gestión de productos para Tableau Software comentó: “lideramos el sector de la BI con una misión que inspira confianza en los clientes (…) Nuestra misión es ayudar a las personas a ver y comprender los datos. Esta misión impulsa nuestra incansable dedicación al cliente, nuestra capacidad de innovar rápidamente y nuestro compromiso con la excelencia operativa. Todo esto hace de Tableau la plataforma de análisis con más menciones y mejor calificada en Gartner Peer Insights”.

Pero, a todos nos generó “ruido” ver a Microsoft tan cerca, casi a la misma altura y un poco más favorecida en el ámbito de “visión” en el cuadrante dedicado a BI y soluciones analíticas ¿Acaso Power BI puede haber sido considerada una marca más visionaria que Tableau?

Efectivamente, Microsoft fue ubicado en la primera posición de “Visión” dentro del cuadrante de Líderes. Todo parece indicar que la decisión de actualizar y modernizar la definición de una plataforma de BI en 2016 transformó positivamente la imagen de esta marca en un mercado que evoluciona con rapidez y que presenta innovaciones constantemente.

“Microsoft está decidido a ofrecer soluciones modernas de BI y análisis para todos los tipos de usuarios y a permanecer como líder y visionario en el tan competitivo ambiente de plataformas de BI” (2016, news.microsoft.com).

Sin embargo, las expectativas de Tableau con el reciente lanzamiento de su nueva versión Hyper 10.5 son potenciar significativamente el uso de su herramienta ofreciendo velocidades de consulta cinco veces más rápidas, triplicando la velocidad en la creación de extracciones y brindando a los usuarios novedades como Tableau Server para Linux, visualizaciones en descripciones emergentes incorporadas y un control adicional de la gobernanza.

Tableau continúa liderando el cuadrante con una “cualidad aspiracional” arrebatadora y una imagen de marca dinámico, fuerte, consistente, cercana y poderosa que vive actualmente un momento de potencialidad, con claras razones para ser los favoritos de las grandes organizaciones:

  1. Los usuarios prefieren el análisis visual intuitivo de Tableau
  2. Es una plataforma flexible que se adapta a la estrategia de datos del cliente
  3. Su innovación está centrada en agregar valor para el cliente
  4. Cuenta con un estándar empresarial para el análisis de autoservicio, impulsado por TI
  5. Ofrece un gran impacto con un costo total de propiedad mínimo
  6. Cuenta con una comunidad apasionada y dedicada a aprender y compartir

A fin de cuentas, no hay que perder de vista que el Cuadrante Mágico es un Stalking Horses: un punto de partida; una ventaja temporal para competir nuevamente por ser más fuerte y derrotar al rival…

Referencias:

El top 10 de las tendencias en Inteligencia de Negocios

Hola a todos los que nos leen por aquí.

En estos momentos les daré un abre boca de las 10 tendencias en inteligencia de negocios para el 2018. Así qué, corran, busquen un café o un té y pónganse cómodos para contarles estás grandes cosas que están por ocurrir.

Todos los años ocurren sucesos que esperamos, como el lanzamiento del nuevo Iphone o Samgsun pero, también pasan cosas inesperadas. Este tipo de eventos marcan un hito en el tiempo, un antes y un después, a veces con tanta fuerza que ni siquiera recordamos cómo era todo antes de… Pero, ¿será posible que algún día creemos algo que nos ayude a predecir tendencias? Yo creo que sí.

Hoy en día se realizan predicciones “manualmente”: estudiando las tendencias, haciendo entrevistas o aplicando el método de la observación (como hago yo). Así logramos recaudar una buena cantidad de información para armar, construir o -en nuestro caso- desarrollar nuevos productos que en algún momento llenarán un nicho de mercado que está por nacer. Pero todo esto sigue siendo muy, pero muy empírico… No estoy diciendo que sea malo, sino que hemos avanzado tanto en la tecnología que hemos creados modelos predictivos que nos ayudan en temas puntuales y deberíamos seguir avanzando en este tema.

Es por ello que una de las primeras tendencias este año es… Ta-ra-ta-tán… ¡La inteligencia artificial! Aplausos por favor.

Sé que por muchos años ha estado en desarrollo, pero también sé que muchas personas le temen a este tipo de avances, gracias al enfoque de películas como “Terminator” o “I robot”. Para resumirle a los no cinéfilos: La primera fue un clásico de los 80′ en donde la famosa inteligencia artificial “Sky Net” se vuelve contra la humanidad y decide eliminarla… Mientras que “I robot” se estrenó después del año 2000, nos muestra como V.I.K.I. (Virtual Interactive Kinetic Intelligence) quiere esclavizar a la humanidad porque es la única manera de “salvarnos”.

Así que, al parecer la inteligencia artificial (IA) se ha ganado su fama a pulso, pero veamos que dice el famoso Wikipedia sobre esto: “Coloquialmente, el término inteligencia artificial se aplica cuando una máquina imita las funciones ‘cognitivas’ que los humanos asocian con otras mentes humanas, como, por ejemplo: ‘aprender’ y ‘resolver problemas’”.

Pero, los expertos en Tableau tienen una concepción diferente del termino: “La cultura popular alimenta una concepción distópica del poder del aprendizaje automático. Sin embargo, mientras la investigación y la tecnología continúan mejorando, este se convierte rápidamente en un valioso complemento para el analista. De hecho, es el mejor asistente que cualquier analista podría tener”.

Desde cualquier perspectiva, podemos afirmar que la inteligencia artificial es la primera tendencia para este 2018 y tendremos mucha información novedosa para entretenernos este año.

El puesto n° 2 en nuestro top 10 está concedido a “El impacto humano de las humanidades en el sector del análisis

Actualmente, los expertos en el área de programación somos (ya casi éramos) los encargados de realizar informes, dashboard o historias. Pero esto quedó en el pasado, ahora son los “humanistas” los que están marcando la pauta; están siendo contratados 10% más rápido que los ingenieros ¿La razón? Las personas graduadas en las áreas humanistas tienden a poseer un índice de creatividad mayor que los que nos especializamos en carreras técnicas, desarrollan habilidades de pensamiento analítico y parecen digerir con facilidad la data. Así que vamos a darle una gran bienvenida a nuestro terreno, quizás aprendamos a contar historias de una manera más creativa.

Puesto n° 3. “La promesa del procesamiento del lenguaje natural

Recuerdo que en el 2016 cuando me llegó mi primer Nexus 5X, tenía disponible una actualización para Android Nougat con una función insertada en el sistema operativo llamada Google Assistant, un asistente al que cumplía funciones básicas por comando de voz, por ejemplo: “envía un mensaje a fulanita” o “llama a Pepe”, “abre Youtube y reproduce Hello por Adele”. Esta tecnología ha sido altamente exitosa y ha generado una sinergia entre los fundadores de Amazon Alexa, Google Home y Microsoft Cortana, quienes están alineando esfuerzos en sus productos para brindarnos más avances en procesamiento por lenguaje natural o voz. Así se materializa J.A.R.V.I.S. (Just A Rather Very Intelligent System) y cada uno de nosotros tendrá un asistente como el de Iroman, el héroe de Marvel.

En el puesto n° 4 tenemos “La multiplicidad de nubes

A pesar de la existencia de servidores y discos un Tera, cada vez más es más frecuente el uso de “la nube” para guardar o trasladar datos y aplicaciones. Según Gartner, se estima que para 2019 el 70% de las empresas tendrán sus datos en varias nubes, como Amazon Web Services y Microsoft Azure. Así que es momento para invitarlos a “ponerse a tono” con Pentaho para poder extraer la data de esas nubes e interpretarlas en Dashboard construidos en Tableau.

Para sorpresa de muchos, en el puesto n° 5 está “El surgimiento del director de desarrollo

Aunque este es un puesto que se escucha en grandes y pequeñas compañías, este cargo tiene un enfoque diferente al que ya conocemos; no es el señor que se va a poner a revisar el código de cada uno de los programadores ni nada de eso, es un perfil enfocado en el proceso de inteligencia de negocio (BI). Está persona, según el enfoque que tiene Tableau, debe “modificar los procesos empresariales, superar los obstáculos culturales y comunicar el valor del análisis en toda la organización”.

Se estima que para el 2019 el 66% de las empresas destinarán más presupuesto al área de análisis de datos y para el 2020 el 80% de las empresas tendrán un departamento dedicado exclusivamente a esta área.

En el puesto n° 6 encontramos “La gobernanza de los datos”

¿Cómo se come eso? Desde que se implementó la inteligencia de negocios ocurrió un cambio en la restricción de los datos y el contenido de la capacitación de los usuarios corporativos en todo el mundo. Dichos usuarios descubren, hoy en día, distintas maneras de trabajar con los datos gobernados y confiables para obtener la información que necesitan y, de esta manera, contribuir a la optimización de los modelos de gobernanza, que ha otorgado una fuerza colosal a las organizaciones.

Pero ¿qué es esto? “La gobernanza consiste en aplicar la sabiduría colectiva para proporcionar los datos correctos a las personas adecuadas y evitar que accedan a ellos las personas indebidas”.

Esta brecha genera nuevos retos en el área de BI porque debemos crear estrategias de análisis que incluyan el modelo de gobernanza moderno, garantizando que las fuentes de los datos sean confiables (ya que hay una tendencia dominante a que los usuarios manejen y auto gestionen sus reportes).

De ahí la necesidad de realizar reuniones con los usuarios al momento de generar una solución BI, para propiciar una mezcla entre nuestros conocimientos técnicos y los conocimientos de los usuarios finales, para crear las reglas necesarias y los procesos que maximicen el valor del análisis de los datos sin resignar la seguridad.

Puesto n° 7, un pequeño gigante que está avanzando poco a poco El aseguramiento de los datos”

¿Sabían que hay empresas que aseguran sus datos? Sí, un seguro de datos, así como una póliza contra accidente o un seguro de vida, así mismo. Pero, ¿por qué invertir en eso? Porque una brecha en la seguridad de la información -como le pasó el año pasado a Movistar, con el famoso ransomware- le puede llegar a costar a la empresa 3,62 millones de dólares ¡¡¡OMG!!!

Y el nivel de riesgo cada año va en aumento, solo el 15% de las empresas de Estados Unidos tienen sus datos asegurados contra cualquier pirata informático; todas son instituciones financieras.

La famosa frase de Bacon “la información es poder”, es absolutamente cierta ¿cuántas personas han sido extorsionadas porque les roban información confidencial? ¿a cuántos no le han hackeado su información personal y luego aparecen fotos comprometedoras o vídeos por allí? ¿cuántos se han visto en problemas porque se filtran sus estados financieros?

Así que, amigo lector, vayamos investigando cómo adquirir una de esas pólizas.

En el puesto n° 8 tenemos “La función del ingeniero de datos”

En una oportunidad Bill Gate realizó este planteamiento: “¿Qué es más importante un programador que sabe del negocio o un programador que sólo sabe programar? El programador que sabe del negocio, porque el valor intangible que le da al negocio no se consigue en ningún lado” (ojo, estoy parafraseando).

Como dice mi gran amigo Leonardo Astudillo: “como consultores debemos entender el negocio, comprender la data que se guarda en la base de datos transaccional, para así poder entregarle un producto con valor al cliente”; esa es la función de un ingeniero de datos.

Tal y como explica Tableau “el ingeniero de datos es responsable del diseño, la creación y la administración de la base de datos de análisis y operaciones de la empresa. En otras palabras, es responsable de extraer datos de los sistemas básicos de la empresa de manera que estos puedan usarse y aprovecharse para obtener información y tomar decisiones. El volumen de datos y la capacidad de almacenamiento van en aumento. Por lo tanto, cada vez es más importante contar con alguien que tenga amplios conocimientos técnicos de los distintos sistemas y arquitecturas, y que sea capaz de comprender los intereses y las necesidades de la empresa”.

Colegas, se abre una nueva área de oportunidades para especializarnos…

Puesto n° 9, “El Internet de las cosas” (IoT)

Hoy en día todos los dispositivos se encuentran en línea y es sorprendente la cantidad de información que podemos sacar de ellos. Ya que dichos dispositivos tienen la capacidad de interactuar entre ellos y recopilar datos para ofrecer una mejor experiencia de conexión.

Gartner predice que, para el año 2020, el número de dispositivos conectados con IoT disponible para consumidores será más del doble del actual. Eso quiere decir unos “20.400 millones de dispositivos en línea con IoT”.

Esto es asombroso, a pesar que las implementaciones de IoT no han tenido la trayectoria deseada porque a las empresas les preocupa la seguridad de sus datos y la mayoría de ellas no cuenta con los conocimientos organizacionales adecuados o con la infraestructura técnica interna para admitir este tipo de conexión.

Sin embargo, la tendencia es positiva, y ya se observa un uso consistente de los datos de ubicación de los dispositivos con IoT y los beneficios de ese uso. A esta subcategoría se le apodó “ubicación de las cosas” y permite detectar y comunicar su posición geográfica. Así, conociendo la ubicación de un dispositivo es posible contextualizar su uso, comprender mejor la situación y predecir lo que sucederá en un lugar en específico. Lo que aporta contenido en esta nueva era de predicciones bastante interesante.

Nuestro último puesto n° 10 está reservado para “La inversión del sector académico

Cada día es mayor la demanda de personas que tengan conocimientos en área de análisis de datos. Pero no se pierdan está joya En la Universidad Estatal de Carolina del Norte, se encuentra el primer programa de maestría en análisis científico (MSA). La MSA se lleva a cabo en el Institute of Advanced Analytics (IAA). Este centro de datos tiene la misión de formar a los mejores profesionales del análisis de todo el mundo: personas que dominen herramientas y métodos complejos para el modelado de datos a gran escala, y que sientan pasión por resolver problemas que representen retos”. La Universidad de California en San Diego también inauguró una especialidad y una asignatura secundaria de grado universitario en ciencia de datos.

Glassdoor informó que, en 2017, la “ciencia de los datos” fue una de las principales áreas de empleos por segundo año consecutivo. Además, según un estudio realizado por PwC, para el año 2021, el 69% de los empleadores exigirá que los candidatos a sus puestos de trabajo tengan conocimientos de análisis y ciencia de los datos. Lo que implica que para este 2018 ya no son optativas, sino fundamentales las técnicas y habilidades para el análisis de los datos. Lo que representa un reto para nosotros, quienes debemos seguir formándonos para satisfacer las necesidades del mercado y continuar liderando el sector de análisis y transformación de los datos.

¡Gracias por su tiempo y por llegar hasta esta línea conmigo!

Para mayor información: https://www.tableau.com/es-es/reports/business-intelligence-trends#academic

Tableau en la cadena de suministro

Tableau es una herramienta muy poderosa que ha ayudado a muchas empresas a visualizar y comprender sus datos. La dinámica de este software no está enfocada en usuarios técnicos de IT sino en los usuarios del negocio; lo que ha permitido su posicionamiento en diversas áreas de negocio, en diferentes organizaciones de una manera muy fácil y rápida.

Una cadena de suministros, por ejemplo, abarca diversos procesos: inventario, transporte, manejo de mercancía, producción, etcétera; Tableau integra todos los datos de cada proceso a la perfección, en un ambiente analítico, donde cualquier usuario del negocio puede responder preguntas acerca de sus datos.

¿Cómo encaja Tableau en las necesidades en esta área tan específica?

     Ésta herramienta de Business Intelligence goza de gran flexibilidad en diversos aspectos. El primero y más importante, es la capacidad de conectarse a muchas fuentes de datos, ya sean base de datos relacionales, archivos de texto o Excel, base de datos en la nube o cubos; lo que la convierte en la herramienta ideal para una cadena de suministros en donde están involucrados diversos departamentos de una organización, con diferentes empleados, varios proveedores y múltiples localidades.

  TABLEAU EN LA CADENA DE SUMINISTRO-01El segundo aspecto en el que hay que hacer énfasis es el repositorio donde vive la data que será fuente de la información para la toma de decisiones en la cadena de suministros, por lo cual la herramienta de BI tiene que ser lo suficientemente flexible para poder conectarse a cualquier fuente de datos, debido a que cada cliente tiene su forma de almacenar los mismos.

     El tercer aspecto importante es que Tableau rompe con el esquema tradicional de Business Intelligence, al colocar el proceso de análisis de datos en el usuario del negocio, lo que se amolda perfectamente a la necesidad de una cadena de suministros, que se caracteriza por la participación e interacción de diversos usuarios y procesos. Esta ventaja le permite al gerente de almacén, por ejemplo, responder preguntas acerca de su data de una manera fácil y continua, manteniendo la data actualizada al mismo ritmo que se moviliza el inventario de su almacén.

Otro aspecto importante, en esto último que no hay mejor persona para responder preguntas de cómo se está llevando los niveles de inventario dentro del almacén, que los propios empleados del almacén. En un mundo de BI tradicional, el departamento de reportes conformados por personas de IT, tuviesen que hacer los reportes acerca de la data de almacén junto con los reportes de transporte y logística y producción, en el cual dicho personal de IT tal vez no se conozcan el proceso ni la data que manejan y además de todo esto, los requerimientos de dichos reportes suelen cambiar en cada uno de los departamentos, causando un posible colapso dentro del departamento responsable de realizar estos reportes. Por lo cual la magia de Tableau entra, colocando el poder del análisis de datos en diferentes departamentos con las personas que saben que preguntas son pertinentes para la toma de decisiones para mejorar y optimizar su departamento que está vinculado a un proceso dentro de la cadena de suministro.

Caso de éxito: PepsiCo

     Un buen ejemplo del éxito de la aplicación de Tableau en una cadena de suministros es caso de la multinacional PepsiCo; una empresa dedicada a la producción, comercialización y distribución de alimentos que opera en más 200 países.

     Debido al alto volumen de datos que manejaba dicha empresa y a que cada cliente utilizaba sus propios estándares de datos en diferentes procesos de la cadena de suministro, se originaba un manejo “pobre” de la información para analizar la data y realizar los reportes.

     Lo que motivó a PepsiCo a contactar a Trifacta (aliada comercial de Tableau, encargada de la preparación de datos para el análisis). Optaron por Hortonwork Hadoop para almacenar y consolidar sus datos y luego entró al juego Tableau para la visualización de los mismos, otorgando profundidad analítica, dando sentido al gran volumen de datos, permitiendo identificar “cuellos de botellas” en la cadena de suministros, determinar bajos niveles de almacén, estacionalidad en algunos productos, entre otros.

     Esta decisión tecnológica permitió a PepsiCo optimizar sus esfuerzos en el análisis de datos, dedicando mucho menos tiempo en este proceso, lo que se traduce en productividad, capacidad de respuesta y dinero, minimizando la inversión en la preparación de datos, permitiéndoles enfocarse más en entender y visualizar su data.

     La versatilidad de la herramienta permite que ahora los empleados de IT de PepsiCo, dedicados a la preparación de la data, publiquen directamente los extractos desde Tableau a Tableau Server para que todos los usuarios de negocios de la organización puedan realizar las combinaciones de datos requeridas para lograr las visualizaciones que identifican tendencias y facilitan la toma de decisiones. Generando un ambiente colaborativo de trabajo dentro la organización, dándole una ventaja competitiva para mejorar sus resultados en diferentes áreas del negocio.

     Como PepsiCo hay muchos otros casos de éxito donde Tableau ha sido protagonista. Además de potenciar el análisis de datos en la cadena de suministros, dicha herramienta de Business Intelligence ha mejorado la forma de hacer las cosas para muchas organizaciones de diferentes áreas, al irrumpir de forma positiva el análisis de datos y creación de reportes, al darle poder de descubrimiento y visualización de datos a cualquier persona dentro de la organización.

     El éxito de Tableau radica en su misión y forma de hacer las cosas, no solo como software sino como compañía, al tener un objetivo claro enfocado en hacer ver y entender los datos a las personas.

¿Eres un buen desarrollador con Pentaho Data Integration?

La plataforma de inteligencia de negocios de Pentaho es muy conocida y utilizada en toda Latinoamérica. Matrix CPM Solutions fue uno de sus primeros aliados certificados de Pentaho en la región ya hace mas de 8 años y sin duda colaboró mucho en la creación del ecosistema de aliados cuando en los primeros años se hizo un gran esfuerzo para dictar los cursos oficiales de Pentaho en las ciudades mas importantes de Centro y Sur América.

Hoy en día Pentaho sigue teniendo cientos de miles de “downloads” en todo el mundo y América Latina representa un porcentaje muy alto en la descargas y uso de la versión comunitaria, todo lo contrario al resto de las regiones donde se prioriza el uso de la versión comercial o paga del software.

Posiblemente sea Kettle (nombre que también se le da a Pentaho Data Integration) la herramienta mas usada y conocida de toda la suite. Puedo decir con conocimiento de causa que Kettle es muy popular en Venezuela, México, Colombia, Ecuador y en varios países de Centro América, en especial en Guatemala y El Salvador. La verdad es que es una herramienta de ETL fantástica. Es muy completa y poderosa, además de ser muy fácil de entender y utilizar. Esto posiblemente es a su vez su gran problema, porque la gente piensa que con utilizarla y hacerla funcionar lo están haciendo bien.

Hoy en día cualquiera persona con un conocimiento básico de bases de datos puede hacer procesos de ETL con PDI. ¿Pero los hacen bien?, y con bien entendemos que se ejecute eficientemente utilizando los recursos disponibles. La experiencia dice que NO.

Por nuestra empresa han pasado decenas de personas que han tenido varios meses o años trabajando con Kettle y al ponerlos a desarrollar una prueba técnica muy básica, no son capaces de terminarlo. También hemos visto que muchas empresas con su equipos internos o consultores ofrecen sus servicios en Kettle y cuando empieza a enfrentar retos interesantes de volúmenes de datos, disparidad en orígenes o utilización de bases de datos “modernas” como Columnares, NoSQL o Hadoop, todo se complica y le terminan echando la culpa a la herramienta. Un tema común que encontramos en estos equipos es que nadie ha recibido una formación oficial en ETL o en el uso de Kettle. Todos han aprendido por sus propios medios, teniendo a los foros como guía principal.

Ronald Rojas, socio, líder técnico de la empresa y posiblemente una de las personas con mayor experiencia en el uso de Pentaho en la región, afirma con frecuencia que todos pueden usar Kettle, pero hoy en día son muy pocos lo que han aprendido a desarrollar procesos eficientes. La verdad es que ni siquiera existe una capacitación oficial sobre “entonación” u “optimización” en PDI.
Conclusión: Si eres usuario de Kettle (Pentaho Data Integration, PDI) no pierdas la oportunidad de capacitarte y orientar tu conocimiento no solo al uso de la herramienta sino a explotar bien todo su potencial.

logo-pentaho_ALTA-RES_light

—————————————

Puedes revisar la disponibilidad de cursos en http://www.pentaho.com/service/training, consulta nuestra página: www.matrixcpmsolutions.com o escribe a pentaho@matrixcpmsolutions.com para consultar sobre nuestra oferta de cursos.