Monthly Archives - mayo 2018

IMAGENES BLOG PARA WEB _5-01

Hyper: Revolucione sus motores de datos

Hyper es la nueva tecnología de motor de datos en memoria de alto rendimiento de Tableau, diseñada para acelerar la ingesta de datos y el procesamiento analítico de consultas en conjuntos de datos grandes y complejos.

Hyper, la tecnología incluida en Tableau 10.5, optimiza la creación de extracciones, actualiza el rendimiento y admite conjuntos de datos aún más grandes. Esto le permitirá beneficiarse de velocidades de consultas cinco veces más rápidas y una velocidad de creación de extracciones hasta tres veces mayor. Como resultado, los clientes pueden crear las extracciones en función de las necesidades de su negocio, sin preocuparse por establecer limitaciones. Asimismo, para mantener a los clientes en el flujo de análisis, Hyper puede completar consultas sobre grandes conjuntos de datos en solo unos segundos. Gracias al rendimiento acelerado de las consultas, los dashboards complejos se abren con mayor rapidez, los filtros son más veloces y la incorporación de nuevos campos a las visualizaciones es casi instantánea. Hyper tiene sus orígenes en la Universidad Técnica de Múnich (TUM), en Alemania. Más tarde, Tableau adquirió la filial comercial e integró la tecnología al producto en menos de 18 meses.

Hyper también ayuda a los clientes a adaptar sus extracciones para un uso más amplio. Para ello, aprovecha los avances en procesadores de múltiples núcleos y la implementación de novedosas técnicas de paralelización de las cargas de trabajo. La tecnología Hyper constituye un rápido sistema en memoria diseñado para ejecutar cargas de trabajo transaccionales y analíticas sin afectar al rendimiento. Mediante el uso de técnicas de optimización de consultas innovadoras y un estado de almacenamiento en la misma columna para todas las cargas de trabajo, Hyper ayudará a acercar a los clientes a sus datos.

hyper1

Diseño exclusivo de Hyper

Durante la última década, los motores de datos en memoria y las tecnologías de análisis de bases de datos incorporaron distintas técnicas, como el muestreo y el resumen. Con ellas, lograron incrementar enormemente el rendimiento de las consultas. Sin embargo, estas mejoras de rendimiento tuvieron un costo. Muchos sistemas sacrificaron rendimiento de escritura (indispensable para la velocidad en la creación de extracciones y las actualizaciones) en pro de optimizar el rendimiento de la carga de análisis. Cuando la escritura es lenta, los datos pierden relevancia y se vuelven obsoletos. ¿Cuál fue el resultado? Se generó una desconexión entre las personas y los datos que estas deseaban analizar. La misión de Hyper es acercar los datos a las personas mediante una escritura y una carga de análisis veloces. En resumen, Hyper proporciona datos actualizados con rapidez. De ese modo, le permite analizar una vista más amplia y completa de sus datos.

Redefinición de la arquitectura de sistema: un estado para las transacciones y las consultas analíticas

Con Hyper, las transacciones y las consultas analíticas se procesan en el mismo almacén de columnas, sin necesidad de volver a procesar los datos después de su obtención e importación. Así, se reduce la cantidad de datos obsoletos y se minimiza la desconexión entre los sistemas especializados. La metodología exclusiva de Hyper admite la combinación de intensas cargas de trabajo de escritura y lectura en un mismo sistema. En consecuencia, se pueden crear extracciones con rapidez sin sacrificar el rendimiento de consulta. Se gana en todos los frentes.

hyper2

Una nueva metodología para la ejecución de consultas: generación de código dinámico

Hyper usa un novedoso modelo de ejecución de compilación JIT (Just-In-Time). Muchos otros sistemas usan modelos tradicionales de ejecución de consultas que no pueden aprovechar por completo el hardware moderno de varios núcleos. Por el contrario, Hyper optimiza y compila las consultas en código informático personalizado para hacer un uso más eficaz del hardware subyacente. Cuando Hyper recibe una consulta, crea un árbol, lo optimiza de manera lógica y, después, lo usa como modelo para generar el programa específico que se va a ejecutar. Como resultado, se optimiza el uso del hardware moderno para una ejecución de consultas más rápida.

hyper3

Mayor aprovechamiento del hardware: paralelización basada en fragmentos

Hyper fue diseñado desde cero para entornos grandes de varios núcleos. Este modelo de paralelización se basa en unidades de trabajo muy pequeñas (fragmentos). Estos fragmentos se asignan de manera eficaz a todos los núcleos disponibles y permiten a Hyper responder, con mayor precisión, ante las diferencias de velocidad de los núcleos. En consecuencia, el hardware se usa con mayor eficacia y el rendimiento es superior.

hyper4

Actualización del extracto a formato .hyper

En esta versión de Tableau (a partir de la 10.5), los nuevos extractos utilizan el formato .hyper en lugar del formato .tde.

Aunque existen muchas ventajas ya mencionadas en el uso de extractos .hyper, las ventajas principales son las siguientes:

  • Crear extracciones de mayor tamaño: las extracciones en formato .hyper pueden contener miles de millones de filas de datos. Como las extracciones .hyper admiten más datos, puede utilizar la versión de Tableau Desktop 10.5 para consolidar las extracciones .tde que anteriormente tenía que crear por separado.
  • Creación y actualización más rápida de extractos: mientras que Tableau siempre ha optimizado el rendimiento para la creación y actualización de extractos, esta versión admite la creación y actualización de extractos para conjuntos de datos aún más grandes.
  • Un mejor rendimiento al interactuar con las vistas que utilizan fuentes de datos de extracción de mayor tamaño: vistas que utilizan fuentes de datos de extracción para obtener un mejor rendimiento que el que tenían anteriormente. Aunque las extracciones más pequeñas siguen funcionando eficazmente, las de mayor tamaño tienen un rendimiento más eficiente.

Sabino Flores

Sabino Flores

Read more...
IMAGENES BLOG PARA WEB MATRIX_1

BI y gobernabilidad de los datos

Matrix CPM Solutions puede apoyarle en la concepción de proyectos de BI que le permitan autogestionar sus datos y empoderarse de ellos

Hoy en día es muy importante para cualquier organización conocer sus datos y poder -en base a ellos- responder rápidamente a situaciones cotidianas que puedan potenciar su negocio.

Cuando en una organización cada unidad de negocio trabaja de forma aislada con sus datos, o sencillamente no los utiliza o analiza, no existe una visión integral y controlada de los mismos, por lo que lograr los objetivos organizacionales se convierte en un gran problema.

BI-Y-GOBERNABILIAD-DE-LOS-DATOS_BLOG-01El objetivo principal de la Gobernabilidad de Datos consiste en asegurar que exista visión integral de los datos, que haya comunicación entre negocio y TI, que las unidades de negocio están alineadas, que los datos sean lo que deben ser, sin dejar a un lado el monitoreo y protección de los mismos, al ser estos uno de los activos más importantes de las organizaciones.

Para implementar Gobernabilidad de Datos en una empresa es imprescindible establecer procesos, políticas y roles; a través de un equipo conformado por profesionales de TI y de las áreas de negocio involucradas, cuya misión sea justamente entender los datos en búsqueda de alcanzar los objetivos organizacionales.

La Gestión de los Datos subyacente a la Gobernabilidad de Datos de una empresa no es más que la Gestión del Conocimiento que se realiza con ellos.

Las ventajas que se pueden nombrar al establecer un Gobierno de Datos son:

– Mejorar la calidad de la información y la integridad de los datos

– Aumentar la eficiencia operativa a través de proyectos de BI que permitan obtener visualizaciones para establecer pronósticos de comportamiento de los productos o servicios ofrecidos

– Ser más agiles al colocar nuevos productos en el mercado

– Reducir el posible solapamiento de funciones y/o trabajos repetitivos en el análisis de los datos

– Mejorar el uso del tiempo

Con la implementación de la Gobernabilidad de Datos, las diferentes áreas de negocio involucradas podrán acceder a sus implementaciones de BI con plena confianza de que los datos obtenidos le permitirán tomar las decisiones adecuadas sin intervención del equipo de TI, quienes podrán dedicarse a realizar otro tipo de actividades más estratégicas para su línea de reporte.

Jeymin Medina

Jeymin Medina

Jeimyn Medina Ingeniero de Sistemas de la Universidad Bicentenaria de Aragua, con un Diplomado en “Gestión de la Innovación” de la Universidad Simón Bolívar y un Diplomado en “Tecnologías de Información en Gestión de Grandes Volúmenes de Datos” de la Universidad Tecnológica del Centro. Cuenta con 20 años de experiencia, de los cuales durante 11 años participó en el desarrollo de proyectos de Inteligencia de Negocios en el sector bancario, ocupando roles de liderazgo.

Read more...
IMAGENES BLOG PARA WEB MATRIX_2-01

Qué es un KPI y como se puede usar para mejorar el rendimiento de una organización

¿Cómo puede usarse para mejorar el rendimiento de una organización?

Con el advenimiento de las nuevas tecnologías han surgido diversas métricas para evaluar el comportamiento de las organizaciones, algunas de estas métricas son de aplicación general y otras pueden ser especificas dependiendo del tipo de organización que se trate: ya sea que esté dedicada a procesos de transformación, que preste servicios, se dedique a la agricultura, sea una empresa del sector bancario, etc.

A esta serie de métricas se les conoce como KPI’s, pero ¿qué es un KPI?

Un KPI es una medida o indicador que ayuda a una organización a entender qué tan bien está respecto con sus metas y objetivos estratégicos definidos. Es decir, un KPI muestra si una organización va en el camino correcto o no.

Los KPI’s también ayudan a reducir la complejidad del desempeño organizativo a un número pequeño y manejable de indicadores -estos indicadores ofrecen información que puede, a su vez, ayudar a la toma de decisiones y, por ende, mejorar el rendimiento de dicha organización-.

Ahora bien, ¿qué se debe tomar en cuenta para definir estos KPI’s?

Objetivo estratégico

Al definir un KPI siempre es mejor especificar claramente a qué objetivo estratégico se relaciona, de modo que todos los que miren dicho KPI de inmediato aprecien su relevancia y su aplicación dentro del entorno de la organización.

Ejemplo: Nivel de satisfacción del cliente, nivel de mermas, etc.

Audiencia y acceso

Los KPI’s no son para todos, hay que definir su audiencia principal: para quién es esta información, quién tendrá acceso a ella y a que área aplica, con esto podremos realizar tableros de indicadores (Dashboards) definidos para cierto tipo de auditorios.

Ejemplo: Directivos, personal de las áreas productivas, de áreas de RRHH o de ventas.

Preguntas clave de rendimiento

Se deben indicar las preguntas clave de rendimiento que el indicador está ayudando a responder. Esto ayuda a proporcionar un contexto sobre por qué se está introduciendo este KPI en particular y sobre qué tema específico arrojará más luz.

Ejemplo: ¿En qué medida nuestros clientes actuales están satisfechos con nuestro servicio?

Cómo se usará este indicador

Hay que especificar cómo se usará el KPI para que todos tengan claro de qué forma se piensa utilizar la información. También será necesario definir cómo no será usado dicho KPI ya que, a veces, las personas tienen miedo de informar sobre las medidas porque temen que los resultados negativos puedan usarse contra de ellos. Aquí, se puede informar que el KPI no se usará para determinar el rendimiento de las personas y no se vinculará al pago de la bonificación.

Ejemplo: El indicador se usará para evaluar e informar internamente sobre el éxito de nuestros clientes. No se usará para evaluar el desempeño de las personas o para determinar los pagos de bonos.

Nombre del indicador

Cada KPI necesita un nombre para que se pueda debatir colectivamente y tenga un significado único dentro de la organización, en la medida de lo posible se deben evitar nombres que se presten a confusión y puedan interpretar otras métricas, por lo que hay que elegir un nombre que explique claramente de qué se trata.

Ejemplo: Puntaje neto del promotor

Método de recolección de datos

Se debe identificar y describir el método de recopilación de datos que se va a utilizar para cada KPI. Los métodos de recopilación de datos pueden incluir encuestas, cuestionarios, entrevistas, recolección de datos de sensores, grupos focales, recolección automática de datos de sistemas informáticos, así como la recopilación de datos desde archivos de diversos formatos (Texto, Excel, etc).

Ejemplo: los datos se recopilarán mediante una encuesta por correo.

Criterios de evaluación / fórmula / escala

Se deben describir cómo se determinarán los niveles de rendimiento. Esto puede ser cualitativo, en cuyo caso los criterios de evaluación deben ser identificados, puede ser numérico o usar una escala, en cuyo caso se debe identificar la fórmula o escalas con categorías.

Ejemplo: Usando una escala de 0-10 (No es probable – es extremadamente probable), los participantes responderán: ¿Cuán probable es que nos recomiende un amigo?

Objetivos y umbrales de rendimiento

Es recomendable definir un objetivo o punto de referencia para cada indicador. Aquí también se pueden delinear los umbrales de rendimiento, es decir, en cuanto al rendimiento los niveles son juzgados como buenos o malos.

Ejemplo: Indicador de lealtad del cliente del 55% a fines de 2020.

Fuente de datos

Se debe especificar de dónde provienen los datos para que las personas que utilizan el KPI puedan tener la seguridad de su confiabilidad y validez.

Ejemplo: Encuesta de clientes existentes.

Frecuencia de recolección de datos

Hay que Indicar con qué frecuencia se recopilarán los datos del KPI y coordinar las fechas de recolección. Algunos KPI requieren datos que deben ser recogidos continuamente, otros especifican la recolección por hora, diaria, mensual, trimestral o anual. Asegurar que el horario lo permita y se tenga el tiempo suficiente para recopilar los datos, perseguir a las personas cuando sea necesario, analizarlas, agregarlas, resolver cualquier problema y entregar el informe sin dejar de garantizar que los datos que contiene sean lo más recientes posible.

Ejemplo: Recopilación mensual de datos de una muestra del 10% de nuestra base de datos de clientes.

Frecuencia de informes de datos

Se debe especificar cuándo y con qué frecuencia se informarán los datos para el KPI. Con que frecuencia tiene sentido coordinar la recopilación de datos y la generación de informes para garantizar que los datos que se están informando sean tan actualizados como sea posible. ¡No quiera terminar en una situación donde los datos se recopilan en enero y se informan al final del año!

Ejemplo: Informes mensuales.

Entrada de datos (persona responsable)

Es recomendable también especificar el título individual o de trabajo de la persona responsable de la recopilación de datos y las actualizaciones de los mismos. El propietario del KPI puede ser un empleado designado, una función comercial u operacional o una agencia externa.

Ejemplo: Rodrigo Gómez, Asistente de Marketing.

Vencimiento / fecha de revisión

Siempre se debe incluir una fecha de vencimiento o una fecha de revisión. Los KPI’s a veces sólo son necesarios durante un período de tiempo específico y sin una fecha de caducidad o revisión, estos KPI’s pueden continuar indefinidamente, lo que causa un trabajo innecesario. Incluso si los indicadores no son específicos del tiempo o del proyecto, se les debe asignar una fecha de revisión para garantizar que sigan siendo relevantes y útiles.

Ejemplo: En 12 meses.

¿Cuánto costará?

La medición y la recopilación de datos pueden ser costosas. Es importante estimar los costos para recolectar y monitorear un indicador y evaluar si los costos están justificados.

Ejemplo: Los costos son significativos, pero son más baratos que una encuesta tradicional de satisfacción del cliente.

¿Qué tan completo es este indicador?

Se debe evaluar brevemente qué tanto este indicador está ayudando a responder la pregunta clave de rendimiento asociada e identificar sus posibles limitaciones.

Ejemplo: Nos proporciona un buen número simple, pero los datos deberían completarse idealmente con clientes no estructurados retroalimentando sobre lo que es particularmente bueno y lo que podría mejorarse.

Posibles consecuencias no deseadas

Hay que describir brevemente cómo éste indicador podría influir en los comportamientos incorrectos o en cómo las personas pueden hacer trampa con este KPI.

Ejemplo: Las personas podrían influir en los clientes antes de realizar la encuesta o podrían seleccionar clientes que probablemente respondan de forma positiva.

Si ya se tienen KPI’s definidos en la organización hay que revisar si cumplen los puntos anteriores, si requieren ser ajustados o si es necesario adicionar algunos nuevos que sean construidos bajo dichas recomendaciones.

Carlos Osorio

Carlos Osorio

Licenciado en Administración, graduado de la Universidad Nacional Autónoma de Mexico en el año 1996, con estudios de Maestría en Administración de Organizaciones en la misma institución. Ha sido Gerente de Sistemas en diversas instituciones de la banca en México, cuenta con Diplomado en Inteligencia de Negocios en el ITAM y Diplomado en Marketing Digital, Redes Sociales y Mediciones WEB en la UVM. Es socio-fundador de Websinergia y Matrix CPM Solutions en México, actualmente se encuentra como Gerente del Proyecto de Integración del DWH en el Banco Centroamericano de Integración Económica en Honduras.

Read more...
IMAGENES BLOG PARA WEB MATRIX_3-01

El antes, durante y después de un proceso ETL

Los que llevamos un tiempo en el mundo de Business Intelligence (BI), sabemos que un buen proceso ETL es algo un poco más complejo de lo que parece. Cuando incursionamos en esta aventura de conocer BI, procesos de migración de datos o poblamientos de grandes estructuras, quedamos fascinados con las herramientas y la versatilidad de éstas para facilitarnos el desarrollo de procesos ETL. Por ende, he visto como desarrolladores, arquitectos y demás especialistas de BI pueden llegar a caer en un peligroso nivel de confianza, asumiendo que las herramientas resolverán todo el entorno, manejo y control de procesos y hoy en día estoy convencida que no es así.

Acá te dejo unos simples pasos que te orientarán como especialista técnico en el mundo de los ETL’s para que los procesos que diseñes, construyas u operes tengan un tiempo de vida útil y óptimo, los mejores tiempos de ejecución y la menor frecuencia de incidencias posibles.

El Antes de un proceso ETL

  • Define tu proceso ETL, debes contemplar inicialmente si lo que vas a diseñar y construir pertenece a un proceso de simple de migración de datos, el poblamiento de una base de datos relacional, la creación de un modelo analítico, el poblamiento de un Data Warehouse, Data Marts, Data Lakes, etc. Esto es muy importante porque te permitirá dimensionar la envergadura y blindaje de tu proceso ETL. A partir de acá, ya se te abrirá la mente para saber qué tipo de orquestación, cálculos y estructuras tendrás de realizar para tener éxito.
  • No estás solo, el entorno es importante: Valida los sistemas de origen, sus ventanas de acceso y la disponibilidad de los datos al momento de extraerlos de las fuentes. Dicen los expertos que el proceso de extracción ideal es el que apenas se nota, es por ello que siempre nos van a exigir que el proceso de extracción de datos desde las diversas fuentes cause el menor impacto posible. Por ejemplo, que no suponga ningún retraso a los empleados que, diariamente, trabajan con los datos y registros, que no genere contención dentro de una fuente transaccional, etc. Una extracción de un número demasiado grande de datos de una sola vez puede llegar a ralentizar e incluso colapsar, el sistema. Por este motivo, es importante valorar muy bien las necesidades y el alcance de la operación a realizar y, si es necesario, llevar a cabo la operación de forma escalonada en bloques de menor tamaño y/o en las fechas y horas más adecuadas para lograr ese mínimo impacto.
  • Haz un levantamiento de los diversos tipos de fuentes que formarán parte del proceso de extracción: 1. Si son fuentes estructuradas: ambientes, servidores, bases de datos, tipos de acceso, propietarios (owners), esquemas, tablas, campos, meta datos. 2. Si son fuentes no estructuradas: apistokens, links, distintos tipos de archivos, etc. A todos éstos debes cederle un espacio formal a nivel de estaciones (stagings) o sistemas de archivo (filesystem) para luego proceder a la fase de transformación.
  • La figura de Arquitecto de Información influye mucho porque el éxito de un proceso ETL radica en que la fase de carga (Load) se ejecute de manera correcta y para ello es imprescindible que los datos que se están cargando vayan a un destino con integridad referencial al 100% si aplica, en caso que no (si se tratase de un data lake por ejemplo) pues el destino debe tener un diseño y arquitectura lo suficientemente robusto que genere estabilidad de los datos conforme a su crecimiento.
  • Recopila toda la información del punto anterior e identifica qué es variable y qué es fijo… ¡No te confíes! Más adelante sabrás por qué.
  • Levanta las reglas de negocio: muchas de ellas aplicarán en el proceso de Extracción y las restantes en el proceso de transformación, esto dependerá del diseño del proceso, lo importante es no dejar de levantarlas. Aun así, si llegase a quedar por fuera alguna regla, como ya sabes que debes hacer tu proceso escalable (como un rompecabezas) no será muy difícil incorporar dicha regla.
  • Cuando llegas a la transformación, tras la extracción de los datos y como paso previo a su carga, haz llegado al corazón del proceso. Allí debes plasmar todas las reglas negocio que le darán otra cara a los datos que se extrajeron. En esta fase, las herramientas de integración con las que trabajemos influyen mucho y nos brindan ciertas bondades para lograr este objetivo. ¿Qué se hace en esta fase? Por lo general operaciones como reformateo de datos, conversión de unidades, selección de columnas para su carga posterior, agregación (suma) de columnas, dividir una columna en varias, traducir códigos, obtener nuevos valores calculados, unir datos de varias fuentes, los llamados look ups: que es cuando se toma un dato y se lo compara con otro tipo de datos, cruzando información, lo que llaman pivoting: que es un proceso parecido a los looks pero con un grado mayor de complejidad, ya que se cruzan datos de distintas fuentes. Y para usted de contar. Lo importante es que cada operación sea óptima, puntual y finita.

El Durante de un proceso ETL

Al momento de construir un ETL considérate todo un maestro de las piezas, un arquitecto, un ingeniero de partes. Imagina que construyes una gran tubería por la que deban viajar datos y meta datos y deben llegar completos y estructurados a su destino. Toma en cuenta que la herramienta que estés utilizando tiene una gran importancia y un papel determinante en dicha construcción, pero… El protagonismo te lo llevas tú.

  • Haz tu proceso escalable y flexible. Las extracciones con extracciones, las transformaciones con transformaciones, las cargas con las cargas. No mezcles estos procesos.
  • Ajusta tu proceso a las ventanas de disponibilidad de los servicios, tanto a nivel de extracción (lectura de datos) como a nivel de carga (escritura de datos). Recuerda que muchas veces nuestra fuente y destinos no son administrados por nosotros, por lo que el proceso debe acoplarse de forma óptima a estas ventanas.
  • Diseña bloques programados que realicen notificaciones de fallo vía correo o mensajes de texto, creación y mantenimiento de logs, etc., de cada paso o estación que se pueda construir dentro del proceso.
  • Identifica todo desarrollo dentro del proceso ETL, identifica los jobs de extracción, los jobs de transformación, los jobs de carga, los Jobs de control.
  • Documenta el proceso. Lo sé, esto no suele gustar, pero… documenta, documenta ¡documenta! No te arrepentirás.
  • Parametriza todo dentro del proceso ETL, cuando te comenté en la sección del Antes del Proceso ETL que debes identificar de toda la información levantada y recopilada todo aquello que pueda ser variable o fijo es porque un buen desarrollador BI conoce un secreto: en el mundo de las Empresas, en el mundo de la informática, en el mundo actual… ¿Cuál es la única constante? El Cambio. Por tanto, es posible, probable, seguro, que en el pasar del tiempo cambien nombre de rutas, librerías, nombres de tablas, nombres de archivos, nombres de esquemas, etc. Por tanto, una excelente práctica durante la construcción de los procesos ETL es parametrizar todos los nombres y variables que sean posibles. Hoy en día, la gran mayoría (por no decir todas) de las herramientas de integración ETL permiten colocar parámetros de este tipo. Así que, no dejes de hacerlo.
  • No te olvides de incorporar dentro del proceso todos aquellos puntos de control que hagan manejable y operativo el ETL, mecanismos de selección de frecuencias de ejecución, modalidades de ejecución: por ejemplo, si deseas ejecutar todo el proceso ETL, si deseas ejecutar solo Extracción y Transformación: ET, si deseas ejecutar solo Transformación y Carga: TL o cualquier combinación posible y efectiva.

 

El Después de un proceso ETL

¡Felicidades! Haz construido un proceso ETL… ¿Y ahora?

Déjame decirte si has llegado a esta etapa apenas tienes la mitad del camino recorrido. Si construiste un proceso ETL pensando que jamás fallaría, tú y tu proceso están destinados al fracaso, pero, si tomaste en cuenta todos los pasos anteriores, inclusive los que te voy a mencionar a continuación, entonces es altamente probable que logres tu objetivo y tu proceso ETL tenga un largo tiempo de vida útil y tenga adaptabilidad a la incorporación de nuevos productos dentro de su línea de ejecución.

El Después de un proceso ETL tiene existencia o razón de ser gracias al nivel de prevención que le otorgues antes y durante la construcción del mismo, por lo que el éxito vendrá en la fase de implementación en la medida que consideres lo siguiente:

  • Creando políticas de respaldo de todos los componentes involucrados dentro del proceso ETL: Jobs, transformaciones, bases de datos intermedias (stagings), filesystem, etc., garantizas el no perder código de programación realizado durante la construcción.
  • Realiza procesos de limpieza o depuración de datos, de esto dependerá el óptimo resultado de un proceso ETL. No es posible lograr un buen resultado final, acorde a los objetos marcados, sino se realiza previamente una buena limpieza de los datos. Sin esta etapa previa no es posible disponer de una base de datos de calidad que permite la toma de decisiones acertadas a nivel estratégico o ejecutivo. Esto da una idea de la enorme necesidad de tomarse muy en serio esta etapa, realizándola acorde a unos parámetros correctos y teniendo en cuenta las recomendaciones de los expertos.
  • Minimiza fallos en cadenas de ejecución… ¿cómo? Sabemos que muchas veces los errores son inevitables, pero siempre se pueden amortiguar. Tu experticia como desarrollador e implantador de procesos ETL te ayudará a minimizar fallos, más si no eres experto, el tener una idea de qué podría fallar te alertará a prevenir estas incidencias. Existen dos tipos de incidencias que pueden afectar un proceso ETL: 1. Una falla dentro del proceso ETL: éstas debes evitarlas a toda costa porque es tu nombre o el de tu empresa el que saldrá a relucir al momento que ocurra la falla. 2. Una falla en algún componente externo que se involucre con el proceso ETL: interrupción eléctrica, fallos de funcionamiento en los discos de almacenamiento. ¡Es cierto! Acá ya no es tu responsabilidad, pero si estableciste políticas de respaldo respectivas, no tendrás problema al momento de recuperar.
  • Han pasado 11 meses y tu proceso ETL se ejecuta correctamente, pero se acerca el cierre anual. ¿Estableciste todos los parámetros necesarios para un cambio de frecuencia? Esto no siempre ocurre, depende mucho del tipo de información que estés procesando dentro del ETL, sin embargo, establecer modos de frecuencia de ejecución permite reutilizar los componentes en diferentes instancias del tiempo, solo es cuestión que lo tomes en cuenta en tu fase de construcción y pasado un tiempo de la implantación no tendrás problema.
  • ¿Tu proceso ETL es a prueba de Contingencia? En muchas empresas, sobre todo las más grandes, se realizan eventos de contingencia que pueden ser desde simulacros hasta mecanismos reales dada una situación particular. Los procesos ETL no deben estar exentos a este tipo de eventualidades, ya que muy seguramente forman parte un sistema mayor, ya sea en el proceso de extracción o carga de datos. Ahora bien, no es algo descabellado implementar contingencia a tu proceso y mientras más escalable lo hayas construido menos complicado será incorporar un bloque de contingencia que determine cómo será la ejecución durante dicho evento. La naturaleza de la Contingencia determinará en qué punto del ETL se colocará dicho bloque, que puede ser tan sencillo o complicado como consideres, es decir, desde una serie de comandos que introduzcas en la Base de Datos que leas como un archivo demonio que aparezca al momento de activar la contingencia y forcé al ETL a finalizar o tomar otro camino… la decisión es tuya.

Son muchos los caminos o vías que puedes tomar para construir un proceso ETL, pero considero que este abreboca te dará muchas ideas para que te destaques como desarrollador BI. Siempre que te apegues a un marco metodológico, a estándares de programación y dejar volar tu ingenio e imaginación.

Bibliografía:

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos

Liz Davila

Liz Davila

Ingeniero de Sistemas egresada de la Universidad Nacional Experimental Politécnica “Antonio José de Sucre” con más de 9 años de experiencia en el diseño, construcción e implantación de procesos ETL orientados tanto a sistemas de inteligencia de negocios, como sistemas transaccionales, específicamente dentro del sector bancario. Adicional a eso, Liz ha participado en diferentes proyectos tecnológicos como la implantación de modelos de datos maestros, construcción de data warehouses, cubos analíticos, entre otros. Cuenta con una certificación de la metodología ITIL, así como certificaciones técnicas de herramientas de integración, minería y reportería de datos, manejadores de Bases de Datos: Data Stage, Hyperion Intelligence, DB2 AiX, Microsoft SQL Server. Actualmente se desempeña como Líder Técnico dentro de Matrix CPM Solutions, Venezuela

Read more...