Archivo de la etiqueta: datos

Hyper: Revolucione sus motores de datos

Hyper es la nueva tecnología de motor de datos en memoria de alto rendimiento de Tableau, diseñada para acelerar la ingesta de datos y el procesamiento analítico de consultas en conjuntos de datos grandes y complejos.

Hyper, la tecnología incluida en Tableau 10.5, optimiza la creación de extracciones, actualiza el rendimiento y admite conjuntos de datos aún más grandes. Esto le permitirá beneficiarse de velocidades de consultas cinco veces más rápidas y una velocidad de creación de extracciones hasta tres veces mayor. Como resultado, los clientes pueden crear las extracciones en función de las necesidades de su negocio, sin preocuparse por establecer limitaciones. Asimismo, para mantener a los clientes en el flujo de análisis, Hyper puede completar consultas sobre grandes conjuntos de datos en solo unos segundos. Gracias al rendimiento acelerado de las consultas, los dashboards complejos se abren con mayor rapidez, los filtros son más veloces y la incorporación de nuevos campos a las visualizaciones es casi instantánea. Hyper tiene sus orígenes en la Universidad Técnica de Múnich (TUM), en Alemania. Más tarde, Tableau adquirió la filial comercial e integró la tecnología al producto en menos de 18 meses.

Hyper también ayuda a los clientes a adaptar sus extracciones para un uso más amplio. Para ello, aprovecha los avances en procesadores de múltiples núcleos y la implementación de novedosas técnicas de paralelización de las cargas de trabajo. La tecnología Hyper constituye un rápido sistema en memoria diseñado para ejecutar cargas de trabajo transaccionales y analíticas sin afectar al rendimiento. Mediante el uso de técnicas de optimización de consultas innovadoras y un estado de almacenamiento en la misma columna para todas las cargas de trabajo, Hyper ayudará a acercar a los clientes a sus datos.

hyper1

Diseño exclusivo de Hyper

Durante la última década, los motores de datos en memoria y las tecnologías de análisis de bases de datos incorporaron distintas técnicas, como el muestreo y el resumen. Con ellas, lograron incrementar enormemente el rendimiento de las consultas. Sin embargo, estas mejoras de rendimiento tuvieron un costo. Muchos sistemas sacrificaron rendimiento de escritura (indispensable para la velocidad en la creación de extracciones y las actualizaciones) en pro de optimizar el rendimiento de la carga de análisis. Cuando la escritura es lenta, los datos pierden relevancia y se vuelven obsoletos. ¿Cuál fue el resultado? Se generó una desconexión entre las personas y los datos que estas deseaban analizar. La misión de Hyper es acercar los datos a las personas mediante una escritura y una carga de análisis veloces. En resumen, Hyper proporciona datos actualizados con rapidez. De ese modo, le permite analizar una vista más amplia y completa de sus datos.

Redefinición de la arquitectura de sistema: un estado para las transacciones y las consultas analíticas

Con Hyper, las transacciones y las consultas analíticas se procesan en el mismo almacén de columnas, sin necesidad de volver a procesar los datos después de su obtención e importación. Así, se reduce la cantidad de datos obsoletos y se minimiza la desconexión entre los sistemas especializados. La metodología exclusiva de Hyper admite la combinación de intensas cargas de trabajo de escritura y lectura en un mismo sistema. En consecuencia, se pueden crear extracciones con rapidez sin sacrificar el rendimiento de consulta. Se gana en todos los frentes.

hyper2

Una nueva metodología para la ejecución de consultas: generación de código dinámico

Hyper usa un novedoso modelo de ejecución de compilación JIT (Just-In-Time). Muchos otros sistemas usan modelos tradicionales de ejecución de consultas que no pueden aprovechar por completo el hardware moderno de varios núcleos. Por el contrario, Hyper optimiza y compila las consultas en código informático personalizado para hacer un uso más eficaz del hardware subyacente. Cuando Hyper recibe una consulta, crea un árbol, lo optimiza de manera lógica y, después, lo usa como modelo para generar el programa específico que se va a ejecutar. Como resultado, se optimiza el uso del hardware moderno para una ejecución de consultas más rápida.

hyper3

Mayor aprovechamiento del hardware: paralelización basada en fragmentos

Hyper fue diseñado desde cero para entornos grandes de varios núcleos. Este modelo de paralelización se basa en unidades de trabajo muy pequeñas (fragmentos). Estos fragmentos se asignan de manera eficaz a todos los núcleos disponibles y permiten a Hyper responder, con mayor precisión, ante las diferencias de velocidad de los núcleos. En consecuencia, el hardware se usa con mayor eficacia y el rendimiento es superior.

hyper4

Actualización del extracto a formato .hyper

En esta versión de Tableau (a partir de la 10.5), los nuevos extractos utilizan el formato .hyper en lugar del formato .tde.

Aunque existen muchas ventajas ya mencionadas en el uso de extractos .hyper, las ventajas principales son las siguientes:

  • Crear extracciones de mayor tamaño: las extracciones en formato .hyper pueden contener miles de millones de filas de datos. Como las extracciones .hyper admiten más datos, puede utilizar la versión de Tableau Desktop 10.5 para consolidar las extracciones .tde que anteriormente tenía que crear por separado.
  • Creación y actualización más rápida de extractos: mientras que Tableau siempre ha optimizado el rendimiento para la creación y actualización de extractos, esta versión admite la creación y actualización de extractos para conjuntos de datos aún más grandes.
  • Un mejor rendimiento al interactuar con las vistas que utilizan fuentes de datos de extracción de mayor tamaño: vistas que utilizan fuentes de datos de extracción para obtener un mejor rendimiento que el que tenían anteriormente. Aunque las extracciones más pequeñas siguen funcionando eficazmente, las de mayor tamaño tienen un rendimiento más eficiente.

Tableau en la cadena de suministro

Tableau es una herramienta muy poderosa que ha ayudado a muchas empresas a visualizar y comprender sus datos. La dinámica de este software no está enfocada en usuarios técnicos de IT sino en los usuarios del negocio; lo que ha permitido su posicionamiento en diversas áreas de negocio, en diferentes organizaciones de una manera muy fácil y rápida.

Una cadena de suministros, por ejemplo, abarca diversos procesos: inventario, transporte, manejo de mercancía, producción, etcétera; Tableau integra todos los datos de cada proceso a la perfección, en un ambiente analítico, donde cualquier usuario del negocio puede responder preguntas acerca de sus datos.

¿Cómo encaja Tableau en las necesidades en esta área tan específica?

     Ésta herramienta de Business Intelligence goza de gran flexibilidad en diversos aspectos. El primero y más importante, es la capacidad de conectarse a muchas fuentes de datos, ya sean base de datos relacionales, archivos de texto o Excel, base de datos en la nube o cubos; lo que la convierte en la herramienta ideal para una cadena de suministros en donde están involucrados diversos departamentos de una organización, con diferentes empleados, varios proveedores y múltiples localidades.

  TABLEAU EN LA CADENA DE SUMINISTRO-01El segundo aspecto en el que hay que hacer énfasis es el repositorio donde vive la data que será fuente de la información para la toma de decisiones en la cadena de suministros, por lo cual la herramienta de BI tiene que ser lo suficientemente flexible para poder conectarse a cualquier fuente de datos, debido a que cada cliente tiene su forma de almacenar los mismos.

     El tercer aspecto importante es que Tableau rompe con el esquema tradicional de Business Intelligence, al colocar el proceso de análisis de datos en el usuario del negocio, lo que se amolda perfectamente a la necesidad de una cadena de suministros, que se caracteriza por la participación e interacción de diversos usuarios y procesos. Esta ventaja le permite al gerente de almacén, por ejemplo, responder preguntas acerca de su data de una manera fácil y continua, manteniendo la data actualizada al mismo ritmo que se moviliza el inventario de su almacén.

Otro aspecto importante, en esto último que no hay mejor persona para responder preguntas de cómo se está llevando los niveles de inventario dentro del almacén, que los propios empleados del almacén. En un mundo de BI tradicional, el departamento de reportes conformados por personas de IT, tuviesen que hacer los reportes acerca de la data de almacén junto con los reportes de transporte y logística y producción, en el cual dicho personal de IT tal vez no se conozcan el proceso ni la data que manejan y además de todo esto, los requerimientos de dichos reportes suelen cambiar en cada uno de los departamentos, causando un posible colapso dentro del departamento responsable de realizar estos reportes. Por lo cual la magia de Tableau entra, colocando el poder del análisis de datos en diferentes departamentos con las personas que saben que preguntas son pertinentes para la toma de decisiones para mejorar y optimizar su departamento que está vinculado a un proceso dentro de la cadena de suministro.

Caso de éxito: PepsiCo

     Un buen ejemplo del éxito de la aplicación de Tableau en una cadena de suministros es caso de la multinacional PepsiCo; una empresa dedicada a la producción, comercialización y distribución de alimentos que opera en más 200 países.

     Debido al alto volumen de datos que manejaba dicha empresa y a que cada cliente utilizaba sus propios estándares de datos en diferentes procesos de la cadena de suministro, se originaba un manejo “pobre” de la información para analizar la data y realizar los reportes.

     Lo que motivó a PepsiCo a contactar a Trifacta (aliada comercial de Tableau, encargada de la preparación de datos para el análisis). Optaron por Hortonwork Hadoop para almacenar y consolidar sus datos y luego entró al juego Tableau para la visualización de los mismos, otorgando profundidad analítica, dando sentido al gran volumen de datos, permitiendo identificar “cuellos de botellas” en la cadena de suministros, determinar bajos niveles de almacén, estacionalidad en algunos productos, entre otros.

     Esta decisión tecnológica permitió a PepsiCo optimizar sus esfuerzos en el análisis de datos, dedicando mucho menos tiempo en este proceso, lo que se traduce en productividad, capacidad de respuesta y dinero, minimizando la inversión en la preparación de datos, permitiéndoles enfocarse más en entender y visualizar su data.

     La versatilidad de la herramienta permite que ahora los empleados de IT de PepsiCo, dedicados a la preparación de la data, publiquen directamente los extractos desde Tableau a Tableau Server para que todos los usuarios de negocios de la organización puedan realizar las combinaciones de datos requeridas para lograr las visualizaciones que identifican tendencias y facilitan la toma de decisiones. Generando un ambiente colaborativo de trabajo dentro la organización, dándole una ventaja competitiva para mejorar sus resultados en diferentes áreas del negocio.

     Como PepsiCo hay muchos otros casos de éxito donde Tableau ha sido protagonista. Además de potenciar el análisis de datos en la cadena de suministros, dicha herramienta de Business Intelligence ha mejorado la forma de hacer las cosas para muchas organizaciones de diferentes áreas, al irrumpir de forma positiva el análisis de datos y creación de reportes, al darle poder de descubrimiento y visualización de datos a cualquier persona dentro de la organización.

     El éxito de Tableau radica en su misión y forma de hacer las cosas, no solo como software sino como compañía, al tener un objetivo claro enfocado en hacer ver y entender los datos a las personas.

La analítica predictiva en el sector salud

La industria de la salud es uno de los sectores de mayor impacto estimado de análisis de datos y analítica predictiva, sin embargo, contrario a las predicciones el desarrollo ha sido más lento a lo esperado.

Los expertos opinan que parte de esto se debe a la dificultad de recolectar los datos en formatos de historias digitales, y cuando existen en las dificultades relacionadas con el manejo de esta información, sea por limitaciones legales o de privacidad, sea porque forman parte de esquemas propietarios y cerrados de recolección de información.

En cualquier caso, cuando existen los resultados del uso intensivo de analítica predictiva han sido muy exitosos. En la clínica CrescentCare dirigida al tratamiento de HIV y SIDA en Nueva Orleans  EEUU, el uso de la información contenida en bases de datos (SQL) les ha permitido definir indicadores de riesgo de los pacientes, que actualizados de manera diaria, permiten definir políticas de atención de pacientes y orientar de manera eficiente el uso de recursos humanos, recomendaciones de hospitalización o proyectar tratamientos especializados.

Otro ejemplo lo constituye el uso de información de atención médica, hospitalizaciones, cpm_03laboratorios y productos farmacéuticos de pacientes de una gran empresa estatal latinoamericana. El análisis de estos datos (en curso) ha permitido detectar pacientes “en riesgo” o “complejos” y diseñar estrategias adecuadas para tratar con casos crónicos de manera más efectiva, asegurando el mejoramiento en la calidad de vida de los pacientes así como un uso más eficiente de los recursos. El análisis ha permitido, por otro lado, la detección de uso fraudulento de los recursos disponibles mejorando la distribución de gastos.

Pero quizás los ejemplos más notables lo constituyen los ejemplos de aplicaciones que incluyen el manejo integrado y estandarizado de información de conglomerados de hospitales, clínicas, laboratorios lo cual implica  un esfuerzo importante de puesta en marcha de criterios unificados de tratamiento de la información. En el centro para Servicios de Información en Salud en Illinois, EEUU, que integra 12 hospitales las ventajas justifican con creces los esfuerzos: donde antes cada proyecto de análisis de datos se realizaba de manera independiente buscando datos de los registros, ahora se pueden integrar la información en una misma plataforma. Por otro lado el manejo integrado permite diseñar estrategias más adecuadas de atención a pacientes incluyendo traslados o uso de recursos compartidos.

Las posibilidades del uso de herramientas de analítica predictiva en la gestión de salud  son casi infinitas y representan un gran reto sobre todo en sistemas más precarios donde el manejo eficiente de recursos humanos, hospitalarios,  clínicos y farmacéuticos puede significar el acceso a un sistema de salud  de  primera calidad reduciendo los costos globales. Ojalá veamos este tipo de soluciones en el futuro cercano.

Una guía fácil sobre Inteligencia de Negocios

Ya sabemos que la inteligencia empresarial se trata de las decisiones correctas que toma una empresa para impulsar o mantener su negocio pero, ¿cómo se llega a eso? Esta guía del proceso explica los básicos del qué, por qué, cómo y el para qué de la inteligencia de negocios.

Cuando se implementa una estrategia de business intelligence, el proceso involucra principalmente estas cuatro etapas:

El qué → Descriptivo: se refiere a la estadística que se aplica como punto de partida para desarrollar una solución de inteligencia de negocios. Se parte por lo básico, es decir, recolectar, clasificar y ordenar los datos, así ponemos sobre la mesa qué se tiene de la empresa, qué se necesita y hacia dónde vamos.cpm_02

Cuando una empresa se acerca al business intelligence, es la primera oportunidad que tiene la organización puede ver datos dispersos en un solo sitio, ya que gran parte del esfuerzo que se hacer para lograr una solución de inteligencia de negocios se centra en recopilar e integrar datos que vienen de fuentes distintas, en sistemas diferentes y que se deben llevar a la misma escala para poderlos comparar, entre otras cosas.

El por qué → Diagnóstico: esta fase se trata de explicar por qué el negocio se comporta como se comporta, es decir, si responde o no a los datos del contexto o los datos internos, es decir, el business intelligence describe al negocio en términos reales.

El cómo → Predictivo: después de los pasos anteriores, se determinan tendencia con base en esos datos internos y eventualmente de los externos.

El para qué → Prescriptivo: como el final del proceso, se trata de saber si yo puedo, teniendo como base la inteligencia de negocios, determinar cursos de acción.

Como se observa, cada fase es más compleja que la otra y cada una completa un bloque de información y de procesos necesarios para llegar a lo que tanto anhelamos: decisiones inteligentes que nos permitan adelantarnos a la competencia, vender más, impulsar el negocio, mantenerlo o cambiarlo. De esto se trata el qué, el por qué, el cómo y el para qué del BI.

¿Qué es R y por qué usarlo?

El desglose de los datos y su análisis es parte fundamental del proceso que se lleva a cabo cuando se desarrolla una solución de inteligencia empresarial. Es por esto que conversamos sobre R, una herramienta para el trabajo con la data.

R es un entorno de programación libre que se utiliza para el procesamiento y análisis estadístico de datos implementado en el lenguaje S de GNU, aunque para algoritmos computacionalmente exigentes se emplean lenguajes como C, C++ o Fortran.cpm_01

Inicialmente, R fue desarrollado por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland, en 1993, pero actualmente R es responsabilidad del R Development Core Team.

A continuación, enumeramos 6 razones por las cuales R es una excelente opción para procesar datos:

  1. R es gratuito y tiene 6817 paquetes disponibles.
  2. Es un programa avalado por una sólida comunidad científica que provee excelente documentación.
  3. Es el software estadístico más utilizado en las universidades del mundo.
  4. Estas son algunas de las grandes compañías que se han apoyado en R: SAP HANA, Tableau, Pentaho. Oracle también está integrando R a su plataforma.
  5. Posee excelentes capacidades para procesar y analizar grandes volúmenes de datos con ayuda de herramientas como Hadoop y Spark.
  6. Es compatible con equipos Mac, Windows y Linux.

¿Necesitas más razones para usar R? Es accesible, funcional y amplio, convirtiéndola en una herramienta imprenscindible para procesar la data que, posteriormente, nos dará las soluciones inteligentes que necesitamos. 

¿Qué es y para qué sirve a las empresas el Data Warehouse?

Seguramente han escuchado muchas veces el término de Data Warehouse; podemos definirla como una base de datos corporativa donde se integra y depura información de una o varias fuentes distintas, que luego serán procesadas y analizadas desde distintos puntos de vista con afinidad de perspectivas y grandes velocidades de respuesta.

La creación del Data Warehouse representa la mayoría de las veces el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence y así aportar las mejores respuestas a los problemas de la organización. Objeto inteligente vectorial3-01 (1)

¿Qué ventajas nos aporta este proceso?

  • Nos proporciona información clave para la toma de decisiones en la empresa.
  • Mejora la calidad de las decisiones tomadas.
  • Estos datos son útiles a mediano y largo plazo.
  • Si las fuentes de los datos y los objetivos están claros, los sistemas son sencillos de instalar.
  • Es útil también para el almacenamiento de análisis y consultas históricas.
  • Permite mayor flexibilidad y rapidez en el acceso a la información.
  • Brinda una comunicación fiable entre todos los departamentos de la empresa.

También hay que destacar que, para comprender íntegramente el concepto, este proceso se construye a partir del ETL (Extracción, transformación y carga) y los sistemas operacionales de una compañía:

  • Extracción → se trata de obtener la información de las distintas fuentes, tanto internas como externas.
  • Transformación → es el filtrado, limpieza, depuración, homogeneización y agrupación de la información.
  • Carga → sobre la organización y actualización de los datos y metadatos en la base de datos.

Para que el Data Warehouse sea exitoso se necesita una limpieza continua, transformación e integración de los datos. Además, requiere sistemas, aplicaciones y almacenamiento específico. Es un trabajo constante que garantiza el éxito de los datos en el diagnóstico y las soluciones de inteligencia de negocios que serán implementadas en la compañía.

Finalmente, se puede decir que el principal beneficio del Data Warehouse para las empresas es que tiene la propiedad de eliminar los datos que interfieren con el análisis de la información y su entrega; sea cual sea el formato requerido, el Data Warehouse facilita el proceso de gestión.

¡Los datos son petróleo!

Cada vez más, las empresas ven a sus datos como su activo más preciado. Son el “nuevo petróleo” descubierto y por tanto requieren de procesos de refinamiento para convertirlos en combustible del éxito.

La refinación de datos es el proceso mediante el cual se pueden depurar datos heterogéneos dentro de un contexto común (la empresa), para hacer posible su comprensión y la obtención de información de los mismos. Esto se logra eliminando la variabilidad de los datos y su redundancia, con lo que se obtiene un recurso de datos integrados de mucho valor para la toma de decisiones.

Estudios recientes demuestran que el 90% de los datos disponibles hoy son de fuentes de Objeto inteligente vectorial3-01datos no estructuradas. La refinería de datos es la primera oferta capaz de procesar grandes cantidades de datos no estructurados provenientes de diferentes tipos de organizaciones, en todos los tipos de formatos (oraciones largas y complejas, frases cortas con errores ortográficos y gramaticales y otros tipos de datos) y provenientes de diferentes tipos de medios (páginas web, artículos de blog, mensajes y respuestas en redes sociales, quejas recogidas, etc.) de manera eficiente.

El proceso de refinación de datos es uno de los aspectos más importantes al almacenarlos porque los datos no refinados pueden causar un desastre en la producción de información de una empresa. Tradicionalmente se desarrolla un proceso de extracción, transformación, y carga de datos (ETL) con el cual se recopilan datos de varias fuentes, se transforman para cumplir con las reglas de negocio y las mejores prácticas de arquitectura de datos y finalmente se procede a la carga en un almacén de datos centralizado para efectos de análisis (el Data Warehouse).

Para automatizar el proceso de aprovisionamiento y explotación de grandes volúmenes de datos en una organización de manera eficiente, debe echarse mano de herramientas que lo permitan. Con Pentaho Data Integration y Hadoop se puede lograr un hub de información multi-fuente de alto rendimiento, donde se pueden almacenar, mezclar y luego publicar automáticamente los datos en forma de conjuntos de datos en motores de bases analíticas tales como HP Vertica, para su consumo y explotación por parte del usuario final mediante el descubrimiento de datos, informes, cuadros de mando y procesos analí­ticos avanzados.

Dé un paso adelante.