Archivo por meses: octubre 2015

¡Los datos son petróleo!

Cada vez más, las empresas ven a sus datos como su activo más preciado. Son el “nuevo petróleo” descubierto y por tanto requieren de procesos de refinamiento para convertirlos en combustible del éxito.

La refinación de datos es el proceso mediante el cual se pueden depurar datos heterogéneos dentro de un contexto común (la empresa), para hacer posible su comprensión y la obtención de información de los mismos. Esto se logra eliminando la variabilidad de los datos y su redundancia, con lo que se obtiene un recurso de datos integrados de mucho valor para la toma de decisiones.

Estudios recientes demuestran que el 90% de los datos disponibles hoy son de fuentes de Objeto inteligente vectorial3-01datos no estructuradas. La refinería de datos es la primera oferta capaz de procesar grandes cantidades de datos no estructurados provenientes de diferentes tipos de organizaciones, en todos los tipos de formatos (oraciones largas y complejas, frases cortas con errores ortográficos y gramaticales y otros tipos de datos) y provenientes de diferentes tipos de medios (páginas web, artículos de blog, mensajes y respuestas en redes sociales, quejas recogidas, etc.) de manera eficiente.

El proceso de refinación de datos es uno de los aspectos más importantes al almacenarlos porque los datos no refinados pueden causar un desastre en la producción de información de una empresa. Tradicionalmente se desarrolla un proceso de extracción, transformación, y carga de datos (ETL) con el cual se recopilan datos de varias fuentes, se transforman para cumplir con las reglas de negocio y las mejores prácticas de arquitectura de datos y finalmente se procede a la carga en un almacén de datos centralizado para efectos de análisis (el Data Warehouse).

Para automatizar el proceso de aprovisionamiento y explotación de grandes volúmenes de datos en una organización de manera eficiente, debe echarse mano de herramientas que lo permitan. Con Pentaho Data Integration y Hadoop se puede lograr un hub de información multi-fuente de alto rendimiento, donde se pueden almacenar, mezclar y luego publicar automáticamente los datos en forma de conjuntos de datos en motores de bases analíticas tales como HP Vertica, para su consumo y explotación por parte del usuario final mediante el descubrimiento de datos, informes, cuadros de mando y procesos analí­ticos avanzados.

Dé un paso adelante.

La conciencia del dato

Conseguí esta semana un artículo escrito por un profesor, quien fue fundador de las Escuelas de Matemática y Física de la UCV, así como fundador del Departamento de Cálculo Numérico, el cual luego se convirtió en la Escuela de Computación de la Facultad de Ciencias de UCV. Hablo de Manuel Bemporad.

Este insigne profesor, quien también fue director de la ASOVAC (Asociación Venezolana para el Avance de la Ciencia), publicó el siguiente artículo titulado La conciencia del dato el cual me parece muy importante compartirlo por la veracidad de sus argumentos y validez que tiene cada día que me veo inmerso en proyectos de datos.

Bemporad habla acerca de un mal que nos aqueja a los países de nuestra región, instituciones públicas y privadas por igual, que es el poco valor que le damos al “dato” crudo. La poca importancia que le damos a esto, repercute en otra cuestión más importante, que es la generación de estadísticas, para poder contabilizar, reportar y en última instancia, predecir el comportamiento basado en los datos recolectados.

Luego de leer dicho artículo, recordé mis clases de Introducción a la Informática de la UCV, las cuales nunca fueron de mi agrado, pero que ahora, en retrospectiva, me sirven de base para implementar proyectos en el área de toma de decisiones estratégica, principalmente, gracias a los conceptos de dato, información y conocimiento. El siguiente gráfico que conseguí en esta web ilustra de manera concisa la relación entre los tres conceptos mediante una pirámide:

conciencia del dato

Esta pirámide refleja que en la base están los datos, los cuales soportan la operación diaria del negocio (cuando me refiero a negocio, me refiero al proceso al cual el software da soporte, por ejemplo: contabilidad, nómina, ventas, suministro, inventario, etc). Como vemos, a partir de esta base podemos obtener información valiosa que nos generan estadísticas acerca del comportamiento de nuestro negocio; y es, mediante un proceso de análisis y aprendizaje que obtenemos “conocimiento”.

Dato: son la mínima unidad semántica que se corresponde con elementos primarios de un negocio: un hecho, un evento, una imagen, una descripción, o un simple número
Información: es la interpretación o comprensión de los datos. Son datos que son contextualizados y categorizados
Conocimiento: es una mezcla de experiencia, valores, información y know-how que sirve Objeto inteligente vectorial3-01 (1)como marco para la incorporación de nuevas experiencias e información, y es útil para la acción.

Si la base está mal… todo en la pirámide hacia arriba estará mal. Y esto me lleva a un lema bien arraigado que dice “si entra basura, sale basura” o “La calidad de las estadísticas depende de la calidad de tus datos”.

Sirva este post como un homenaje a Manuel Bemporad y como un recordatorio de nuestro ejercicio profesional, sobre todo en Inteligencia de Negocios.

Bibliografía consultada:
La informacion y el conocimiento. http://peremarques.pangea.org/infocon.htm
Sinnexus: Datos, información, conocimiento, http://www.sinnexus.com/business_intelligence/piramide_negocio.aspx
Bemporad , M. (2003). La conciencia del dato. Interciencia, 28(7) Recuperado de http://www.redalyc.org/articulo.oa?id=33908201