Entendiendo la integración de datos y sus principales desafíos

Entendiendo la integración de datos y sus principales desafíos

Entendiendo la integración de datos y sus principales desafíos

Integrar datos como estrategia de negocio.

La integración de datos es una combinación de tecnología y procesos de negocio que se utilizan para consolidar datos dispares procedentes de diferentes fuentes de datos de forma que se pueda obtener información valiosa para la organización.

Los datos a integrar pueden encontrarse tanto de bases de datos modernas como heredadas, aplicaciones instaladas en ordenadores de sobremesa, comentarios en redes sociales, artículos de blog, sensores de máquinas, y más.

La mayoría de soluciones de integración de datos modernas están preparadas para integrar esos tipos de datos así como otras nuevas fuentes de datos que todavía están por aparecer. Además ayudan a entender, limpiar, monitorizar, transformar y proporcionar datos confiables, consistentes y gobernados en tiempo real.


Algunos términos relacionados con la integración de datos

La integración de datos es un concepto complejo que incluye una gran variedad de terminología que es importante conocer para entenderla por completo:

Datos
Los datos pueden en realidad significar diferentes cosas, aunque en términos de integración y análisis de datos lo entendemos como la información en bruto que procesamos y manipulamos para obtener inteligencia de negocio. Más concretamente, en relación a la integración de datos, podríamos hablar de diferentes tipos de datos:

Datos estructurados: que siguen unas reglas definidas en cuanto a formato y contenido. Un ejemplo serían los datos incluidos en una base de datos, con sus tablas y registros de unos tipos de datos definidos.
Datos semiestructurados: estos datos están formateados de acuerdo a ciertas reglas pero pueden variar en estructura dependiendo de donde se encuentran. Un ejemplo son los datos en formato XML que tienen definida una estructura pero que requieren que una aplicación entienda como intercambiar estos datos con otros sistemas.
Datos desestructurados: se trata de datos que no siguen ningún formato predefinido. Algunos ejemplos son los emails, los artículos de blog, los comentarios de redes sociales, un fichero PDF, etc.
Datos máquina: los sensores de muchas máquinas proporcionan información acerca de sus condiciones de operación y fallos.

Metadatos
Podríamos decir que los metadatos son información sobre los datos que nos dice qué tipos de información contiene cada pieza de datos. En una base de datos relacional, las definiciones de las tablas y campos son metadatos. En un fichero MP3, su cabecera incluye metadatos que describen el tipo de fichero y proporciona información sobre su origen, el título del álbum, el artista, etc. Las fotografías digitales contienen metadatos que pueden llegar a identificar la localización del lugar donde se hizo la foto.

Big data
Cuando hablamos de big data nos referimos a una cantidad de datos tan grande que los sistemas y procesos tradicionales son incapaces de manejarlos. Se trata del almacenamiento y análisis de datos que hasta ahora solían desecharse ante la imposibilidad de extraer información de ellos de forma eficiente. Junto con big data muchas veces encontrarás términos como:

Data lake: dónde se almacenan cantidades ilimitadas de datos en cualquier formato y tipo.
Hadoop: que es un software de código abierto para almacenar y procesar datos en clusters de hardware básico.

Ubicación
En una integración de datos, la fragmentación de datos a través de varias ubicaciones puede ser un factor importante para el éxito del proyecto.

Tradicionalmente los datos siempre habían existido dentro de los límites físicos de la organización. En los servidores que las empresas tenían en sus data centers. Sin embargo, en los últimos años muchos almacenes de datos se han movido a la nube. Y en muchos casos no han sido solo los datos, sino que también las aplicaciones se han movido a la nube.

Aunque existen herramientas de integración de datos que soportan entornos híbridos en los cuales parte de los datos se encuentran en la nube y otros en las propias instalaciones, es necesario seleccionar bien la herramienta para que sea lo suficientemente flexible como para soportar las nuevas tecnologías que aparecen continuamente.

Mapeo
El mapeo es el proceso de definir la fuente y el destino de los datos así como las transformaciones que se deben de realizar para mover los datos. En una buena herramienta de integración de datos, este mapeo se puede representar visualmente de forma que cualquiera puede seguir fácilmente el camino que siguen los datos desde el inicio hasta el fin.

Glosario de negocio

Este glosario ayuda a asegurar que cualquiera en la organización podrá entender los términos, a través de términos de negocio y sinónimos. Diferentes grupos dentro de una compañía pueden tener diferentes definiciones funcionales para las mismas cosas. Por ejemplo, para el departamento de ventas el cliente puede significar algo diferente de lo que significa para el departamento de TI, para quienes los clientes pueden ser quienes consumen los datos que producen las aplicaciones.


Algunos desafíos de la integración de datos


Desafío técnico

El desafío más obvio de la integración de datos es técnico. Estos desafíos técnicos están frecuentemente asociados a las llamadas 5 V:

Variedad: existen muchos tipos diferentes de datos, tanto estructurados como semiestructurados y desestructurados. Las herramientas de integración de datos debe ser capaz de mapear y transformar esta variedad de datos en algo que se pueda utilizar.

Volumen: cada vez tenemos más datos. El volumen crece constantemente y ese es uno de los principales desafíos de cualquier herramienta de integración de datos. Necesitan ser capaces de mover grandes cantidades de datos en un tiempo relativamente pequeño.

Velocidad: se trata de ser capaz de manejar la velocidad con la que los datos nos llegan y la habilidad que tenemos para consumirlos y moverlos. Hace años se hacía por la noche con lo que las organizaciones utilizaban los datos de ayer pero en la actualidad eso sería una desventaja competitiva. Es necesario el tiempo real para obtener análisis predictivo que nos ayude, por ejemplo, a detectar fraude con una tarjeta de crédito en el mismo momento en que se está produciendo.

Veracidad: se refiere a la calidad de los datos y cómo de seguro puedes estar de que lo que estás viendo es ciertamente preciso. La ambigüedad, duplicidad, latencia, spam e inconsistencia son, entre otras cosas, causas de falta de confiabilidad.

Valor: a menos que puedas convertir los datos en algo de valor, estos no serán relevantes. Recoger grandes cantidades de datos sin valor no tienen sentido. Debes estar seguro de que tu proyecto de integración de datos ofrece datos que retornan valor real.

Repetibilidad
La integración de datos no trata de un solo proyecto sino más bien de un conjunto de proyectos que se van ejecutando a lo largo de tiempo. Incluso diferentes grupos dentro de la organización pueden necesitar diferentes variaciones de integración de datos para sus diferentes proyectos. La herramienta de integración de datos y los equipos debe ser capaz de reutilizar la mayoría de las piezas de una integración para ejecutar una nueva.

Colaboración

Los diferentes grupos dentro de una organización van a necesitar colaborar en un mismo proceso de integración de datos para que este resulte exitoso. Cada grupo puede tener diferentes razones para mover los datos, con requerimientos diferentes acerca de cómo deben aparecer, y necesidades distintas cobre cuando y como recibir los datos.

Política de la organización

Por último, en la organización pueden existir diferentes situaciones que pueden bloquear un proyecto de integración de datos. Estos pueden ser:
Encontrar un sponsor que entienda el valor de los datos para el negocio
Conseguir el presupuesto adecuado para el proyecto de integración de datos.
Fomento del intercambio de datos y su calidad.


A modo de conclusión

Muchas organizaciones conocen en qué consiste la integración de datos pero todavía utilizan procesos de integración programados manualmente por sus departamento de TI en lugar de utilizar herramientas de integración de datos diseñadas y mantenidas por empresas que son especialistas en gestión de datos. En este artículo hemos revisado lo que significa la integración de datos a través de los diferentes términos que se utilizan en estos proyectos, además de los diferentes desafíos que un proyecto y las herramientas que se utilizan deben afrontar.

Para ampliar esta información, lo invitamos a descargar la guía “Cloud Data Integration - Cómo hacer frente a los desafíos de la integración en la era del Cloud” de Power Data.

Power Data
Soluciones de gestión de datos

Visto 416 veces
Corporación Colombia Digital

@colombiadigital

La Corporación Colombia Digital (CCD) es una organización dedicada a promover el uso y apropiación de las tecnologías de información y las comunicaciones, en beneficio del desarrollo social y económico.