TL;DR

Un Arquitecto de Datos diseña la estructura de almacenamiento, organización y utilización de datos para garantizar la calidad y flexibilidad de los mismos. Se enfoca en la estrategia y tácticas, trabajando en estrecha colaboración con ingenieros de datos para implementar la arquitectura. Comprender el ciclo de vida de la ingeniería de datos y los desafíos comunes es clave para agregar el valor empresarial necesario.

Intro

Hoy en día, es esencial que los datos puedan ser accedidos y reutilizados no solo por profesionales, sino también por usuarios comunes, como aquellos que utilizan redes sociales y tratan de descargar su propia información.

Tareas como crear, guardar, ingerir, transformar, procesar y visualizar datos requieren tiempo y esfuerzo.

Además, mantener la seguridad, ejecutar la gestión, realizar operaciones, detallar la orquestación, preservar buenas prácticas de ingeniería de software y definir la estrategia de arquitectura de datos son aspectos críticos del ecosistema de datos.

De todos estos puntos, quiero centrarme en la arquitectura de datos. Existen varios roles relacionados con los datos en el mercado laboral que a veces pueden resultar abrumadores o difíciles de distinguir entre sí.

Si tienes experiencia trabajando con datos, es posible que hayas notado que a veces un Analista de Datos realiza tareas que típicamente son realizadas por un Ingeniero de Datos, o viceversa.

De manera similar, un Científico de Datos puede estar enfocado únicamente en consultas SQL y paneles para una empresa. Esta variación en los roles a menudo depende de la madurez de los datos de la empresa, organización o proyecto.

 

¿Qué es un Arquitecto de Datos?

Si buscas en línea, en libros o preguntas a alguien con experiencia en datos, puedes encontrar diferentes definiciones de lo que es un arquitecto de datos.

Según el libro Deciphering Data Architectures de James Serra:

Son quienes diseñan la estructura de alto nivel de la arquitectura de datos (MDW, Data Fabric o Data Lakehouse) y deciden qué tecnologías y políticas de gobernanza de datos debe utilizar el proyecto.

Según TOGAF:

Son responsables de describir la estructura e interacción de los principales tipos y fuentes de datos, activos de datos lógicos, activos de datos físicos y recursos de gestión de datos de la empresa.

Según DAMA DMBOK:

Identifican las necesidades de datos de la empresa (independientemente de la estructura) y diseñan y mantienen planes maestros para guiar la integración de datos, controlar los activos de datos y alinear las inversiones en datos con la estrategia empresarial.

Según el libro Fundamentals of Data Engineering de Joe Ries & Matt Housley:

Funcionan como un nivel de abstracción respecto a los ingenieros de datos. Los arquitectos de datos diseñan el modelo para la gestión organizacional de los datos, mapeando procesos y la arquitectura general de datos y sistemas. También sirven como un puente entre los aspectos técnicos y no técnicos de una organización.

También tienen otra definición:

Son aquellos que diseñan sistemas para apoyar las cambiantes necesidades de datos de una empresa, logradas a través de decisiones flexibles y reversibles alcanzadas mediante una cuidadosa evaluación de compensaciones.  

Ahora, ¿qué definición se debe elegir? Resumiendo todas estas definiciones, se podría encapsular de la siguiente manera:

  • Diseñan la estructura general de cómo se almacenan, organizan y utilizan los datos.
  • Deciden qué tecnologías se utilizarán para gestionar los datos.
  • Crean reglas y políticas para garantizar que los datos sean de alta calidad y confiables.
  • Aseguran que los sistemas de datos sean flexibles y puedan adaptarse a las cambiantes necesidades de la empresa.

Funcionan como diseñadores, desarrollando los sistemas necesarios para todo el ciclo de vida de los datos, de modo que las empresas puedan maximizar y potenciar el valor de sus datos.

Un arquitecto de datos analiza los pros y los contras, diseña con agilidad y agrega valor al negocio.

 

¿Qué NO es un Arquitecto de Datos?

Cualquier cosa relacionada tanto con la estrategia como con las tácticas puede considerarse parte de la Arquitectura de Datos.

La estrategia implica las preguntas qué, por qué y cuándo, mientras que las táctica involucra la pregunta cómo.

Supongamos que alguien de tu empresa se acerca a ti y expresa la necesidad de integrar información de diversas fuentes para poder utilizar los datos.

Como arquitecto de datos, debes comenzar investigando con qué exactamente están tratando, entendiendo por qué quieren esta integración y utilización de datos, y determinando cuándo necesitan este tipo de solución.

Estas no son las únicas preguntas que un arquitecto de datos formula, pero el punto que quiero enfatizar es que no debes simplemente decir: “Tenemos las herramientas X, Y y Z para extraer y analizar datos,” ya que esto puede tener consecuencias negativas en el diseño de la solución.

Además de la estrategia y las tácticas, los arquitectos de datos deben considerar tres aspectos principales al desarrollar una nueva arquitectura de datos:

  • Completitud
  • Precisión
  • Consistencia

A menudo, los interesados pueden no tener una comprensión clara de lo que están tratando, por lo que es esencial estar presente al definir esos requisitos funcionales.

En mi opinión, es un arte; a veces, los interesados pueden saber solo que necesitan integrar y utilizar datos, lo cual puede ser un buen punto de partida.

¿Pero estas tareas suelen ser realizadas por un Ingeniero de Datos, o no?

Es cierto que un ingeniero de datos es capaz de manejar todas estas tareas, pero como se mencionó anteriormente, los arquitectos de datos operan a un nivel más alto de abstracción.

Además, aunque no soy un experto en construcción, entiendo que un ingeniero civil podría cumplir con las funciones de un arquitecto. Entonces, ¿por qué existen los arquitectos?

Porque los arquitectos se enfocan en la estrategia y las tácticas, mientras que los ingenieros dan vida a los diseños.

 

Un ingeniero de datos tiene la tarea de crear, probar y mantener la arquitectura de datos. Escribe scripts para extraer, cargar y transformar datos de diversas fuentes para crear una solución de datos, trabajando en estrecha colaboración con un arquitecto de datos para implementar la arquitectura planificada.

Si bien un ingeniero puede realizar trabajos de arquitectura, es importante definir sus limitaciones, objetivos, tareas y alcance. Esto es crucial porque es posible que hayas encontrado situaciones en tu lugar de trabajo donde un ingeniero asume más responsabilidades de las necesarias.

Ahora, de todos estos roles, ¿has observado alguna posición donde las tareas se hayan combinado?

  • Data Analyst
  • Data Scientist
  • Business Intelligence Analyst
  • Data Engineer
  • Database Administrator
  • Data Architect
  • Data Steward
  • Product Owner

No es raro que los roles se mezclen, pero es esencial recordar que un rol relacionado con los datos puede abarcar múltiples responsabilidades.

Su Rol en el ciclo de vida de Ingenieria de Datos

Entender el ciclo de vida de la ingeniería de datos es importante debido a su impacto en cada etapa de un proyecto, lo que en última instancia entrega valor empresarial a los interesados.

  • Generación
  • Almacenamiento
  • Ingestión
  • Transformación
  • Visualización o Entrega

Los datos tienen valor en cada fase de este ciclo, y los datos que no son consumidos o consultados pueden representar un riesgo para cualquier negocio.

Muchas empresas, en su búsqueda de proyectos ambiciosos en la era del big data, han recopilado cantidades masivas de datos que, en última instancia, no se utilizaron.

Los proyectos deben ser intencionales a lo largo de todo el ciclo de vida, tanto en ingeniería como en datos.

Un ingeniero de datos es responsable de extraer información de manera oportuna, siguiendo los protocolos adecuados de seguridad e integración, y cualquier otra tarea necesaria.

¿Pero el trabajo de un Ingeniero de Datos termina aquí?

Eso es lo que quiero que entiendas y a lo que me refiero: un arquitecto de datos debe evaluar, diseñar, organizar y ver el valor en las fases del proyecto. Un ingeniero de datos podría realizar todas estas tareas, pero no es su trabajo principal.

Por ejemplo, imaginemos que vas a un hospital y te encuentras con un médico. Probablemente sepas con certeza que el médico va a:

  • Examinar tu condición
  • Hacer un diagnóstico
  • Prescribir medicación

Y seguramente no va a:

  • Limpiar el hospital
  • Fabricar la medicación
  • Gestionar la administración del hospital

 

¿Pero qué pasa con los ingenieros de datos? ¿Las expectativas son poco claras? Lo que ocurre es que ellos pueden:

  • Diseñar el modelo de datos de un Data Warehouse
  • Gestionar bases de datos de aplicaciones
  • Crear un pipeline de datos para Machine Learning
  • Administrar toda la infraestructura de big data e instalación de software
  • Analizar big data para transformar datos en bruto en información significativa

Como mencioné anteriormente, si las empresas fueran más maduras en términos de datos, entonces habría límites mejor definidos.

Al final del día, también depende de cómo las herramientas en lo que se conoce como “red de datos moderna” aumenten con la creciente complejidad de los datos.

¿Qué es lo que debería de hacer un Ingeniero de Datos?

Creo que deberían tener un amplio entendimiento de todo el ciclo de vida de los datos, distinguiendo entre habilidades esenciales, beneficiosas u opcionales.

Sin embargo, lo que se considera esencial en una empresa puede verse como opcional en otra. En última instancia, depende de las operaciones específicas y las necesidades del negocio y sus clientes.

Desafíos Comunes de Datos

Si la madurez de los datos es baja, puedes encontrar:

  • Silos de datos
  • Infraestructura inadecuada
  • Resistencia cultural
  • Vulnerabilidades de seguridad

Por otro lado, si la madurez de los datos es alta, puedes enfrentar:

  • Problemas de gobernanza y gestión de datos
  • Innovación con tecnologías emergentes
  • Desarrollo y mantenimiento de análisis avanzados

En ambos escenarios, puede haber una variedad de desafíos, pero es importante reconocer que muchos datos no se están utilizando de manera efectiva. Esto podría deberse a un mal diseño de la arquitectura de datos, gobernanza o gestión de datos inadecuadas, o a una mala calidad de los datos desde su creación.

Outro

Un Arquitecto de Datos desempeña un papel crucial en la configuración del paisaje de datos de una organización. Son responsables de crear arquitecturas de datos robustas que aseguren la accesibilidad, confiabilidad y seguridad de los datos.

Abordando tanto aspectos estratégicos como tácticos, los Arquitectos de Datos cierran la brecha entre los requisitos funcionales y los requisitos técnicos.

Su capacidad para evaluar compensaciones y desarrollar sistemas adaptables es esencial para satisfacer las necesidades de datos.

Por último, los Arquitectos de Datos empoderan a las organizaciones para utilizar eficazmente sus recursos de datos, impulsando el valor empresarial y la innovación.