Si alguna vez te has sentido abrumado por términos como Data Lake, Metadata o Data Governance, entonces has llegado al lugar correcto.
Entiendo que incluso un solo concepto puede tener diferentes interpretaciones, así que mi objetivo no es definir, sino explicar estos términos de manera sencilla con ejemplos o contexto.
Si crees que falta algún concepto o término, puedes agregar un comentario al final de este artículo o puedes hacermelo saber de la manera que te resulte más conveniente (Correo, mensaje, etc).
Data
Hechos, cifras o información en bruto que se recopilan y almacenan para su posterior análisis. Esto puede incluir hechos, números, mediciones, observaciones o cualquier otro detalle que se pueda utilizar para comprender un tema en particular.
Si estás registrando la temperatura diaria en una ciudad durante el transcurso de un mes, podrías recopilar datos sobre la temperatura, la humedad, la velocidad del viento y las precipitaciones a lo largo del día. Los datos existen en diversas formas y se pueden encontrar en situaciones cotidianas.
Metadata
Es información que describe otros datos. Proporciona detalles sobre el contenido, la calidad, la condición, el origen y otras características de un elemento específico. En el contexto digital, los metadatos pueden incluir detalles como el autor, la fecha de creación, el tamaño del archivo y palabras clave.
Si tienes fotos en tu smartphone, abre una imagen y podrás ver metadatos como la fecha en que fue tomada, el tamaño, la ubicación, etc. La foto en sí es el dato primario, mientras que los metadatos proporcionan información complementaria sobre la foto.
Database
Se trata de una colección organizada de información estructurada, que normalmente se almacena y se accede a ella electrónicamente desde un sistema informático. Permite el almacenamiento, la recuperación y la manipulación eficientes de los datos.
El ejemplo clásico es pensar en una biblioteca. Cada libro tiene su etiqueta con su título, autor, etc. En la biblioteca, se almacenan y organizan libros, pero en lugar de libros, piense en datos. Al igual que un sistema de archivos, una base de datos ayuda a mantener la información estructurada.
Structured Data
Se refiere a información que está organizada en un formato específico, lo que facilita su comprensión tanto para humanos como para computadoras. Consiste en elementos de datos organizados en filas y columnas, como una tabla.
Una guía telefónica contiene datos estructurados porque organiza campos específicos como nombre, número de teléfono, dirección, etc.
Unstructured Data
Se refiere a información que no tiene un formato específico. Generalmente, los datos no estructurados carecen de una estructura predefinida, lo que hace que sean más difíciles de analizar y procesar en comparación con los datos estructurados.
Imagina una pila de cartas escritas a mano. Cada carta puede contener diferentes tipos de información, como historias personales, emociones u opiniones. Estas cartas no siguen un formato estandarizado y pueden variar en longitud, estilo de escritura o lenguaje.
En el mundo digital, los correos electrónicos, las publicaciones en las redes sociales, las imágenes, los videos, las grabaciones de audio y los documentos de texto de formato libre son ejemplos de datos no estructurados.
Semi-structured Data
Los datos semiestructurados se encuentran entre los datos estructurados y los no estructurados. Tienen cierta organización, pero carecen del formato predefinido estricto de los datos estructurados.
Piensa en una bandeja de entrada de correo electrónico. Cada correo electrónico consta de elementos estructurados como remitente, destinatario, asunto y marca de tiempo. Sin embargo, el cuerpo del correo electrónico puede contener información no estructurada, como texto de formato libre, archivos adjuntos o diferentes estilos de formato. Esta combinación de estructura y flexibilidad representa los datos semiestructurados.
Data Testing
Es el proceso de examinar y validar datos para garantizar su calidad, precisión y fiabilidad. Implica comprobar si los datos cumplen los estándares esperados y satisfacen los criterios deseados. Básicamente, la prueba de datos es como corregir los datos para detectar errores o inconsistencias, lo que garantiza que la información con la que se trabaja sea fiable y digna de confianza.
Imagina que trabajas como cajero en un supermercado y tu trabajo consiste en registrar los precios de los diferentes productos que se venden. Data testing en este contexto implicaría verificar que el precio que introduce para cada producto sea correcto, asegurándose de que no haya errores tipográficos ni equivocaciones. Puede comparar los precios introducidos con una lista de referencia o consultar con un compañero de trabajo para validar la precisión de los datos registrados.
Duplicate Data
Se refiere a tener múltiples copias idénticas o casi idénticas de la misma información dentro de un conjunto de datos o sistemas.
Considera el escenario en el que estás administrando tu lista de contactos. En esa lista, almacenas nombres, números de teléfono y correos electrónicos de tus amigos. Ahora, supongamos que agregas accidentalmente el mismo contacto dos veces con un typo, lo que da como resultado datos duplicados.
Orphaned Data
Se trata de datos que existen sin ningún contexto asociado o significativo. Básicamente, son datos que carecen de conexiones o relaciones adecuadas con otros elementos de datos.
Imagina una biblioteca en la que encuentras un libro al que le falta información sobre su autor, título, etc. Este libro se convierte en un libro huérfano porque no se puede categorizar ni utilizar adecuadamente, ya que carece de los detalles que lo harían valioso dentro del sistema de la biblioteca.
De manera similar, en el contexto de los datos, los datos huérfanos podrían ser una entrada sin ninguna información correspondiente, como un registro de cliente sin nombre ni datos de contacto. Estos datos se vuelven difíciles de analizar o utilizar de manera efectiva porque carecen del contexto necesario.
Incomplete or Missing Data
Se trata de datos que no están completamente disponibles o carecen de cierta información necesaria. Esto implica que existen lagunas en los datos que pueden dificultar su utilidad para el análisis o la toma de decisiones.
Imagina que estás viajando y utilizas una aplicación de navegación (como Google Maps) que proporciona tiempos de viaje estimados en función de datos históricos de tráfico. Sin embargo, si la aplicación no tiene información actualizada sobre el tráfico actual o los cierres de carreteras, no podrás predecir con precisión tu tiempo de viaje.
En este escenario, los datos incompletos o faltantes son la ausencia de información de tráfico en tiempo real. De manera similar, en el mundo de los datos, es posible que falten datos al analizar el comportamiento del cliente si no se capturan o registran ciertas variables.
Mislabeled Data
Datos que han sido etiquetados o clasificados incorrectamente, lo que genera información inexacta o engañosa. Esto significa que los datos no representan con precisión su verdadera naturaleza o significado.
Estás organizando una colección de fotos. Tienes una carpeta llamada “Vacaciones en Europa”, pero cuando la abres, encuentras imágenes de tus vacaciones en México. En el contexto de los datos, los datos mal etiquetados ocurren cuando se asignan etiquetas incorrectas.
Data Swamp
Se trata de una situación en la que una gran cantidad de datos se desorganizan, desestructuran y dificultan su uso eficaz. Es un estado en el que los datos pierden valor y se estancan o se vuelven inutilizables debido a la falta de una gestión y organización adecuadas.
Imagina que estás en una habitación llena de diversos objetos, como ropa, zapatos, libros, etc. La habitación está desorganizada, lo que hace que sea muy difícil encontrar lo que necesitas. En este ejemplo, la habitación desordenada representa un pantano de datos.
De manera similar, en el ámbito digital, un pantano de datos puede surgir cuando hay una cantidad abrumadora de datos desorganizados almacenados en varios sistemas, bases de datos o archivos.
Data Temperature
Ayuda a las organizaciones a gestionar sus estrategias de almacenamiento y recuperación de datos de forma más eficiente, garantizando que los datos críticos y de acceso frecuente estén disponibles rápidamente y optimizando los costos de los datos a los que se accede con menos frecuencia.
En el ámbito de los datos, la temperatura de los datos generalmente se clasifica en datos calientes, datos tibios y datos fríos. Los datos calientes se refieren a los datos que se utilizan activamente y a los que se accede con frecuencia (como los datos transaccionales en un sistema bancario), los datos tibios se refieren a los datos a los que se accede con menos frecuencia pero que siguen siendo relevantes para el análisis o la toma de decisiones (como los datos históricos de ventas para el análisis) y los datos fríos se refieren a los datos a los que se accede con poca frecuencia y se consideran menos críticos (como las copias de seguridad de datos).
Data Lineage
Es la capacidad de rastrear el origen y el movimiento de los datos a lo largo de su ciclo de vida. Esto le ayuda a comprender de dónde provienen los datos, cómo se transforman y a dónde van, lo que le permite rastrear y analizar el flujo de datos dentro de un sistema u organización.
En términos simples, el linaje de datos es como rastrear los pasos de sus datos, lo que le ayuda a comprender su recorrido de principio a fin y obtener información sobre cómo se usan y se transforman a lo largo del camino.
Imagina que pides un producto en línea. La plataforma de comercio electrónico procesa tu pedido, lo que implica varios pasos como la gestión de inventario, el procesamiento de pagos y el envío. El linaje de datos en este escenario implicaría rastrear el recorrido de los detalles de tu pedido desde el momento en que realizas el pedido hasta que llega a tu puerta.
Por ejemplo, el linaje de datos podría mostrar que los detalles de tu pedido se originaron en la base de datos de la tienda en línea, luego se trasladaron al sistema de pago y, posteriormente, al departamento de logística para el envío.
Data Migration
Es el proceso de transferir datos de un sistema, aplicación o ubicación de almacenamiento a otro. Implica mover datos desde su ubicación actual a un nuevo destino, asegurando su integridad, completitud y compatibilidad. En resumen, es como mover sus datos digitales de una ubicación a otra, de manera muy similar a mover elementos físicos de una casa a otra durante una mudanza.
Es como mudarse de una casa antigua a una nueva. Como parte de la mudanza, debe transferir todas sus pertenencias, incluidos muebles, electrodomésticos y artículos personales de su antigua casa a la nueva. La migración de datos es similar a este proceso, pero en lugar de objetos físicos, implica mover datos digitales.
Durante la migración, es importante considerar factores como la compatibilidad del formato de datos, la seguridad de los datos y la validación de los datos para garantizar una transferencia exitosa.
Data Model
Es la representación estructurada de los datos que define cómo se organizan, almacenan y relacionan entre sí. Describe la estructura lógica, las relaciones y las restricciones de los datos. Un modelo de datos se puede representar de diversas formas, como un diagrama, un esquema o un conjunto de reglas. Básicamente, es el plano para diseñar y crear un sistema de datos.
Una forma popular de representar un modelo de datos es mediante un diagrama de entidad-relación (diagrama ER), donde las entidades se representan como rectángulos y las relaciones se representan mediante líneas que las conectan entre sí.
Otra forma de representar el modelo es mediante un esquema, que básicamente define la estructura y la organización de una base de datos. Y, por último, un modelo de datos también se puede definir utilizando un conjunto de reglas que describen cómo se pueden organizar y relacionar los datos (como convenciones de nomenclatura, restricciones de integridad de datos y relaciones de datos).
Data Modeling
Es el proceso de creación del modelo de datos. Implica analizar los requisitos, comprender las fuentes de datos y diseñar la estructura y las relaciones de los datos.
El ‘modelado de datos’ puede considerarse como la actividad de traducir conceptos y entidades del mundo real en una representación formal de un modelo de datos.
Tienes una plataforma de comercio electrónico. Al crear un modelo de datos para dicha plataforma, el modelado de datos implicaría identificar y representar entidades, relaciones y atributos clave. Por ejemplo, un usuario representaría a una persona que se registra en la plataforma y puede tener atributos como ID, nombre, información de contacto y detalles del método de pago.
Data Maturity
Es una forma de evaluar en qué etapa se encuentra una organización en términos de cómo utiliza y administra los datos. Representa la capacidad de la organización para recopilar, almacenar, procesar y analizar datos de manera eficaz para obtener información valiosa y tomar decisiones.
Diriges una pequeña empresa que depende de los datos de los clientes para impulsar campañas de marketing. Inicialmente, recopilas información de los clientes en hojas de cálculo y tomas decisiones en función de datos demográficos básicos. En esta etapa, tu nivel de madurez es relativamente bajo. A medida que tu empresa crece, invierte en un sistema de gestión de relaciones con los clientes (CRM) que automatiza la recopilación de datos y proporciona capacidades analíticas más avanzadas.
Comienzas a utilizar estos datos para crear campañas de marketing personalizadas y realizar un seguimiento de su eficacia. En esta etapa, tu nivel de madurez aumentaría. Y más adelante, implementas prácticas de gestión de datos más sofisticadas, como políticas de gobernanza de datos, mediciones de calidad de datos e integración de datos en múltiples sistemas. Utilizas algoritmos de aprendizaje automático para predecir el comportamiento de los clientes y tienes un equipo de datos dedicado que monitorea y mejora continuamente los procesos de datos. En esta etapa, tu nivel de madurez es alto.
Data Pipeline
Se trata de una serie de procesos digitales que se utilizan para recopilar, modificar y entregar datos de un lugar a otro. Consiste en ingerir datos sin procesar de diversas fuentes, como aplicaciones, dispositivos y otros canales digitales, y trasladarlos a un repositorio de datos, como un Data Lake o un Data Warehouse, para su análisis.
Piensa que estás en una tienda en línea. Cuando realizas un pedido, el sitio necesita procesar su pedido, verificar el inventario, generar una etiqueta de envío y enviarle un correo electrónico de confirmación. Todos estos pasos son parte de un data pipeline porque el sitio toma su pedido, pasa por varias etapas y, finalmente, recibe su correo electrónico de confirmación.
Data Contract
Es un documento que define la estructura, el formato, la semántica, la calidad y los términos de uso para el intercambio de datos entre un proveedor de datos y sus consumidores. Ayuda a garantizar que los datos sean coherentes, confiables y comprensibles en diferentes sistemas.
Tu eres un chef que necesita otros ingredientes de un proveedor. En este caso, un contrato de datos sería una lista de compras detallada que especifica claramente el tipo de ingredientes, la cantidad necesaria, etc.
Ahora bien, en el campo de los datos, diferentes sistemas necesitan compartir o intercambiar datos. Para garantizar una comunicación fluida, un contrato ayuda a definir la estructura y las reglas para los datos que se comparten. Especifica aspectos como el formato de los datos (por ejemplo, CSV, JSON), los campos y sus tipos, cualquier regla de validación o restricción y el comportamiento esperado.
Data Entropy
Describe la cantidad de incertidumbre o desorden en un conjunto de datos. Cuanto mayor sea la entropía, mayor será la aleatoriedad y la falta de patrones en los datos.
Tienes una baraja de cartas que está perfectamente ordenada del as al rey en cada palo. En este caso, la entropía de los datos es baja porque el orden es predecible y no contiene mucha aleatoriedad. Ahora, consideremos una baraja de cartas barajada donde las cartas están en un orden aleatorio. En este caso, la entropía de los datos es alta porque el orden es impredecible y contiene más aleatoriedad.
Data Debt
Es la acumulación de problemas que surgen de prácticas inadecuadas de gestión de datos. Al igual que la deuda técnica, la deuda de datos es el resultado de descuidar el mantenimiento de los activos de datos, lo que lleva a inconsistencias, redundancias e imprecisiones en los datos.
Imagina que en tu empresa, las partes interesadas requieren una nueva característica o producto de datos. Los científicos de datos comienzan a explorar y se dan cuenta de que los datos no están disponibles, por lo que piden a los ingenieros de datos un nuevo flujo de datos. Sin embargo, los ingenieros de datos tienen varias solicitudes por lo que les llevará meses resolver este requisito.
Los científicos de datos se sienten presionados, por lo que deciden no esperar y acceder directamente a los sistemas y bases de datos de origen sin estándares de producción ni mejores prácticas y, en consecuencia, se acostumbran a este proceso porque les da mayor autonomía y terminan creando una gran cantidad de deuda de datos (y por lo tanto generan inconsistencias de datos, altos costos de mantenimiento o responsabilizar a las personas por los datos generados)
Data Silo
Los silos de datos son una colección de datos que está controlada por un departamento o unidad de negocios y aislada del resto de la organización. Normalmente, los datos terminan almacenándose en un sistema separado y, a menudo, son incompatibles con otros conjuntos de datos, lo que dificulta que los usuarios de otras partes de la organización accedan a ellos y los utilicen.
Imagina que tienes varias piezas de rompecabezas esparcidas en diferentes habitaciones de tu casa. Cada habitación representa un departamento diferente dentro de una empresa y las piezas del rompecabezas representan datos.
En el escenario del silo de datos, cada departamento tiene su propia pieza del rompecabezas que está separada de las demás. Las piezas de una habitación no son accesibles ni compartidas con otras habitaciones. Esto significa que cada departamento tiene su propio conjunto de datos que está aislado del resto de la organización.
Data Management
Es el proceso de recopilar, almacenar, organizar y utilizar datos de una manera segura, eficiente y rentable.
Tienes una gran colección de fotos familiares almacenadas en tu computadora. Para administrar mejor tu colección, crea carpetas y subcarpetas para categorizar las fotos según eventos (probablemente separa las carpetas por cumpleaños, vacaciones, etc.). Si deseas encontrar una foto en particular, es mucho más fácil navegar hasta la carpeta correspondiente en lugar de buscar las fotos una por una.
De manera similar, en la administración de datos, los datos deben organizarse, etiquetarse y almacenarse en sistemas apropiados. Esto lleva a definir estructuras de datos, establecer convenciones de nomenclatura de datos, determinar controles de acceso e implementar mecanismos de copia de seguridad y recuperación de datos.
Master Data Management
Es un proceso y un conjunto de prácticas destinadas a crear y gestionar un único ‘golden record’ de entidades de datos importantes dentro de una organización para garantizar la coherencia, la precisión y la fiabilidad. Un MDM proporciona una visión unificada de los datos en varios sistemas para satisfacer las necesidades de una empresa.
Formas parte de una empresa minorista que opera varias tiendas y una plataforma en línea. En esta empresa, tienes datos de clientes dispersos en diferentes sistemas y bases de datos (como registros de ventas, programas de fidelización y registros en línea). Sin una gestión de datos maestros adecuada, puedes terminar teniendo registros duplicados o inconsistencias en la entidad del cliente (por ejemplo, tiene a John Smith, y en el sistema de ventas tiene diferentes entradas, programa de fidelidad y sistema de registro en línea con diferentes variaciones en el nombre, información de contacto, etc.)
Entonces, la empresa decide abordar este problema mediante la creación de un MDM. Decide crear un repositorio central que actúe como la única fuente de verdad para los datos de los clientes. En este sistema de gestión de datos maestros, se consolidan, estandarizan y eliminan los duplicados de distintas fuentes. De esta manera, en lugar de tener múltiples versiones de los registros de ‘Juan Hernandez’, el MDM garantiza que solo exista un registro consolidado y preciso.
Data Democratization
Esto significa que todos en la organización pueden acceder, comprender y usar los datos para tomar decisiones. Para que los datos sean útiles, las organizaciones deben eliminar los silos de datos y garantizar que los distintos usuarios de los datos puedan colaborar y ya no tengan que depender de especialistas en datos o departamentos de TI.
Trabajas para una empresa de comercio electrónico que tiene un equipo de análisis centralizado responsable de generar informes y obtener información. Por lo tanto, departamentos como marketing, ventas y operaciones tenían que confiar en el equipo de análisis para solicitar e interpretar datos para sus procesos de toma de decisiones.
Sin embargo, la empresa decide implementar la democratización de los datos. Introducen herramientas de análisis de autoservicio y paneles de control que ofrecen interfaces fáciles de usar para que los usuarios accedan y analicen los datos. Ahora, los departamentos pueden navegar fácilmente por la plataforma de análisis, ejecutar consultas y generar informes por su cuenta sin la necesidad de involucrar al equipo de análisis en cada paso.
Data Catalog
Es un inventario organizado de activos de datos que utiliza metadatos para ayudar a una organización a administrar sus datos. Piense en él como un repositorio centralizado donde puede encontrar información relevante para sus necesidades de datos, ya que lo ayuda a comprender qué datos están disponibles, dónde se encuentran y cómo puede acceder a ellos.
Estás en una tienda minorista. Un catálogo de datos tendría información de varias fuentes de datos, como datos de ventas, datos de clientes, datos de inventario, etc. Esto tendría detalles como qué conjunto de datos tienen, cuándo se actualizó por última vez, quién lo administra y metadatos relevantes.
Un catálogo de datos abarca una gama más amplia de información sobre varios activos de datos en toda la organización, incluidos metadatos, linaje de datos, calidad de datos e información de acceso. El objetivo es proporcionar una vista integral del panorama de datos de la organización.
Data Dictionary
Se centra en proporcionar definiciones y descripciones de elementos de datos específicos dentro de una base de datos o conjunto de datos. Le ayuda a comprender el significado y el formato de los elementos de datos individuales.
Tienes una aplicación de gestión de contactos y desea almacenar información sobre tus amigos. Para cada amigo, deseas almacenar su nombre, número de teléfono y dirección de correo electrónico.
Un diccionario de datos te ayudaría a obtener una descripción general de los datos disponibles, te ayudaría a identificar recursos relevantes y te permitiría ver detalles técnicos como esquemas, formatos de datos, mantenedores, etc.
Data Ops
DataOps es una práctica que se enfoca en gestionar y optimizar el flujo de datos dentro de una organización. Es similar a cómo se gestionan otros procesos en una empresa, pero se enfoca específicamente en la gestión de datos. En resumen, DataOps es una metodología utilizada para gestionar y optimizar el flujo de datos dentro de una organización. Es similar a DevOps, pero se enfoca específicamente en la gestión de datos.
Imagina que eres el gerente de una tienda de ropa en línea. Tienes una gran cantidad de datos, como información de clientes, inventario, etc. Para asegurarte de que estos datos sean útiles y estén disponibles cuando los necesites, necesitas implementar Data Ops.
En este caso, Data Ops implicaría establecer procesos y herramientas para recopilar, almacenar y analizar los datos de manera eficiente. Por ejemplo, podrías utilizar un sistema automatizado que registre automáticamente los datos de los clientes cuando realizan una compra, los almacene en una base de datos segura y los organice para que puedas acceder a ellos fácilmente.
Data Orchestration
Implica la coordinación y gestión de diversas fuentes de datos, procesos y flujos de trabajo para garantizar una integración e interacción fluidas. Incluye actividades como el movimiento de datos, la transformación, la programación y el seguimiento para permitir operaciones basadas en datos.
Te encuentras en la gestión de la cadena de suministro de una empresa minorista. La orquestación de datos se puede utilizar para coordinar sin problemas los datos de inventario de los proveedores, los datos de ventas de las tiendas y los datos de envío para optimizar la cadena de suministro y garantizar operaciones eficientes. Al orquestar estas fuentes de datos y procesos, la empresa puede tomar decisiones informadas y optimizar su logística.
Data Governance
Son las políticas, reglas y prácticas que garantizan la calidad, integridad y seguridad de los datos. Incluyen la catalogación de los datos, la definición de estándares y el proceso en torno a cómo se utilizan los datos en una organización.
Piensa en el ejemplo típico en el que la gobernanza de datos se ejecuta de manera deficiente o definitivamente no existe. Un analista de negocios tiene una solicitud para crear un informe, pero no sabe qué datos utilizar para resolver la solicitud.
Probablemente le llevará horas y horas revisar docenas de tablas en una base de datos transaccional, adivinando qué campos podrían ser útiles. El analista crea un informe “correcto”, pero no está completamente seguro de que los datos del informe sean confiables.
El receptor del informe también cuestiona la validez de los datos (y no solo este informe, sino también los datos en los sistemas de la empresa). La empresa está confundida sobre su confiabilidad, lo que dificulta la planificación y la toma de decisiones al utilizar los datos.
La gobernanza de datos es fundamental para una empresa basada en datos. Cuando se practica una buena gobernanza de datos, las personas, los procesos y las tecnologías están alineados para considerar los datos como un factor clave para el negocio. Si surgen problemas con los datos, se abordan de manera oportuna. (Nota: Las categorías principales de la gobernanza de datos son la observabilidad, la seguridad y la rendición de cuentas. Dentro de estas categorías hay subcategorías, como la calidad de los datos, los metadatos y la privacidad).
Data Owner
El individuo o entidad que tiene la responsabilidad y el control final sobre activos de datos específicos. El propietario de los datos suele ser responsable de determinar quién tiene acceso a los datos, garantizar su precisión y seguridad, y definir su uso permitido.
Un ejemplo podría ser un hospital, donde el médico jefe o el administrador del hospital pueden ser designados como el propietario de los datos de los registros médicos de los pacientes. Serían responsables de supervisar quién puede acceder a los registros, mantener su confidencialidad y garantizar el cumplimiento de las normas de protección de datos.
Data Steward
Se trata de una persona responsable de gestionar y garantizar la calidad, la seguridad y el uso de los activos de datos de una organización. Por lo general, establece y aplica políticas y procedimientos de gestión de datos, supervisa la integración de datos y facilita el cumplimiento normativo.
Eres la persona a cargo de una institución financiera que supervisa la protección y privacidad de los datos de los clientes. Es responsable de garantizar que los datos de los clientes se gestionen de acuerdo con los requisitos legales, los estándares de la industria y las políticas internas, actuando así como un administrador de datos para los datos financieros confidenciales de la organización.
Data Guardian
Hace referencia a una función, política o tecnología específicamente designada para proteger la integridad, confidencialidad y disponibilidad de los datos. Esto podría incluir la gestión de permisos, la implementación de medidas de seguridad y el control del acceso a los datos.
Imagina que has dejado tu casa al cuidado de un vecino de confianza mientras estás de vacaciones. Este vecino vigila tu casa, riega tus plantas y se asegura de que no entren visitantes no deseados. En este escenario, tu casa y tus pertenencias son tus datos, y el vecino es el guardián de los datos que mantiene todo seguro y en orden hasta que regreses.
En un entorno de datos, un guardián de datos es crucial. Un guardián supervisaría los registros de los pacientes, los tipos de datos sensibles que requieren una protección rigurosa. El guardián se aseguraría de que los datos médicos estén encriptados, de que el acceso se registre y analice para detectar actividades no autorizadas, y de que los datos se compartan de forma segura con las partes autorizadas.
Data Security
Se refiere a la protección de los datos digitales contra el acceso no autorizado, la corrupción o el robo a lo largo de su ciclo de vida. Implica la implementación de medidas como el cifrado, los controles de acceso y la supervisión para salvaguardar la información confidencial y evitar infracciones o divulgaciones no autorizadas.
Una institución financiera cifra los datos financieros de los clientes e implementa controles de acceso estrictos para evitar que personas no autorizadas vean o modifiquen los datos. Esto ayuda a proteger la información financiera confidencial de los clientes de las amenazas cibernéticas y las posibles infracciones de datos.
Data Privacy
Se trata de respetar los derechos y preferencias de las personas en relación con el uso y el manejo de sus datos personales. Es el manejo responsable de la información personal de las personas, garantizando que sus datos estén protegidos contra el acceso, uso o divulgación no autorizados.
“No necesitas privacidad si no tienes nada que ocultar”. Esta es una mala manera de interpretar la privacidad porque crea la sensación de que las personas que exigen privacidad deben ser delincuentes. Todos sabemos lo que pasa cuando vas a bañarte pero aún así cierras la puerta. Un ejemplo de privacidad de datos es cuando un minorista en línea recopila información personal de los clientes para procesar pedidos, pero garantiza que estos datos se almacenan de forma segura y que se obtiene el consentimiento de los clientes para las comunicaciones de marketing.
Data Lifecycle
Se refiere a las etapas por las que pasa la información desde su creación o captura inicial hasta su eliminación o archivo final. Estas etapas suelen incluir la creación de datos, el almacenamiento, el uso, el intercambio, el archivo y la eliminación.
Es como el recorrido de un libro: desde que el autor lo escribe, pasando por su publicación, la lectura por parte de la gente, el almacenamiento en una biblioteca y, posiblemente, el desmantelamiento.
En el ámbito de los datos, un ejemplo del ciclo de vida de los datos sería la información de productos de una empresa minorista. Comienza con la creación de la información del producto, luego se almacena en una base de datos, se utiliza para las ventas en línea, se comparte con los proveedores, se archiva para el análisis histórico y, finalmente, se elimina cuando el producto ya no está disponible.
Data Engineering Lifecycle
El ciclo de ingeniería de datos implica la recopilación, el almacenamiento, el procesamiento, el análisis y el mantenimiento de la infraestructura. Se descubren las fuentes, se define el almacenamiento, se define la ingesta, se transforma y, finalmente, se pone a disposición la información.
Una empresa de comercio electrónico ingiere datos de múltiples fuentes, los transforma, los integra, realiza análisis y visualiza la información para tomar mejores decisiones. Es un proceso iterativo e implica un seguimiento y una mejora continuos.
Data Sources
Se refiere a la fuente o ubicación de la que se recopilan o extraen datos para su uso en análisis, informes o toma de decisiones.
Las fuentes de datos se pueden comparar con los diferentes ingredientes que se utilizan en la cocina, como frutas, verduras y especias, que se recopilan de varias ubicaciones para crear una receta.
En el mundo de los datos, un ejemplo de fuentes de datos es una empresa que recopila información de sistemas dispares, como transacciones de ventas de un sistema de punto de venta, datos de clientes de una plataforma CRM y datos de tráfico web de una herramienta de análisis, para el análisis y la elaboración de informes comerciales.
Data Storage
Es un lugar centralizado donde se recopilan y combinan datos de múltiples fuentes. Conlleva conservar los datos en un formato estructurado para acceder a ellos y utilizarlos en el futuro.
Es como encontrar un lugar para guardar tus libros en una librería para que luego puedas encontrarlos y usarlos cuando los necesites. En el mundo digital, este concepto implica el uso de sistemas o dispositivos para almacenar y recuperar información digital.
Data Ingestion
Es el proceso de recopilar, importar y transferir datos de varias fuentes a un sistema informático o de almacenamiento para su posterior procesamiento y análisis.
Es como recopilar y organizar ingredientes de diferentes proveedores y llevarlos a la cocina de un restaurante para preparar comidas.
Ahora bien, en materia de datos, un ejemplo sería una empresa minorista que recopila datos de ventas de varias tiendas y canales en línea y los incorpora a un almacén de datos centralizado para su análisis y elaboración de informes.
Data Integration
Se centra en combinar datos de distintas fuentes en una vista unificada y coherente. Su finalidad es establecer un modelo de datos común.
De la misma forma en que se juntan piezas de un rompecabezas de distintos lugares para completar el cuadro, la integración de datos unifica las fuentes. Un ejemplo sería una empresa que fusiona datos de clientes de un CRM, datos de ventas de un sistema ERP y datos de marketing de campañas digitales para crear una vista integral para el análisis y la toma de decisiones comerciales estratégicas.
Data Transformation
Se trata de convertir, reformatear y reestructurar datos para adaptarlos al análisis, almacenamiento o presentación.
Imagina que estás en un supermercado de un país diferente al de tu nacimiento y ves los precios en una moneda diferente, por lo que tienes que comparar precios y transformarlos a una moneda que te resulte más fácil de interpretar.
Data Serving
Es el proceso de hacer que los datos sean accesibles y estén disponibles para los usuarios o las aplicaciones de una manera eficiente.
Piensa que estás en un restaurante y haz pedido un plato. Los chefs de la cocina preparan la comida y, una vez que está lista, los camareros sirven el plato en tu mesa. En el contexto de los datos, piensa en los datos como la “comida” y en los usuarios o las aplicaciones como los “clientes”.
Staging Data
Es el proceso de almacenar y preparar temporalmente datos para cargarlos en un almacén de datos, lago de datos u otro repositorio de datos.
Es como preparar y organizar todas las herramientas, equipos y materiales necesarios antes de comenzar un proyecto en el hogar, como pintar una habitación o ensamblar muebles. Implica tener todo listo y organizado para facilitar la ejecución fluida del proyecto.
En datos, sería almacenar y estructurar datos sin procesar de varias fuentes en un área de preparación antes de integrarlos en una plataforma unificada de almacenamiento o análisis.
Data Warehouse
Es un repositorio centralizado optimizado para gestionar grandes cantidades de datos de diferentes fuentes. Su enfoque está en el análisis y la toma de decisiones.
Eres el gerente de varias tiendas. Tienes datos de ventas, datos de inventario, datos de clientes y otros datos relacionados con tu negocio. Se vuelve difícil obtener una visión integral de tu negocio y tomar decisiones informadas basadas en datos dispersos. Al crear un Data Warehouse, consolidas y optimizas la información para consultas, informes y análisis eficientes.
Data Mart
Es un subconjunto del Data Warehouse de una organización que está diseñado para servir a una línea de negocio o departamento específico.
Es como una sección especializada en una biblioteca que contiene libros, revistas y recursos enfocados en un tema o asunto específico, satisfaciendo las necesidades de un grupo particular de lectores.
Si ponemos el tema de datos en contexto, un ejemplo práctico de un Data Mart es un departamento de ventas que tiene su propio Data Mart dentro del Data Warehouse de la empresa, dedicado a almacenar y analizar datos relacionados con las ventas para los requisitos específicos de análisis e informes del departamento.
Data Lake
Es un repositorio que puede recopilar una gran cantidad de datos estructurados, semiestructurados y no estructurados que se almacenan hasta que se necesitan para su procesamiento o análisis.
Vas de viaje a una playa y tienes varias fotos de dónde estuviste. En lugar de organizar tus fotos, las envías a tu Data Lake donde estarán disponibles en su estado original. Cuando quieras clasificarlas, puedes elegir qué fotos y organizarlas según tus necesidades.
Data Lakehouse
Se trata de una arquitectura de gestión de datos moderna que combina los elementos de un lago de datos y un almacén de datos. Un lago de datos termina siendo un repositorio de datos sin procesar, mientras que un almacén de datos está altamente estructurado y se utiliza con fines analíticos. Un data lakehouse tiene como objetivo almacenar grandes cantidades de datos estructurados y no estructurados (como un lago de datos) y admite el tipo de consultas y análisis de datos eficientes que normalmente son posibles desde un almacén de datos.
Netflix tiene que lidiar con un volumen colosal de datos de varias fuentes, como datos de usuarios, preferencias, datos de transmisión, metadatos de contenido, etc. Tradicionalmente, podrían almacenar datos sin procesar en un lago de datos y luego procesar y mover las partes relevantes a un almacén de datos para su análisis.
Con un lakehouse, Netflix puede almacenar todo en un solo lugar, utilizando técnicas avanzadas en el mismo entorno para realizar análisis complejos, recomendar películas, comprender patrones de visualización y optimizar la calidad de la transmisión sin la necesidad de mover constantemente datos entre un lago y un almacén.
Data Platform
Es una infraestructura tecnológica que permite la recopilación, el almacenamiento, la gestión y el análisis de datos de diversas fuentes para respaldar las operaciones comerciales y la toma de decisiones.
Una plataforma de datos se asemeja a un panel de control central que reúne varias herramientas y sistemas, lo que permite a los usuarios acceder, administrar y analizar los datos de manera eficaz, como un único panel para múltiples funciones.
Una plataforma de datos agiliza el proceso de recopilación, gestión y almacenamiento de datos, haciéndolos accesibles y utilizables para una variedad de aplicaciones. Proporciona gestión de datos en toda la extensión del entorno, incluidas funciones críticas para el negocio, como la seguridad y la observabilidad.
Sin una plataforma de datos, cada componente suele ser manejado por una herramienta o conjunto de herramientas diferente para hacer que los datos fluyan desde la fuente hasta el usuario final en un entorno complejo.
Data Mesh
Se trata de un enfoque descentralizado de la arquitectura de datos que pone énfasis en la distribución de la propiedad, el acceso y la gobernanza de los datos en diferentes dominios o unidades de negocio dentro de una organización.
En términos simples, Data Mesh se asemeja a una red de bibliotecas locales autónomas, donde cada biblioteca administra y gobierna su colección de manera independiente, colaborando con otras para proporcionar una amplia gama de libros y recursos.
Un enfoque de Data Mesh es una organización en la que las unidades de negocio o departamentos individuales administran y gobiernan sus propios conjuntos de datos, mientras colaboran a través de estándares e interfaces compartidos para permitir la utilización y el análisis de datos multifuncionales.
Data Sharing
Es el proceso de poner los mismos recursos de datos a disposición de múltiples aplicaciones, usuarios u organizaciones. Conlleva tecnologías, prácticas, marcos legales y elementos culturales que facilitan el acceso seguro a los datos para múltiples entidades sin comprometer la integridad de los datos.
Data Sharing mejora la eficiencia dentro de una organización y fomenta la colaboración con proveedores y socios. Permite a las partes interesadas aprender unas de otras y colaborar en prioridades compartidas.
Data Sharing puede ir desde artículos de investigación o publicaciones académicas hasta estadísticas corporativas, datos científicos o revisiones anuales de desempeño.
Data Product
Es una aplicación o herramienta de software que utiliza datos para brindar información, servicios o funcionalidades valiosas a los usuarios u otros sistemas.
Es como una aplicación de un smartphone que utiliza datos de ubicación para ofrecer recomendaciones personalizadas de restaurantes cercanos, lo que ayuda a los usuarios a tomar decisiones informadas sobre dónde cenar.
Un producto de datos es un dashboard de business intelligence que integra y visualiza datos de ventas, marketing y finanzas para brindar información útil a los tomadores de decisiones dentro de una organización.
Data Quality
Abarca dimensiones como la precisión, la integridad, la coherencia, la fiabilidad y la puntualidad. Implica procesos y tecnologías que miden, gestionan y mejoran la salud de los datos. Mantener la calidad de los datos requiere vigilancia en las prácticas de gestión de datos y un seguimiento constante para detectar y corregir problemas.
Piensa como si estuvieras haciendo un viaje por carretera utilizando un mapa. Si el mapa está actualizado, es preciso y detallado, es probable que el viaje sea tranquilo, pero si está desactualizado, puede perderse o retrasarse. Los datos de alta calidad son como un mapa preciso y actualizado para una empresa, que conduce a mejores decisiones y operaciones más eficientes.
Data Gathering
It’s the process of collecting, compiling, and capturing information from various sources. Collection is essential to acquire the raw material needed for analysis, interpretation, and decision making.
As simple as conducting a survey to gather information about customer preferences for a new product is an example of data collection. When someone conducts a survey, they can analyze responses to gain insight into customer needs and preferences.
Data Engineer
Es el encargado de construir y mantener sistemas que recogen, almacenan y procesan grandes cantidades de datos.
Es como si estuvieras construyendo y manteniendo las carreteras para transportar cosas. Por ejemplo, si trabajas en Amazon o Mercado Libre, tienes que encargarte de entregar los paquetes a sus respectivos destinos y que estén bien embalados. Un ingeniero de datos se encarga de que los datos lleguen a su destino de manera eficiente.
Data Analyst
Se encargan de explorar y encontrar patrones para obtener conocimiento del dominio en cuestión. Utilizan estadísticas y herramientas necesarias para comprender el pasado y el presente.
Si fueras un detective, analizar datos te ayudaría a convertir las pistas en una historia lógica. Tomas números y hechos, y los transformas en información para comprender lo que sucedió y lo que está sucediendo.
Data Scientist
Es similar al analista de datos, pero la diferencia es que los científicos de datos utilizan técnicas estadísticas sólidas y aprendizaje automático para predecir el futuro. (Los analistas son el pasado y el presente, los científicos son el futuro).
Si quieres predecir el clima, primero tienes que entender por qué algunas regiones reciben más lluvia que otras, luego recopilar datos sobre temperatura, patrones, etc. Y luego usar herramientas para analizar y predecir cuándo lloverá, o usar herramientas de toma de decisiones para ver si es seguro viajar.
Data Architect
Es responsable de diseñar, estructurar, evaluar y organizar los activos de datos físicos y lógicos de una organización, y de los recursos de gestión de datos.
Si quieres construir una casa, necesitas un plano para ver dónde irían las puertas, la cocina, las habitaciones, etc. De manera similar, un arquitecto de datos establece cómo se almacenan y conectan los datos.