16 El combustible invisible: por qué los datos son el motor de los sistemas modernos

Palabras clave: datos, sistemas modernos, inteligencia artificial, toma de decisiones, arquitectura de datos.

16.1 Introducción

A inicios de 2026, la cantidad de datos generados por la humanidad había superado todas las estimaciones realizadas una década antes. IDC estima que el mundo alcanzará los 175 zettabytes de información a mediados de siglo, cifra que seguirá creciendo con la proliferación de dispositivos, plataformas digitales y sistemas de inteligencia artificial generativa. Los sistemas, en los distintos sectores, dependen del flujo constante de datos para funcionar, adaptarse y mejorar.

Este artículo estudia por qué los datos se han convertido en el recurso central de los sistemas modernos, cómo se procesan y las consecuencias de su gestión adecuada e inadecuada. Este análisis se realiza desde una perspectiva de la ingeniería de sistemas, reconociendo que el diseño de una arquitectura basada en datos no es opcional, sino una prioridad fundamental y un principio básico para los ingenieros del siglo XXI.

16.2 Desarrollo

¿Qué significa que un sistema sea impulsado por datos?

Un sistema impulsado por datos (data-driven system) es aquel cuyo comportamiento, decisiones y predicciones dependen directamente de la información que recibe y procesa. A diferencia de los sistemas basados en reglas fijas programadas por ingenieros, los sistemas modernos aprenden y se ajustan con base en patrones extraídos de grandes volúmenes de datos. Esto abarca desde motores de recomendación como los de Netflix o Spotify hasta sistemas de detección de fraudes en entidades bancarias guatemaltecas, donde el análisis de transacciones en tiempo real determina si una operación es aprobada o bloqueada.

Este cambio de perspectiva demuestra que la calidad de los datos es tan importante como la calidad del código. Los datos inexactos, duplicados o incompletos pueden dar lugar a decisiones erróneas, pérdidas financieras o interrupciones operativas. Asimismo, campos como la gobernanza de datos, la ingeniería de datos y el control de calidad de la información están cobrando cada vez más importancia dentro de los equipos que intervienen en la toma de decisiones.

La arquitectura que sostiene los datos modernos

Para que los datos sean útiles, deben pasar por una arquitectura diseñada para recopilarlos, almacenarlos, transformarlos y publicarlos de manera confiable. Las arquitecturas modernas de datos incluyen componentes como los data lakes, los data warehouses y los pipelines de procesamiento en tiempo real. Herramientas como Apache Kafka permiten manejar millones de eventos por segundo. Su adopción no se limita a las grandes corporaciones; organizaciones medianas e instituciones públicas en países como Guatemala han incorporado progresivamente estas tecnologías en sus operaciones.

Tecnología	Función principal	Ejemplo de uso
Data Lake	Almacenamiento masivo de datos en crudo	Repositorios de logs e imágenes
Data Warehouse	Almacenamiento estructurado para análisis	Reportes financieros y BI corporativo
Apache Kafka	Streaming de eventos en tiempo real	Detección de fraude bancario en tiempo real
Apache Spark	Procesamiento distribuido de grandes volúmenes	Transformación de datos a escala en pipelines ETL
Data Mesh	Gestión descentralizada por dominio	Equipos de dominio que publican sus propios datos

Tabla 1. Tecnologías clave en arquitecturas modernas de datos. Fuente: Elaboración propia.

El concepto de data mesh ha nacido en la actualidad como alternativa a los modelos centralizados. En lugar de recopilar todos los datos en un único lugar de almacenamiento gestionado por equipos especializados, el data mesh propone que cada ámbito empresarial gestione sus propios datos como un producto. El objetivo de este enfoque descentralizado es aumentar las capacidades analíticas sin crear pasos adicionales que ralenticen el proceso.

El dato como insumo para la inteligencia artificial

La inteligencia artificial no puede existir sin datos. Los modelos de machine learning son en esencia funciones matemáticas ajustadas a partir de datos pasados. Cuanto mayor sea la calidad de los datos de entrenamiento, mejor será la salida y/o resultados del o los modelos entrenados. Este principio, conocido como “garbage in, garbage out”, es una forma contundente de expresar la dependencia que existe entre la IA y la calidad de los datos que la alimentan.

16.3 Conclusiones

Los datos ya no son un subproducto de los sistemas, sino que se han convertido en su materia prima principal. La capacidad de los sistemas modernos para aprender, adaptarse y crear valor depende de la disponibilidad, la calidad y la gestión de la información. Esto representa un cambio de perspectiva: ya no basta con crear software que funcione, sino que el diseño debe reconocer que los datos son tan importantes como el código. En el mercado actual se demandan habilidades en materia de gobernanza de datos, arquitectura de canalizaciones y preparación de información para modelos de inteligencia artificial, y las instituciones académicas deberían integrar estas habilidades de forma más completa en sus programas.

16.4 Bibliografía

Reinsel, David, John Gantz, and John Rydning. “The Digitization of the World: From Edge to Core.” IDC White Paper, November 2018. https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf.
Provost, Foster, and Tom Fawcett. Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. Sebastopol, CA: O’Reilly Media, 2013.
Apache Software Foundation. “Apache Kafka: A Distributed Streaming Platform.” https://kafka.apache.org/documentation.
Dehghani, Zhamak. Data Mesh: Delivering Data-Driven Value at Scale. Sebastopol, CA: O’Reilly Media, 2022.