Análisis y datos

Airflow vs Step Functions: cómo orquestar tus data pipelines

5 min read

16 de mayo de 2024

Orquestación de Data Pipelines: Airflow vs Step Functions

9:19

Imaginemos que vamos a construir un edificio. En este caso, ubicar un montón de materiales sobre el área de construcción no sería suficiente para tener una estructura funcional. En los proyectos de ciencia de datos ocurre algo parecido. La información en bruto es nuestro material de construcción, pero antes de ser realmente útil, debe ser organizada y procesada. Aquí es donde entran en juego los data pipelines, también conocidas como canalizaciones de datos.

Un data pipeline es un sistema automatizado que toma datos brutos de diversas fuentes, los transforma y los envía al lugar designado para su análisis. En otros artículos ya hemos hablado sobre cómo, para cada organización, existen distintos tipos de arquitecturas de datos. En este artículo explicaremos el concepto de data pipeline, conoceremos en qué consiste la orquestación de pipelines y exploraremos las ventajas y desventajas de herramientas de orquestación como AirFlow y Step Functions.

Esta es la tabla de contenidos con los temas que vas a encontrar a continuación:

¿Para qué sirven las data pipelines o canalizaciones de datos?
¿Qué es la orquestación de data pipelines y cuáles son sus componentes?
Step Fuctions y Airflow: ¿cuál debería elegir para orquestar mis pipelines?

¿Para qué sirven las data pipelines o canalizaciones de datos?

En un proyecto de datos la información puede venir de distintas fuentes, como APIs, bases de datos e incluso de archivos planos. Sin embargo, estos datos rara vez están listos para su uso inmediato.

Las data pipelines sirven para preparar cantidades masivas de datos con el fin de satisfacer distintas necesidades de una empresa, como por ejemplo la visualización de datos, la exploración, el análisis e incluso la implementación de soluciones basadas en aprendizaje automático.

A través de diferentes procesos, las pipelines filtran los datos, corrigen errores y garantizan la coherencia y calidad de la información. Con esto, se logra que los datos estén estandarizados, lo que facilita la integración con servicios en la nube, distintas bases de datos y APIs propias y de terceros.

También vale la pena mencionar que, gracias a la canalización de datos también podemos tener un registro que nos permita comprender de dónde vienen, cómo se han transformado y en qué parte del sistema se almacenan actualmente.

Tener pipelines bien diseñados es crucial para el éxito de los proyectos basados en datos. Garantizan que los datos estén limpios, organizados y fácilmente disponibles para el análisis, pero también enfrentan retos importantes que deben enfrentarse a través de la orquestación.

¿Qué es la orquestación de data pipelines y cuáles son sus componentes?

A primera vista, un pipeline de datos puede parecer una estructura sencilla donde se procesa información a través de varias etapas. Sin embargo, la historia es mucho más compleja. Los pipelines de datos afrontan retos de sincronización, distribución de la carga de trabajo y asignación de recursos. Para superar estos retos, todas los procesos del pipeline tienen que funcionar en armonía y para lograr esto se emplea la orquestación de pipelines.

Veámos un ejemplo. Si los volúmenes de datos fluctúan, a través de una buena orquestación podremos ajustar automáticamente los recursos que empleamos para procesar los datos, de esta manera garantizamos la eficiencia independientemente de la carga.

Estas son las partes esenciales de una orquestación de pipelines:

Definición del flujo de trabajo: Este modelo especifica la lógica de la canalización, incluida la secuencia de tareas, sus dependencias y cuándo se ejecutan.
Programación de tareas: Determina cuándo, con qué datos y con qué recursos se ejecuta cada tarea. Los desencadenantes pueden basarse en el tiempo (programación) o en eventos (finalización de una tarea anterior).
Gestión de dependencias: Garantiza que las tareas se ejecuten en el orden correcto en función de sus dependencias. Una tarea sólo se inicia después de que sus dependencias anteriores hayan finalizado con éxito.
Gestión de recursos: La orquestación asigna y optimiza recursos como CPU, memoria y almacenamiento para cada tarea. También aprovecha los recursos "calientes" y agrupa eficazmente las tareas para minimizar los residuos.
Gestión y recuperación de errores: Una orquestación robusta puede gestionar fallos de tareas debidos a diversas razones. Puede implementar reintentos, retrocesos o alertas y garantizar que el sistema se recupere de situaciones inesperadas.
Supervisión y registro: La supervisión continua y el registro detallado del rendimiento de cada tarea son cruciales para mantener la visibilidad. Esto ayuda a depurar, ajustar el rendimiento y garantizar el cumplimiento.

La orquestación de datos proporciona un marco sólido para automatizar y administrar pipelines de datos, pero para obtener todos sus beneficios es importante elegir una herramienta de orquestación que se adapte a las necesidades de cada proyecto. A continuación veremos las ventajas y desventajas de algunas de ellas.

Step Fuctions y AirFlow: ¿cuál debería elegir para orquestar mis pipelines?

Entre las herramientas más utilizadas en la orquestación de pipelines se encuentran Airflow y AWS Step Functions. Cada herramienta ofrece capacidades únicas y satisface necesidades específicas, por lo que es esencial elegir la adecuada para los requisitos de su proyecto.

Airflow: Automatización de flujos de trabajo complejos

Airflow es una herramienta de código abierto para orquestar pipelines de datos. Permite automatizar flujos de trabajo complejos que implican tareas de procesamiento, transformación y carga de datos.
Airflow utiliza grafos acíclicos dirigidos (DAG) que representan una serie de tareas conectadas con dependencias bien definidas. Cada tarea puede ser una función Python, un script bash o cualquier programa ejecutable. Airflow programa y ejecuta estas tareas basándose en las dependencias definidas.
Airflow es recomendado para tareas que necesitan ser programadas en un horario determinado o a una determinada frecuencia. Airflow por ejemplo no es el caso ideal si se necesita que el flujo responda a un evento o asincrónico. Cosa que si hace step functions.

Ventajas y desventajas de usar Airflow

Aunque Airflow es potente, configurarlo y mantenerlo en un entorno de producción puede resultar complicado. La gestión de múltiples componentes, como los agentes de mensajes Celery o los clústeres Kubernetes, añade complejidad. Existen soluciones de pago para hacer frente a estos retos, pero conllevan costes adicionales.
Airflow puede manejar workflows con cientos de tareas concurrentes. En un escenario donde crece la demanda, Airflow ofrece opciones de escalamiento horizontal (añadiendo más máquinas) y escalamiento vertical (aumentando los recursos de una sola máquina).
La API REST de Airflow permite la activación programada de flujos de trabajo, la automatización de la gestión de usuarios y la integración con aplicaciones externas, lo que aumenta aún más su flexibilidad.
Airflow cuenta con conectores preconfigurados que simplifican la integración con diversas fuentes de datos y servicios externos, como bases de datos, plataformas en la nube y sistemas de mensajería. Además, permite desarrollar conectores personalizados para necesidades específicas.

AWS Step Functions: Orquestación sin servidor en la nube

AWS Step Functions es un servicio de orquestación sin servidor que permite coordinar flujos de trabajo de aplicaciones modernas. Esto incluye funciones de AWS Lambda, contenedores de Docker, microservicios o incluso aplicaciones SaaS.

En general, AWS Step Functions es una herramienta poderosa y flexible para orquestar pipelines de datos. Es una buena opción para empresas que utilizan AWS y que necesitan una forma de coordinar flujos de trabajo complejos de manera confiable y escalable.

Ventajas y desventajas de usar AWS Step Functions

Step Functions se integra perfectamente con otros servicios de AWS, como Lambda, S3, DynamoDB y EventBridge. Sin embargo, también es importante tener en cuenta que esta herramienta no va a ser la mejor opción si el proyecto requiere orquestar flujos de trabajo que se ejecutan en otras plataformas.
Puede escalar automáticamente para manejar cualquier carga de trabajo y es tolerante a errores para garantizar la disponibilidad continua de su aplicación.
En el área regulatoria, Step Functions cumple con los requisitos de HIPAA y SOC, y admite políticas de IAM para controlar el acceso a sus flujos de trabajo.
Solo paga por las transiciones de estado que utiliza, lo que significa que solo paga por lo que usa.

La selección de la herramienta de orquestación adecuada es crucial para el éxito de tus proyectos de datos. La complejidad de los pipelines, las habilidades técnicas del equipo y el presupuesto deben tenerse en cuenta para tomar una decisión informada.

Comparte

Artículo Anterior

← Devops Guru: usa machine learning para monitoreo de activos digitales

Artículo Siguiente

Cómo ganar en el Open Banking: insights para la banca en Centroamérica →

Suscríbete al
Blog Pragma

Recibirás cada mes nuestra selección de contenido en Transformación digital.