Macstab GmbH

El Problema Real

Cuando miramos por primera vez esta plataforma de servicios financieros, tenía ese olor familiar. Un monolito sirviendo 50,000 usuarios diarios, deployments que requerían ventanas de mantenimiento nocturnas, y un código donde tocar el módulo A de alguna manera rompía el módulo Z.

El negocio quería costos de infraestructura más bajos, más flexibilidad de desarrollo, time-to-market más rápido, y la capacidad de escalar features individuales independientemente. Clásico - pero el diablo está en los detalles.

Microservicios: Hype vs Realidad

Seamos honestos - los microservicios resuelven problemas específicos, no todos los problemas. Esto es lo que realmente impulsó nuestra decisión:

Independencia de deployment - enviar el módulo de pagos sin tocar auth de usuarios
Contención del radio de explosión - cuando (no si) las cosas se rompen, se rompen pequeñas
Persistencia políglota - usar Postgres para transacciones, Redis para sesiones, MongoDB para documentos
Ownership del equipo - límites claros significan responsabilidad clara
Escalado dirigido - escalar el servicio de búsqueda durante picos, no toda la app

Deep Dive de Arquitectura

Construimos sobre Domain-Driven Design, pero no la versión académica. Los bounded contexts emergieron de conversaciones reales del equipo, no de ejercicios de pizarra. Nuestros principios:

Los límites de agregados definen límites de servicios - si es una transacción, es un servicio
Eventos sobre llamadas síncronas - la coreografía vence a la orquestación en la mayoría de casos
Contratos de API como ciudadanos de primera clase - rompe el contrato, rompe el build
Arquitectura shared-nothing - cada servicio posee sus datos, punto
Observabilidad no es opcional - si no puedes tracearlo, no lo envíes

El Stack (Y Por Qué)

Cada elección de herramienta fue un tradeoff. Aquí está en lo que aterrizamos:

text

Infrastructure:
├── Kubernetes (EKS) → Deployments declarativos, self-healing
├── Istio service mesh → mTLS, traffic shaping, circuit breaking
├── Kong API Gateway → Rate limiting, auth, transformación de requests
│
Messaging:
├── Kafka → Event backbone, retención de 7 días
├── Redis Streams → Pub/sub ligero, datos efímeros
│
Data Layer:
├── PostgreSQL → Transacciones ACID, JSONB para flexibilidad
├── MongoDB → Document store para audit logs, activity feeds
├── Redis Cluster → Session store, caching distribuido
├── Elasticsearch → Búsqueda full-text, agregación de logs
│
Observability:
├── OpenTelemetry → Instrumentación agnóstica de vendor
├── Prometheus + Thanos → Métricas con almacenamiento a largo plazo
├── Grafana → Dashboards, alerting
├── Jaeger → Distributed tracing
│
CI/CD:
├── GitLab CI → Build, test, security scanning
├── ArgoCD → GitOps deployments
├── Sealed Secrets → Gestión de secrets nativa de K8s

Patrones Que Nos Salvaron

La teoría está bien. Aquí está lo que realmente nos mantuvo fuera de problemas:

**Transactional Outbox** - En lugar de dual-writes (base de datos + message broker), escribimos eventos a una tabla outbox en la misma transacción. Un proceso separado los publica. Atómico. Confiable. Sin pesadillas de transacciones distribuidas.

**Event Sourcing (donde importa)** - Para flujos de pago y caminos críticos de auditoría, almacenamos eventos, no estado. Cada mutación es un evento inmutable. Debuggear issues de producción reproduciendo secuencias exactas. Los equipos de compliance lo aman.

**CQRS con Proyecciones** - Modelos de escritura optimizados para validación, modelos de lectura optimizados para queries. Eventual consistency está bien para vistas de lectura. El equipo de reporting obtiene sus tablas desnormalizadas sin contaminar el write path.

**Saga Orchestration** - Procesos de negocio de larga duración (onboarding, settlement de pagos) como máquinas de estado explícitas. Transacciones compensatorias en fallos. Sin estados parciales huérfanos.

**Circuit Breaker + Bulkhead** - Hystrix está muerto, pero los patrones no. Resilience4j maneja circuit breaking, rate limiting y retry con backoff. Thread pools separados para integraciones externas.

El Flujo de Pagos: Arquitectura Real

Así es como el dinero real se mueve por el sistema:

text

┌─────────────┐      ┌─────────────┐      ┌─────────────┐
│ API Gateway │──────│  Payment    │──────│   Fraud     │
│   (Kong)    │ gRPC │  Service    │ Event│  Detection  │
└─────────────┘      └──────┬──────┘      └──────┬──────┘
                            │                    │
                     PaymentInitiated      FraudCheckCompleted
                            │                    │
                            ▼                    ▼
                     ┌─────────────┐      ┌─────────────┐
                     │   Outbox    │      │    Risk     │
                     │   Table     │      │   Scoring   │
                     └──────┬──────┘      └──────┬──────┘
                            │                    │
                     Debezium CDC           RiskAssessed
                            │                    │
                            ▼                    ▼
                     ┌─────────────────────────────────┐
                     │         Kafka Topics            │
                     │  payments.initiated             │
                     │  fraud.checked                  │
                     │  risk.assessed                  │
                     │  payments.completed             │
                     └─────────────────────────────────┘
                                    │
            ┌───────────────────────┼───────────────────────┐
            ▼                       ▼                       ▼
     ┌─────────────┐         ┌─────────────┐         ┌─────────────┐
     │   Ledger    │         │   Order     │         │Notification │
     │   Service   │         │   Service   │         │   Service   │
     └─────────────┘         └─────────────┘         └─────────────┘

Estrategia de Testing Que Realmente Funciona

Olvida la pirámide de testing por un momento. En sistemas distribuidos necesitas:

Contract tests (Pact) - Los servicios hablan con stubs, no dependencias reales. Los contratos se rompen en CI, no en producción
Consumer-driven contracts - Los consumidores definen lo que necesitan, los proveedores prueban que lo entregan
Chaos testing (Chaos Monkey, Litmus) - Matar pods aleatoriamente. Inyectar latencia. Probar resiliencia
Synthetic monitoring - Sondas continuas de producción para journeys críticos de usuario
Load testing como validación - Validamos que la arquitectura podía manejar 80x el tráfico original a través de rigurosos load tests antes del lanzamiento
Canary deployments - 1% de tráfico a nuevas versiones, rollback automático en pico de errores

Lo Que Realmente Pasó

Al inicio, nos enfocamos en descomponer el monolito - identificando costuras, estrangulando el sistema viejo servicio por servicio. Al principio, fue difícil. Las habilidades de debugging distribuido faltaban, los traces estaban incompletos, y las particiones de red exponían bugs de consistencia.

Después de algunos meses, las cosas encajaron. Los equipos poseían sus servicios end-to-end. Los deployments se convirtieron en no-eventos. El equipo de platform engineering había construido suficientes golden paths para que levantar un nuevo servicio tomara horas, no semanas.

Cuando el tiempo pasó y la arquitectura maduró, los resultados hablaron por sí mismos:

Tiempos de respuesta cayeron de 850ms p99 a menos de 120ms p99
Zero-downtime deployments - las ventanas de mantenimiento se volvieron un recuerdo
Costos de infraestructura bajaron 35% a pesar de mayor tráfico
Frecuencia de deployment: de mensual a 50+ deploys diarios
Tiempo medio de recuperación: menos de 5 minutos para la mayoría de incidentes

Las Lecciones Duras

No todo fue suave. Esto es lo que dolió:

**Eventual consistency es una feature, no un bug** - Pero explícaselo al PM preguntándose por qué el dashboard muestra datos obsoletos. Diseña para ello. Comunícalo.

**Distributed tracing o muerte** - Sin correlation IDs y propagación apropiada de trace context, debuggear es arqueología. La auto-instrumentación de OpenTelemetry es tu amigo.

**La evolución de schema es difícil** - Avro con schema registry. Solo cambios backwards-compatible. Los breaking changes requieren un nuevo topic.

**Kubernetes es un sistema operativo** - No pelees contra él. Apréndelo. Resource limits, liveness probes, pod disruption budgets - existen por razones.

**El equipo de plataforma no es negociable** - Alguien tiene que poseer las abstracciones de infraestructura. De lo contrario, cada equipo reinventa la rueda.

Cuándo NO usar Microservicios

Hablando claro - los microservicios son caros. Considera alternativas si:

Tu equipo es pequeño - el overhead de coordinación matará la velocidad
Los límites del dominio no están claros - los dibujarás mal y sufrirás dolor de migración
No tienes capacidad de platform engineering - la complejidad de infraestructura explota
Los requisitos de latencia son extremos - los saltos de red se suman
Tu monolito solo necesita mejor modularización - prueba primero un monolito modular

Conclusiones

Al final de este viaje, teníamos una plataforma que deployaba continuamente, escalaba bajo demanda, y daba a los equipos ownership real. El negocio obtuvo lo que pidió: costos más bajos, delivery más rápido, y la flexibilidad para evolucionar.

¿Valió la pena? Para esta escala y estos requisitos, absolutamente. Pero empezamos con un monolito modular y solo extrajimos servicios cuando el dolor era real.

¿Pensando en este tipo de transformación? Empieza con el problema, no la solución.

Key Takeaways

La arquitectura de microservicios no se trata de seguir tendencias - se trata de resolver desafíos específicos de escalado y organización. Los patrones que hemos cubierto (transactional outbox, event sourcing, CQRS, saga orchestration) no son ejercicios teóricos; son soluciones probadas en batalla para problemas reales de sistemas distribuidos.

Validamos que la arquitectura podía sostener 80x el tráfico original a través de load testing comprehensivo. Los deployments pasaron de eventos mensuales a no-eventos que ocurren docenas de veces al día. Esa es la recompensa cuando haces bien los fundamentos.

¿Tienes desafíos de arquitectura con los que estás luchando? Hablemos de patrones.

Construyendo Microservicios Escalables: Patrones Reales desde las Trincheras

El Problema Real

Microservicios: Hype vs Realidad

Deep Dive de Arquitectura

El Stack (Y Por Qué)

Patrones Que Nos Salvaron

El Flujo de Pagos: Arquitectura Real

Estrategia de Testing Que Realmente Funciona

Lo Que Realmente Pasó

Las Lecciones Duras

Cuándo NO usar Microservicios

Conclusiones

Key Takeaways

Engineering Team

Construyendo Microservicios Escalables: Patrones Reales desde las Trincheras

El Problema Real

Microservicios: Hype vs Realidad

Deep Dive de Arquitectura

El Stack (Y Por Qué)

Patrones Que Nos Salvaron

El Flujo de Pagos: Arquitectura Real

Estrategia de Testing Que Realmente Funciona

Lo Que Realmente Pasó

Las Lecciones Duras

Cuándo NO usar Microservicios

Conclusiones

Key Takeaways

Engineering Team

Preferencias de Cookies

Necesarias

Analíticas

Funcionales