Macstab GmbH

Il Problema Reale

Quando abbiamo guardato per la prima volta questa piattaforma di servizi finanziari, aveva quell'odore familiare. Un monolite che serviva 50.000 utenti giornalieri, deployment che richiedevano finestre di manutenzione notturne, e un codebase dove toccare il modulo A in qualche modo rompeva il modulo Z.

Il business voleva costi di infrastruttura più bassi, più flessibilità di sviluppo, time-to-market più veloce, e la capacità di scalare feature individuali indipendentemente. Classico - ma il diavolo sta nei dettagli.

Microservizi: Hype vs Realtà

Siamo onesti - i microservizi risolvono problemi specifici, non tutti i problemi. Ecco cosa ha davvero guidato la nostra decisione:

Indipendenza di deployment - rilasciare il modulo pagamenti senza toccare l'auth utente
Contenimento del blast radius - quando (non se) le cose si rompono, si rompono in piccolo
Persistenza poliglotta - usare Postgres per transazioni, Redis per sessioni, MongoDB per documenti
Ownership del team - confini chiari significano responsabilità chiara
Scaling mirato - scalare il servizio di ricerca durante i picchi, non tutta l'app

Deep Dive Architetturale

Abbiamo costruito sul Domain-Driven Design, ma non la versione accademica. I bounded context sono emersi da vere conversazioni di team, non da esercizi alla lavagna. I nostri principi:

I confini degli aggregati definiscono i confini dei servizi - se è una transazione, è un servizio
Eventi invece di chiamate sincrone - la coreografia batte l'orchestrazione nella maggior parte dei casi
Contratti API come cittadini di prima classe - rompi il contratto, rompi il build
Architettura shared-nothing - ogni servizio possiede i suoi dati, punto
L'osservabilità non è opzionale - se non puoi tracciarlo, non rilasciarlo

Lo Stack (E Perché)

Ogni scelta di tool era un tradeoff. Ecco dove siamo atterrati:

text

Infrastructure:
├── Kubernetes (EKS) → Deployment dichiarativi, self-healing
├── Istio service mesh → mTLS, traffic shaping, circuit breaking
├── Kong API Gateway → Rate limiting, auth, trasformazione richieste
│
Messaging:
├── Kafka → Event backbone, retention 7 giorni
├── Redis Streams → Pub/sub leggero, dati effimeri
│
Data Layer:
├── PostgreSQL → Transazioni ACID, JSONB per flessibilità
├── MongoDB → Document store per audit log, activity feed
├── Redis Cluster → Session store, caching distribuito
├── Elasticsearch → Ricerca full-text, aggregazione log
│
Observability:
├── OpenTelemetry → Instrumentazione vendor-agnostica
├── Prometheus + Thanos → Metriche con storage a lungo termine
├── Grafana → Dashboard, alerting
├── Jaeger → Distributed tracing
│
CI/CD:
├── GitLab CI → Build, test, security scanning
├── ArgoCD → GitOps deployment
├── Sealed Secrets → Gestione secret nativa K8s

Pattern Che Ci Hanno Salvato

La teoria va bene. Ecco cosa ci ha davvero tenuto fuori dai guai:

**Transactional Outbox** - Invece di dual-write (database + message broker), scriviamo gli eventi in una tabella outbox nella stessa transazione. Un processo separato li pubblica. Atomico. Affidabile. Niente incubi di transazioni distribuite.

**Event Sourcing (dove conta)** - Per i flussi di pagamento e i percorsi critici di audit, memorizziamo eventi, non stato. Ogni mutazione è un evento immutabile. Debuggare problemi di produzione riproducendo sequenze esatte. I team compliance lo adorano.

**CQRS con Proiezioni** - Modelli di scrittura ottimizzati per validazione, modelli di lettura ottimizzati per query. L'eventual consistency va bene per le viste di lettura. Il team reporting ottiene le sue tabelle denormalizzate senza inquinare il write path.

**Saga Orchestration** - Processi business di lunga durata (onboarding, settlement pagamenti) come macchine a stati esplicite. Transazioni compensative in caso di fallimento. Niente stati parziali orfani.

**Circuit Breaker + Bulkhead** - Hystrix è morto, ma i pattern no. Resilience4j gestisce circuit breaking, rate limiting e retry con backoff. Thread pool separati per integrazioni esterne.

Il Flusso di Pagamento: Architettura Reale

Ecco come il denaro reale si muove attraverso il sistema:

text

┌─────────────┐      ┌─────────────┐      ┌─────────────┐
│ API Gateway │──────│  Payment    │──────│   Fraud     │
│   (Kong)    │ gRPC │  Service    │ Event│  Detection  │
└─────────────┘      └──────┬──────┘      └──────┬──────┘
                            │                    │
                     PaymentInitiated      FraudCheckCompleted
                            │                    │
                            ▼                    ▼
                     ┌─────────────┐      ┌─────────────┐
                     │   Outbox    │      │    Risk     │
                     │   Table     │      │   Scoring   │
                     └──────┬──────┘      └──────┬──────┘
                            │                    │
                     Debezium CDC           RiskAssessed
                            │                    │
                            ▼                    ▼
                     ┌─────────────────────────────────┐
                     │         Kafka Topics            │
                     │  payments.initiated             │
                     │  fraud.checked                  │
                     │  risk.assessed                  │
                     │  payments.completed             │
                     └─────────────────────────────────┘
                                    │
            ┌───────────────────────┼───────────────────────┐
            ▼                       ▼                       ▼
     ┌─────────────┐         ┌─────────────┐         ┌─────────────┐
     │   Ledger    │         │   Order     │         │Notification │
     │   Service   │         │   Service   │         │   Service   │
     └─────────────┘         └─────────────┘         └─────────────┘

Strategia di Testing Che Funziona Davvero

Dimentica la piramide dei test per un momento. Nei sistemi distribuiti hai bisogno di:

Contract test (Pact) - I servizi parlano con stub, non dipendenze reali. I contratti si rompono in CI, non in produzione
Consumer-driven contract - I consumer definiscono cosa hanno bisogno, i provider provano che lo forniscono
Chaos testing (Chaos Monkey, Litmus) - Uccidere pod a caso. Iniettare latenza. Provare la resilienza
Synthetic monitoring - Sonde di produzione continue per i journey utente critici
Load testing come validazione - Abbiamo validato che l'architettura poteva gestire 80x il traffico originale attraverso rigorosi load test prima del lancio
Canary deployment - 1% del traffico alle nuove versioni, rollback automatico in caso di picco di errori

Cosa È Realmente Successo

All'inizio, ci siamo concentrati sulla decomposizione del monolite - identificando le giunture, strangolando il vecchio sistema servizio per servizio. All'inizio è stato difficile. Le competenze di debugging distribuito mancavano, le trace erano incomplete, e le partizioni di rete esponevano bug di consistenza.

Dopo alcuni mesi, le cose hanno fatto click. I team possedevano i loro servizi end-to-end. I deployment sono diventati non-eventi. Il team di platform engineering aveva costruito abbastanza golden path per cui mettere su un nuovo servizio richiedeva ore, non settimane.

Quando il tempo è passato e l'architettura è maturata, i risultati hanno parlato da soli:

I tempi di risposta sono scesi da 850ms p99 a meno di 120ms p99
Zero-downtime deployment - le finestre di manutenzione sono diventate un ricordo
Costi di infrastruttura ridotti del 35% nonostante traffico più alto
Frequenza di deployment: da mensile a 50+ deploy giornalieri
Tempo medio di recupero: meno di 5 minuti per la maggior parte degli incidenti

Le Lezioni Difficili

Non tutto è andato liscio. Ecco cosa ha fatto male:

**L'eventual consistency è una feature, non un bug** - Ma spiegalo al PM che si chiede perché la dashboard mostra dati obsoleti. Progetta per questo. Comunicalo.

**Distributed tracing o morte** - Senza correlation ID e corretta propagazione del trace context, il debugging è archeologia. L'auto-instrumentazione di OpenTelemetry è tua amica.

**L'evoluzione dello schema è difficile** - Avro con schema registry. Solo modifiche backwards-compatible. I breaking change richiedono un nuovo topic.

**Kubernetes è un sistema operativo** - Non combatterlo. Imparalo. Resource limit, liveness probe, pod disruption budget - esistono per motivi.

**Il team platform non è negoziabile** - Qualcuno deve possedere le astrazioni di infrastruttura. Altrimenti, ogni team reinventa la ruota.

Quando NON Fare Microservizi

Parliamo chiaro - i microservizi sono costosi. Considera alternative se:

Il tuo team è piccolo - l'overhead di coordinamento ucciderà la velocità
I confini del dominio non sono chiari - li disegnerai sbagliati e soffrirai dolori di migrazione
Non hai capacità di platform engineering - la complessità dell'infrastruttura esplode
I requisiti di latenza sono estremi - gli hop di rete si sommano
Il tuo monolite ha solo bisogno di migliore modularizzazione - prova prima un monolite modulare

Conclusioni

Alla fine di questo viaggio, avevamo una piattaforma che deployava continuamente, scalava su richiesta, e dava ai team vera ownership. Il business ha ottenuto quello che chiedeva: costi più bassi, delivery più veloce, e la flessibilità di evolvere.

Ne è valsa la pena? Per questa scala e questi requisiti, assolutamente. Ma abbiamo iniziato con un monolite modulare e abbiamo estratto servizi solo quando il dolore era reale.

Stai pensando a questo tipo di trasformazione? Inizia dal problema, non dalla soluzione.

Key Takeaways

L'architettura microservizi non riguarda seguire i trend - riguarda risolvere sfide specifiche di scaling e organizzazione. I pattern che abbiamo coperto (transactional outbox, event sourcing, CQRS, saga orchestration) non sono esercizi teorici; sono soluzioni testate in battaglia per veri problemi di sistemi distribuiti.

Abbiamo validato che l'architettura poteva sostenere 80x il traffico originale attraverso load testing completo. I deployment sono passati da eventi mensili a non-eventi che accadono dozzine di volte al giorno. Questo è il ritorno quando fai bene i fondamentali.

Hai sfide di architettura con cui stai lottando? Parliamo di pattern.

Costruire Microservizi Scalabili: Pattern Reali dal Campo

Il Problema Reale

Microservizi: Hype vs Realtà

Deep Dive Architetturale

Lo Stack (E Perché)

Pattern Che Ci Hanno Salvato

Il Flusso di Pagamento: Architettura Reale

Strategia di Testing Che Funziona Davvero

Cosa È Realmente Successo

Le Lezioni Difficili

Quando NON Fare Microservizi

Conclusioni

Key Takeaways

Engineering Team

Costruire Microservizi Scalabili: Pattern Reali dal Campo

Il Problema Reale

Microservizi: Hype vs Realtà

Deep Dive Architetturale

Lo Stack (E Perché)

Pattern Che Ci Hanno Salvato

Il Flusso di Pagamento: Architettura Reale

Strategia di Testing Che Funziona Davvero

Cosa È Realmente Successo

Le Lezioni Difficili

Quando NON Fare Microservizi

Conclusioni

Key Takeaways

Engineering Team

Preferenze Cookie

Necessari

Analitici

Funzionali