Quello che mi piace di più di Azure Databricks è come semplifica l'elaborazione di dati su larga scala pur offrendo flessibilità agli ingegneri. Dalla mia esperienza, il vantaggio più grande è la piattaforma unificata che mi permette di fare data engineering, trasformazioni, ottimizzazione delle prestazioni e persino analisi in un unico posto senza dover passare tra più strumenti. L'integrazione con Spark è senza soluzione di continuità, e cose come i cluster auto-scalabili, la pianificazione dei lavori e la collaborazione sui notebook rendono il lavoro quotidiano molto più efficiente. Apprezzo anche funzionalità come Delta Lake che gestisce le transazioni ACID, l'evoluzione dello schema e il time travel direttamente sui data lake, rendendo le pipeline di produzione molto più affidabili. Inoltre, ottimizzazioni come l'Adaptive Query Execution, l'auto-ottimizzazione, lo Z-ordering e la memorizzazione nella cache aiutano davvero quando si lavora con grandi set di dati. Un'altra cosa che mi piace è quanto bene si integra con l'ecosistema Azure, che si tratti di ADLS, ADF, Key Vault o Unity Catalog per la governance. Riduce molto il sovraccarico di configurazione e rende le distribuzioni più fluide tra gli ambienti. In generale, mi permette di concentrarmi di più sulla risoluzione dei problemi di dati e sull'ottimizzazione delle prestazioni piuttosto che preoccuparmi della gestione dell'infrastruttura. Recensione raccolta e ospitata su G2.com.
Una cosa che non mi piace di Azure Databricks è che la gestione dei costi può diventare complicata se i cluster e i lavori non vengono monitorati attentamente. Poiché è così facile avviare cluster ed eseguire carichi di lavoro pesanti, i costi possono aumentare rapidamente, specialmente con l'auto-scaling o con più lavori paralleli in esecuzione. Quindi richiede una buona governance e un monitoraggio adeguato. Un altro aspetto è il debugging e la risoluzione dei problemi. Sebbene i notebook siano ottimi per lo sviluppo, il debugging dei fallimenti dei lavori in produzione, specialmente per problemi intermittenti di Spark o dell'infrastruttura, può a volte richiedere tempo. I log sono disponibili, ma tracciare la causa esatta tra eventi del cluster, Spark UI e esecuzioni dei lavori non è sempre semplice. Ho anche notato che gestire CI/CD e i deployment (come spostare notebook, workflow, configurazioni tra ambienti) non è così fluido di default rispetto ai repository di codice tradizionali. Sta migliorando con Databricks Asset Bundles e Repos, ma richiede ancora un'attenta configurazione. Detto ciò, la maggior parte di questi aspetti è gestibile con le migliori pratiche: controlli dei costi, monitoraggio e processi DevOps adeguati. Recensione raccolta e ospitata su G2.com.
Il revisore ha caricato uno screenshot o inviato la recensione in-app verificandosi come utente attuale.
Validato tramite un account email aziendale
Recensione organica. Questa recensione è stata scritta interamente senza invito o incentivo da parte di G2, un venditore o un affiliato.
Questa recensione è stata tradotta da English usando l'IA.