Lo que más me gusta de Azure Databricks es cómo simplifica el procesamiento de datos a gran escala mientras sigue ofreciendo flexibilidad a los ingenieros. Desde mi experiencia, la mayor ventaja es la plataforma unificada donde puedo hacer ingeniería de datos, transformaciones, ajuste de rendimiento e incluso análisis en un solo lugar sin tener que saltar entre múltiples herramientas. La integración con Spark es perfecta, y cosas como los clústeres de autoescalado, la programación de trabajos y la colaboración en cuadernos hacen que el trabajo diario sea mucho más eficiente. También aprecio características como Delta Lake que maneja transacciones ACID, evolución de esquemas y "time travel" directamente en los lagos de datos, lo que hace que las canalizaciones de producción sean mucho más confiables. Además, optimizaciones como la Ejecución de Consultas Adaptativa, auto-optimización, Z-ordering y almacenamiento en caché realmente ayudan al trabajar con grandes conjuntos de datos. Otra cosa que me gusta es lo bien que se integra con el ecosistema de Azure, ya sea ADLS, ADF, Key Vault o Unity Catalog para la gobernanza. Reduce mucho la sobrecarga de configuración y hace que los despliegues sean más fluidos a través de los entornos. En general, me permite centrarme más en resolver problemas de datos y ajustar el rendimiento en lugar de preocuparme por la gestión de la infraestructura. Reseña recopilada por y alojada en G2.com.
Una cosa que no me gusta de Azure Databricks es que la gestión de costos puede volverse complicada si no se monitorean de cerca los clústeres y los trabajos. Debido a que es tan fácil crear clústeres y ejecutar grandes cargas de trabajo, los costos pueden aumentar rápidamente, especialmente con el autoescalado o múltiples trabajos paralelos en ejecución. Por lo tanto, requiere una buena gobernanza y monitoreo. Otra área es la depuración y resolución de problemas. Aunque los notebooks son excelentes para el desarrollo, depurar fallos en trabajos de producción, especialmente problemas intermitentes de Spark o de infraestructura, a veces puede llevar tiempo. Los registros están disponibles, pero rastrear la causa raíz exacta a través de eventos del clúster, la interfaz de usuario de Spark y las ejecuciones de trabajos no siempre es sencillo. También he notado que manejar CI/CD y despliegues (como mover notebooks, flujos de trabajo, configuraciones entre entornos) no es tan fluido de inmediato en comparación con los repositorios de código tradicionales. Está mejorando con Databricks Asset Bundles y Repos, pero aún requiere una configuración cuidadosa. Dicho esto, la mayoría de estos son manejables con buenas prácticas: controles de costos, monitoreo y procesos adecuados de DevOps. Reseña recopilada por y alojada en G2.com.
El revisor subió una captura de pantalla o envió la reseña en la aplicación, verificándolos como usuario actual.
Validado a través de una cuenta de correo electrónico empresarial
Reseña orgánica. Esta reseña fue escrita completamente sin invitación o incentivo de G2, un vendedor o un afiliado.
Esta reseña ha sido traducida de English usando IA.