Was mir an Azure Databricks am besten gefällt, ist, wie es die Verarbeitung großer Datenmengen vereinfacht und gleichzeitig den Ingenieuren Flexibilität bietet. Aus meiner Erfahrung ist der größte Vorteil die einheitliche Plattform, auf der ich Datenengineering, Transformationen, Performance-Tuning und sogar Analysen an einem Ort durchführen kann, ohne zwischen mehreren Tools wechseln zu müssen. Die Integration mit Spark ist nahtlos, und Dinge wie Auto-Scaling-Cluster, Job-Scheduling und Notebook-Kollaboration machen die tägliche Arbeit viel effizienter. Ich schätze auch Funktionen wie Delta Lake, das ACID-Transaktionen, Schema-Evolution und Zeitreisen direkt auf Data Lakes ermöglicht, was Produktionspipelines viel zuverlässiger macht. Darüber hinaus helfen Optimierungen wie Adaptive Query Execution, Auto-Optimize, Z-Ordering und Caching wirklich, wenn man mit großen Datensätzen arbeitet. Ein weiterer Punkt, den ich mag, ist, wie gut es sich in das Azure-Ökosystem integriert, sei es ADLS, ADF, Key Vault oder Unity Catalog für Governance. Es reduziert viel Einrichtungsaufwand und macht Bereitstellungen über verschiedene Umgebungen hinweg reibungsloser. Insgesamt kann ich mich mehr auf die Lösung von Datenproblemen und Performance-Tuning konzentrieren, anstatt mir Gedanken über das Infrastrukturmanagement zu machen. Bewertung gesammelt von und auf G2.com gehostet.
Eine Sache, die ich an Azure Databricks nicht mag, ist, dass das Kostenmanagement schwierig werden kann, wenn Cluster und Jobs nicht genau überwacht werden. Da es so einfach ist, Cluster zu starten und große Workloads auszuführen, können die Kosten schnell steigen, insbesondere bei automatischer Skalierung oder mehreren parallelen Jobs. Daher erfordert es eine gute Governance und Überwachung. Ein weiteres Problem ist das Debuggen und die Fehlersuche. Während Notebooks großartig für die Entwicklung sind, kann das Debuggen von Produktionsjobfehlern, insbesondere bei intermittierenden Spark- oder Infrastrukturproblemen, manchmal Zeit in Anspruch nehmen. Logs sind verfügbar, aber die genaue Ursache über Clusterereignisse, Spark UI und Jobausführungen hinweg zu verfolgen, ist nicht immer einfach. Ich habe auch bemerkt, dass die Handhabung von CI/CD und Deployments (wie das Verschieben von Notebooks, Workflows, Konfigurationen über Umgebungen hinweg) nicht so reibungslos von Haus aus funktioniert wie bei traditionellen Code-Repositories. Es verbessert sich mit Databricks Asset Bundles und Repos, erfordert aber immer noch eine sorgfältige Einrichtung. Das gesagt, die meisten dieser Probleme sind mit Best Practices wie Kostenkontrollen, Überwachung und ordentlichen DevOps-Prozessen beherrschbar. Bewertung gesammelt von und auf G2.com gehostet.
Der Bewerter hat einen Screenshot hochgeladen oder die Bewertung in der App eingereicht und sich als aktueller Benutzer verifiziert.
Bestätigt durch ein Geschäftsemail-Konto
Organische Bewertung. Diese Bewertung wurde vollständig ohne Einladung oder Anreiz von G2, einem Verkäufer oder einem Partnerunternehmen verfasst.
Diese Bewertung wurde aus English mit KI übersetzt.





