¿Qué es lo que no te gusta de YugabyteDB?
Desafíos y Limitaciones Actuales
A continuación, enumeramos los problemas y limitaciones más críticos que actualmente afectan nuestra implementación de YugabyteDB para la aplicación Iris:
1. Atomicidad y Concurrencia de DDL
El DDL concurrente en diferentes objetos a menudo falla o causa errores de desajuste de esquema.
2. Comportamiento de Truncado
Las operaciones de truncado retienen tablets antiguas, causando un desbordamiento de recursos (CPU, disco).
3. Agregaciones Lentas / Consultas Analíticas
Las funciones de agregación (por ejemplo, COUNT, SUM, GROUP BY) tienen un rendimiento deficiente en tablas grandes.
4. Errores de Consultas Grandes
Las consultas fallan con errores de tamaño de mensaje RPC; las soluciones requieren ajustes complejos de gflag.
5. Desafíos en la Creación de Índices
La creación de índices en tablas grandes es lenta (puede tardar horas) e inestable si se están ejecutando DMLs.
El fallo de DDLs concurrentes puede resultar en tiempo de inactividad de la aplicación o vistas obsoletas.
6. Lentitud Intermitente de la Aplicación
Durante ventanas de alta ingestión (por ejemplo, clientes Spark + C#), la CPU se dispara al 80–85%.
7. Consultas Lentas a Pesar de la Indexación
Rendimiento deficiente incluso con índices correctamente diseñados.
8. Limitaciones de DR
DR requiere un clúster simétrico de 3 nodos y no replica DDL, lo que aumenta el esfuerzo manual.
9. Fallos de Nodo
Fallos ocasionales debido al error pg_client_use_shared_memory.
10. Utilización de Recursos
Máximo de 1800 conexiones concurrentes en 6 nodos (300/nodo).
Alto uso de CPU (80%+) bajo 5500 OPS y 1500+ conexiones.
11. Uso de Disco de PITR
PITR con retención de 2 días consume 1–2 TB de disco.
Comportamiento esperado, pero la sobrecarga de almacenamiento es significativa.
12. Registro de Auditoría
pgaudit causa fallos y carece de gestión centralizada de registros.
Preferimos que los registros de auditoría se almacenen como tablas consultables.
13. Rebalanceo de Tablets
El rebalanceo tarda 2–3 horas después de fallos de nodo.
14. Cambio de Nombre de Esquema No Reflejado en la Interfaz de Usuario
15. Monitoreo del Rendimiento de Consultas
No hay un panel centralizado de métricas de consultas en todos los nodos.
pg_stat_statements es por nodo; requiere agregación de datos personalizada.
16. Falta de Soporte ORM
Prisma ORM carece de soporte nativo para Yugabyte.
Aún se necesita un cronograma claro para una integración de controlador inteligente.
17. Otros Problemas
Tuplas muertas causando fallos de transacción.
Fallos de tserver relacionados con el desfase de reloj.
Verificaciones de salud incorrectas que llevan a incidentes de eliminación de tablas.
Copia de seguridad a S3 fallida debido a una mala configuración del endpoint.
Recomendaciones y Expectativas
Prioridades Principales para Próximas Versiones:
Soporte completo para DDL/DML concurrente
Mejora del rendimiento de uniones y agregaciones
Panel de consultas centralizado en todo el universo
Descentralización y centralización de registros de auditoría
Rebalanceo inteligente de tablets y recuperación a nivel de tabla
UX simplificado de copia de seguridad/restauración (especialmente para S3)
Documentación y Usabilidad:
Mejores valores predeterminados para gflags relacionados con el rendimiento.
Guía clara sobre mejores prácticas para la coordinación de DDL y la ingestión de alto rendimiento.
Soporte y Capacitación:
Capacitación más estructurada sobre optimización de consultas y ajuste de recursos
Visibilidad de la hoja de ruta para características críticas (por ejemplo, soporte de Prisma ORM)
Pensamientos Finales
Apreciamos la continua colaboración de Yugabyte y su capacidad de respuesta ante los problemas. La plataforma muestra un fuerte potencial para cargas de trabajo OLTP y despliegues críticos, pero hay claras brechas, especialmente en torno a las herramientas operativas, el soporte de consultas analíticas y la concurrencia de DDL, que esperamos ver abordadas en la hoja de ruta a corto plazo.
Nuestro equipo sigue comprometido a colaborar con Yugabyte para mejorar el producto y espera mejoras adicionales en rendimiento y fiabilidad. Reseña recopilada por y alojada en G2.com.