[go: up one dir, main page]

Uber 如何扩展数据复制能力以实现每天 PB 级数据迁移

Uber 重视可靠的数据湖(Data Lake),其分布在本地和云环境中。这种多区域架构在有限的网络带宽下为确保可靠且及时的数据访问带来了挑战,尤其是在灾难恢复场景中需要实现无缝的数据可用性。Uber 使用 Hive Sync 服务,该服务基于 Apache Hadoop® Distcp(Distributed Copy)进行数据复制。然而,随着 Uber 数据湖规模超过 350 PB,Distcp 的局限性逐渐显现。本文探讨了针对 Distcp 所做的优化,以提升其性能并满足 Uber 在分布式基础设施上日益增长的数据复制和灾难恢复需求。

 
Featured image of post Green Tea GC: Golang 的 ZGC?

Green Tea GC: Golang 的 ZGC?

本文深入解析 Go 语言垃圾回收(GC)机制的设计与不足,从并发标记-清除、内存局部性问题到高 CPU 占用,透彻剖析了 Go GC 在高并发、大内存场景下的挑战。文章重点介绍了最新的 Green Tea GC 优化方案——通过 span 批量扫描提升内存访问效率和多核扩展性,实现部分场景下 GC 耗时降低 35%,为极限性能优化和未来硬件加速提供了新思路。关键词包括 Go 垃圾回收优化、Green Tea GC、并发GC、高负载场景等。

 
Featured image of post 软件工程师的身份危机 by  Annie Vella

软件工程师的身份危机 by Annie Vella

许多软件工程师最初选择这个职业是因为他们认同“构建”而非“管理”。然而,AI 编码助手的出现正在挑战这种认同。我们正在从创造者转变为协调者,从构建者转变为监督者,从工程师转变为类似管理者的角色。