返回

ITPUB专访“数”风流人物|郑祥:为数据库“问诊”,他的“听诊器”直达内核

DBdoctor研发团队2025-11-24 03-12

640 (1).jpg

海信聚好看数据库负责人&DBdoctor掌舵人 郑祥


双十一前夜,零点将至,阿里巴巴园区数据库工作室气氛紧绷如满弓之弦,郑祥与团队紧盯着监控大屏,屏幕上跃动着整个电商帝国的核心脉搏。然而系统突然出现业务抖动——交易订单极速下跌,数据库QPS异常激增,SQL查询响应曲线陡然抬升;症状一目了然,然而短时间内的病因却成谜:究竟是哪里发生锁竞争?哪段资源出现异常抖动?传统监控工具此时显得苍白无力,只能收到告警信息,却无法诊断定位根因。

“那种眼睁睁看着订单下跌,却不知问题出在哪一层的无力感,深深刺痛了我。”郑祥后来回忆,正是这种切肤之痛,成为他职业生涯的转折点,推动他走上一条破局之路——他要为数据库打造一台能精准定位问题的“CT机”。

现在作为海信聚好看的数据库负责人、数据库性能诊断产品DBdoctor的掌舵人,郑祥已将当年的梦想照进现实。他从一位在系统外部望闻问切的工程师,成长为能够深入数据库内核进行听诊的诊断专家。


从“黑盒摸索”到“内核CT”:一场源于痛点的技术革新

在阿里云多年的一线实战,尤其是主导双十一这种极限场景的保障经历,让郑祥对数据库性能管理的行业痛点有了刻骨铭心的认识。定位过程如同黑盒摸索,耗时耗力。他总结道。这种普遍的困境,激发了他最朴素的初心:将数据库性能管理从依赖个人经验的艺术,转变为一项基于精准数据的科学

他对行业有着清晰的判断:这个领域的下限,是基础指标的采集与告警,解决有没有的问题。目前很多工具仍停留在这一层,只能告诉你系统病了,但无法确诊。而他所瞄准的,是领域的上限——“构建一个完整的智能自治系统,它不仅能发现和诊断问题,更能预测风险、自主优化乃至自我修复。

这一理念,成为了DBdoctor产品的灵魂。郑祥为它赋予了清晰的定位:做数据库性能的内核CT其目标也异常明确:短期,成为企业数据库最值得信赖的性能保障与故障排查利器,加速核心系统国产化替代进程;长期,则是通过智能自治能力重新定义数据库运维模式,将DBA从繁琐的救火工作中解放出来,让他们能专注于更高价值的架构与创新工作。


攻坚“难而正确的事”:eBPF与多智能体的双重基石

为了实现这个宏伟的目标,郑祥带领团队构筑了两大核心技术基石。

第一块基石,是基于eBPF内核级可观测能力。这是他破解黑盒难题的钥匙。我们创新地将eBPF技术应用于数据库诊断,实现了无需改造应用、极低开销的内核细粒度数据采集,真正打开了数据库运行的黑盒他用一个生动的比喻解释了其价值:这就像通过症状猜测病情,与通过CT扫描直接看到病灶的区别。正是这项技术,让DBdoctor在定位锁竞争、性能抖动、底层资源瓶颈等疑难杂症时,具备了无可比拟的优势。

第二块基石,是基于多智能体的协同自治架构。郑祥认为,单一AI模型在复杂多变的运维场景下显得力不从心。因此,他们构建了由根因诊断、SQL审核优化、故障预判等多个专业智能体组成的协同系统。让专业的智能体处理专业的问题,通过分工协作解决复杂场景下的运维决策,这比单一AI模型更可靠、更高效,也更具可解释性。

然而,创新之路从无坦途。当他决定深耕eBPF这条技术路线时,曾面临内外部的双重压力。外界普遍认为这个技术门槛太高、应用场景太窄。甚至在团队内部,也曾有同事质疑:为什么我们要选择这条最难的路?

面对质疑,郑祥的应对策略体现了他作为技术领导者的坚定与智慧。他首先用清晰的技术愿景统一团队认知,反复阐释内核级可观测能力才是未来的技术壁垒。其次,他们设定了明确的里程碑,通过快速实现技术突破并获取早期客户的积极反馈,用事实证明了这条路的价值。我始终相信正确的事具备时间价值——短期内可能不被理解,但长期一定会获得回报。这种信念,最终凝聚了团队的共识,让他们心无旁骛地专注于技术深度。


驶向智能自治未来:产品化思维与行业普惠的远见

目前,DBdoctor的发展符合甚至略超预期。郑祥透露,其基于eBPF的深度诊断功能已在制造、通信等多个行业的头部客户核心系统中得到验证,成功将复杂问题的排查时间从小时级降至分钟级

在未来数据库智能自治的战略规划上,郑祥认为是向智能感知-自治决策-无缝执行的范式转变。以此构建起基于eBPF的内核级数据采集能力,到实现AI驱动的根因定位与诊断,最终通过MCP Agent多智能体协同形成从建议到行动的闭环自治的数据库运维体系。

当前我们正处在从智能诊断迈向智能自治的关键跨越阶段。这一跨越主要基于两个层面的持续深耕: 一是深化智能体专业能力,基于eBPF技术构建数据库内核行为的全链路透视能力,让智能体在锁竞争、资源抖动等关键场景具备源码级的诊断精度;同时通过AI模型不断优化根因分析的准确性与时效性,实现从发现问题精准定位再到推荐方案执行的完整闭环。 二是推动技术能力普惠化,通过标准化、产品化的输出,让更多企业能够以更低门槛享受到智能诊断与自治运维的技术红利,助力整个行业实现从人工救火智能预防的运维模式转型。

“DBdoctor的核心版本目前可以在官网免费下载使用。产品易用性与部署简洁性让智能数据库诊断触手可得。郑祥表示,我们希望通过这种方式,与业界共同推动数据库运维水平的整体提升。这一决定,源于他从阿里云到海信聚好看后,一次重要的思维转变。再宏伟的架构,最终都要回归到解决具体的业务问题上来。稳定性和性能是数据库产品的生命线,技术的先进性必须与用户的易用性相结合,一个再强大的工具,如果使用门槛过高,也无法创造大规模的价值。

在他眼中,DBdoctor不仅是一款产品,更承载着他对行业的思考与责任。经历了双11这种极限场景的打磨后,我深刻认识到,中国拥有全球最丰富的业务场景和海量数据环境。我们做DBdoctor,不仅是想打造一个优秀的产品,更希望为整个行业的发展贡献一份力量。

回顾自己的历程,如果要对十年前的自己说一句话,郑祥的回答简洁而深刻:技术最终要服务于业务价值,解决问题的深度比技术的复杂度更重要。这或许正是他一路走来,从解决具体故障的工程师,到定义产品未来、推动行业进步的产品定义者,其内心最真实的写照。他正带领团队,行驶在一条难而正确的道路上,朝着智能自治的未来,稳步前行。

企业微信二维码
扫码加入技术交流群
免费获取高阶License
|
聚好看科技股份有限公司版权所有
copyright 2020-2024 Juhaokan Technology Co., Ltd.All Rights Reserved