ITPUB专访“数”风流人物|郑祥:为数据库“问诊”,他的“听诊器”直达内核
.jpg)
海信聚好看数据库负责人&DBdoctor掌舵人 郑祥
双十一前夜,零点将至,阿里巴巴园区数据库工作室气氛紧绷如满弓之弦,郑祥与团队紧盯着监控大屏,屏幕上跃动着整个电商帝国的核心脉搏。然而系统突然出现业务抖动——交易订单极速下跌,数据库QPS异常激增,SQL查询响应曲线陡然抬升;症状一目了然,然而短时间内的病因却成谜:究竟是哪里发生锁竞争?哪段资源出现异常抖动?传统监控工具此时显得苍白无力,只能收到告警信息,却无法诊断定位根因。
“那种眼睁睁看着订单下跌,却不知问题出在哪一层的无力感,深深刺痛了我。”郑祥后来回忆,正是这种切肤之痛,成为他职业生涯的转折点,推动他走上一条破局之路——他要为数据库打造一台能精准定位问题的“CT机”。
现在作为海信聚好看的数据库负责人、数据库性能诊断产品DBdoctor的掌舵人,郑祥已将当年的梦想照进现实。他从一位在系统外部“望闻问切”的工程师,成长为能够深入数据库“内核”进行听诊的诊断专家。
从“黑盒摸索”到“内核CT”:一场源于痛点的技术革新
在阿里云多年的一线实战,尤其是主导双十一这种极限场景的保障经历,让郑祥对数据库性能管理的行业痛点有了刻骨铭心的认识。“定位过程如同黑盒摸索,耗时耗力。”他总结道。这种普遍的困境,激发了他最朴素的初心:将数据库性能管理从依赖个人经验的“艺术”,转变为一项基于精准数据的“科学”。
他对行业有着清晰的判断:“这个领域的下限,是基础指标的采集与告警,解决‘有没有’的问题。目前很多工具仍停留在这一层,只能告诉你系统‘病了’,但无法确诊。” 而他所瞄准的,是领域的上限——“构建一个完整的‘智能自治’系统”,它不仅能发现和诊断问题,更能预测风险、自主优化乃至自我修复。
这一理念,成为了DBdoctor产品的灵魂。郑祥为它赋予了清晰的定位:“做数据库性能的‘内核CT机’。” 其目标也异常明确:短期,成为企业数据库最值得信赖的性能保障与故障排查利器,加速核心系统国产化替代进程;长期,则是通过智能自治能力重新定义数据库运维模式,将DBA从繁琐的救火工作中解放出来,让他们能专注于更高价值的架构与创新工作。
攻坚“难而正确的事”:eBPF与多智能体的双重基石
为了实现这个宏伟的目标,郑祥带领团队构筑了两大核心技术基石。
第一块基石,是基于eBPF的“内核级”可观测能力。这是他破解“黑盒”难题的钥匙。“我们创新地将eBPF技术应用于数据库诊断,实现了无需改造应用、极低开销的内核细粒度数据采集,真正打开了数据库运行的‘黑盒’。” 他用一个生动的比喻解释了其价值:“这就像通过症状猜测病情,与通过CT扫描直接看到病灶的区别。” 正是这项技术,让DBdoctor在定位锁竞争、性能抖动、底层资源瓶颈等“疑难杂症”时,具备了无可比拟的优势。
第二块基石,是基于多智能体的“协同自治”架构。郑祥认为,单一AI模型在复杂多变的运维场景下显得力不从心。因此,他们构建了由根因诊断、SQL审核优化、故障预判等多个专业智能体组成的协同系统。“让专业的智能体处理专业的问题,通过分工协作解决复杂场景下的运维决策,这比单一AI模型更可靠、更高效,也更具可解释性。”
然而,创新之路从无坦途。当他决定深耕eBPF这条技术路线时,曾面临内外部的双重压力。“外界普遍认为这个技术门槛太高、应用场景太窄。甚至在团队内部,也曾有同事质疑:为什么我们要选择这条最难的路?”
面对质疑,郑祥的应对策略体现了他作为技术领导者的坚定与智慧。他首先用清晰的技术愿景统一团队认知,反复阐释内核级可观测能力才是未来的技术壁垒。其次,他们设定了明确的里程碑,通过快速实现技术突破并获取早期客户的积极反馈,用事实证明了这条路的价值。“我始终相信‘正确的事’具备时间价值——短期内可能不被理解,但长期一定会获得回报。” 这种信念,最终凝聚了团队的共识,让他们心无旁骛地专注于技术深度。
驶向智能自治未来:产品化思维与行业普惠的远见
目前,DBdoctor的发展符合甚至略超预期。郑祥透露,其基于eBPF的深度诊断功能已在制造、通信等多个行业的头部客户核心系统中得到验证,“成功将复杂问题的排查时间从‘小时级’降至‘分钟级’。”
在未来数据库智能自治的战略规划上,郑祥认为是向“智能感知-自治决策-无缝执行”的范式转变。以此构建起基于eBPF的内核级数据采集能力,到实现AI驱动的根因定位与诊断,最终通过MCP Agent多智能体协同形成从建议到行动的闭环自治的数据库运维体系。
“当前我们正处在从‘智能诊断’迈向‘智能自治’的关键跨越阶段。”这一跨越主要基于两个层面的持续深耕: 一是深化智能体专业能力,基于eBPF技术构建数据库内核行为的全链路透视能力,让智能体在锁竞争、资源抖动等关键场景具备源码级的诊断精度;同时通过AI模型不断优化根因分析的准确性与时效性,实现从“发现问题”到“精准定位”再到“推荐方案执行”的完整闭环。 二是推动技术能力普惠化,通过标准化、产品化的输出,让更多企业能够以更低门槛享受到智能诊断与自治运维的技术红利,助力整个行业实现从“人工救火”到“智能预防”的运维模式转型。
“DBdoctor的核心版本目前可以在官网免费下载使用。产品易用性与部署简洁性让智能数据库诊断触手可得。” 郑祥表示,“我们希望通过这种方式,与业界共同推动数据库运维水平的整体提升。” 这一决定,源于他从阿里云到海信聚好看后,一次重要的思维转变。“再宏伟的架构,最终都要回归到解决具体的业务问题上来。稳定性和性能是数据库产品的生命线,技术的先进性必须与用户的易用性相结合,一个再强大的工具,如果使用门槛过高,也无法创造大规模的价值。”
在他眼中,DBdoctor不仅是一款产品,更承载着他对行业的思考与责任。“经历了双11这种极限场景的打磨后,我深刻认识到,中国拥有全球最丰富的业务场景和海量数据环境。我们做DBdoctor,不仅是想打造一个优秀的产品,更希望为整个行业的发展贡献一份力量。”
回顾自己的历程,如果要对十年前的自己说一句话,郑祥的回答简洁而深刻:“技术最终要服务于业务价值,解决问题的深度比技术的复杂度更重要。” 这或许正是他一路走来,从解决具体故障的工程师,到定义产品未来、推动行业进步的产品定义者,其内心最真实的写照。他正带领团队,行驶在一条“难而正确”的道路上,朝着智能自治的未来,稳步前行。




