项目经历
主导的核心项目,从云原生可观测到精准测试平台的完整技术实践
核心项目
在名通科技、华阳国际主导的重点项目
云帆可观测与 CMDB 平台
基于 eBPF+Beyla 的无侵入链路追踪平台,支撑日均百亿级日志处理。原单体 CMDB 存在实时计算瓶颈(复杂聚合耗时久、内存占用高),可观测链路存在 Redis 热点 KEY 与数据一致性问题。
技术架构
核心贡献
- Flink 实时计算:引入 Flink 替代 Spark,设计加盐打散+窗口聚合解决数据倾斜,实现秒级指标统计;RocksDB State Backend 容错,任务失败自动重启不丢数
- eBPF 无侵入追踪:对接 Beyla 探针,开发 OTLP 接收器解析分布式追踪数据,关键接口 P99 从 500ms 降至 80ms;制定《可观测接入标准》,推动 3 个业务线落地
- 设备自动发现:基于 SNMP Trap+LLDP 协议实现网络设备拓扑自动推断;设计分层采集架构(采集器→Kafka→Flink→ClickHouse),支持百万级设备分钟级纳管
- 缓存架构优化:针对 SkyWalking ES 解耦发现的 Redis 热点 KEY,设计本地缓存+变更通知机制,消除高频轮询,Redis 负载降低 60%,一致性延迟<100ms
南航资产管理系统精准测试平台
传统单体系统回归测试成本高,静态插桩侵入性强且高并发下调用路径混淆。基于 JaCoCo 动态插桩的智能测试平台,实现代码变更驱动的精准测试。
技术架构
核心贡献
- JaCoCo 动态插桩:设计 Java Agent 运行时轻量级字节码修改,替代静态插桩,降低运行时干扰 30%,解决高并发下调用路径混淆,覆盖率准确性提升至 95%+
- 智能用例推荐:基于贪心算法构建最小化测试子集模型,结合代码变更 Diff 自动筛选,减少回归用例 40%,缩短测试周期
- 流量回放闭环:对接 Gor 构建「采集→回放→覆盖率分析」流水线,实现生产流量在测试环境精确回放,高风险变更拦截率提升 50%
- 根因定位:开发调用链路拓扑自动绘制与故障根因定位算法,平均问题排查时间从 2 小时缩短至 15 分钟
华阳造价指标大数据平台
建筑造价数据管理平台,需支持亿级历史工程数据多维度检索与智能测算,原 MongoDB 存在内存告警与聚合性能瓶颈。对标广联达指标网站的建筑互联网系统。
技术架构
核心贡献
- 亿级数据检索:基于 ElasticSearch 设计分片策略与倒排索引优化,实现多维度关键字毫秒级查询;集成 Qdrant 向量数据库构建 RAG 检索增强,意图识别准确率 85%
- 数据库架构升级:针对 MongoDB 内存告警(占用>90%),设计冷热数据分层方案,历史数据迁移至 ClickHouse,存储成本下降 70%,内存占用下降 60%
- 高性能缓存:复杂报表查询优化,重构 SQL 索引+引入 Redis 缓存,查询耗时从 3s 降至 500ms;设计数据切换方案保障迁移过程业务连续性
技术亮点
解决过的复杂技术问题与突破
eBPF 无侵入追踪
对接 Beyla 探针开发 OTLP 接收器,实现从内核层到应用层的全链路监控,关键接口 P99 从 500ms 降至 80ms。
Flink 实时计算
设计加盐打散+窗口聚合解决数据倾斜,实现秒级指标统计;RocksDB State Backend 容错,支撑日均百亿级日志处理。
JVM 字节码优化
Java Agent 运行时轻量级字节码修改替代静态插桩,覆盖率准确性提升至 95%+,降低运行时干扰 30%。
高并发架构优化
内存级 Trie 树+布隆过滤器替代数据库查询,单机 QPS 从 5 提升到 5000,实现 1000 倍性能提升。
数据库架构治理
MongoDB 迁移 ClickHouse 冷热数据分层方案,存储成本下降 70%,内存占用下降 60%,保障业务连续性。
工程效能提升
AI 辅助代码审查与文档生成,效率提升 50%;建立 Git 统计与性能基线监控,制定 Code Review 规范。
技术架构全景
云原生可观测
eBPF / Beyla
OTLP / Prometheus
Grafana / SkyWalking
实时计算
Flink
Kafka / RocksDB
EventTime / Checkpoint
数据存储
MySQL / Redis
ElasticSearch / ClickHouse
MongoDB / Qdrant
工程效能
JaCoCo / Java Agent
K8s / Docker
AI 辅助工具链