这是一篇横跨三年的年终总结,这三年我依旧奋斗在房极客,开始担任技术团队的总负责人。虽然在外部面临着疫情扩散、行业下行等困难,在内部也遭遇了团队换血、资源受限等挑战,但我们最终都扛下来了,不仅产品交付方面保持稳定,架构方面也在持续优化,甚至还完成了阿里云无损平迁到腾讯云的「壮举」。团队逐渐找到了当前阶段下的「最优解」,算是做到了「修炼内功,向内生长」吧。

重业务,轻管理

图片(房极客办公室)

房极客办公室

回顾过去的年终总结,「管理」一词频繁出现。但这几年作为一把手真正实践下来,反而不那么强调「管理」了。除了走出管理新手村,我也越发意识到,管理只是手段,业务成功才是我们的核心目标。

如何才能让团队把业务做好?我当前阶段的理解是通过技术评审、问题复盘等方式,带着我对产品、架构、行业的理解,和团队一起深入到业务中去,解决问题,修正认知,做出决策。基于此,我接手团队后,立即开始了全量全面的技术方案评审,尽管工作量非常大,但也具有极高的杠杆效应。

首先,技术方案需要开发同学理解需求、梳理思路、形成文档。除了进行评审,文档包含接口可以用于前后端沟通,还可以作为团队资产沉淀下来,并且随着团队磨合和基建完善,评审效率也越来越高。

其次,评审过程中可以发现很多不对等的问题,比如产品需求简单但技术实现过于复杂、产品想简单了但技术很复杂、技术复杂但真实业务没有预期那么必要等等,这些问题能够在萌芽阶段就被解决,减少了很多不必要的损耗。

最重要的是,评审环节可以确保决策前经过深刻思考,团队始终站在业务的角度去解决问题,长期正确的事情尽管复杂也要不断投入,短期不重要的事情要及时止损。决策后再通过后续需求反复论证此前结论,不断修正当下认知,稳稳把握住架构演进的方向。

不要盲目跟风大公司

敬畏之心 空杯心态

大公司在互联网舆论中一直有强大的话语权,以至于大家普遍认为大公司的做法就一定是对的,各方面都应该向大公司学习。但大多情况下,大家的信息和资源都是不对称的,对于中小型团队而言,资源不足是常态,一味学习大公司的做法,只会导致有限的资源变得更加紧张。

专业职级就是一个典型案例。大公司分工明确,每个通道都有明确的职级标准,开发同学也希望通过职级明确自己的发展路线,朝着更高水平的专业方向去发展。这种想法本身并没问题,团队内部也参考大公司职级制定了自己的职级标准,但推动起来阻力很大。最后我们发现,公司当前阶段需要的是「能够独立解决问题的人」,而不是职级导向的「能够攻克未来难题的人」,这是方向上的根本差异。

专业方向也是类似,这里并不是否定专业能力的重要性,「术业有专攻」固然重要,但是在资源有限+人员变动+交付压力的前提下,如何盘活团队资源以达成目标?我当前阶段的做法是「跨端+全栈」,各专业方向往其上下游再迈一步,比如客户端往前端(跨端相关)方向靠拢、前端往后台(全栈相关)方向发展、后台往运维(服务器相关)和数据(数据库相关)方向探索、测试往交付(Python 相关)和售后(质量相关)方向实践。特别是在各种 AIGC 技术的加持下,新编程语言的学习成本,和陌生问题的解决成本都大大降低,让这个事情的可行性变得更大。

除了满足业务目标外,技术同学在这个过程中也得到更多锻炼的机会,打破原有工作中的局限性。比如有些事情明明一个人就可以做完了,却因为分工不同流转了两三人,每个人的信息量又参差不齐,导致处理效率很低。经过一段时间的探索后,我们已经在一些中等规模的、横跨多专业方向的需求,做到一个人全程闭环的,不仅缩短了开发周期,还降低了沟通成本和可能出现的错误。

疫情前的团队规模虽然比现在大几倍,但单位产出不一定比现在多。如果不是因为资源受限,我们也不会这样去思考和解决问题,但也正是因为资源受限,倒逼我们去摸索更优解,聚焦在关键事项上。此前争取 1+1>2,现在追求 2-1>1。

迁云意义不仅在于成本优化

迁云切割当晚

一开始腾讯云商务同学问我「是否考虑阿里云迁到腾讯云」,我的本能反应是无视:需求都做不完,哪有时间迁云,不迁时业务跑得好好的,迁出问题不是给自己找麻烦吗。相信这也是绝大多数技术负责人对于这个事情的直接想法,但经过深入沟通,我们发现迁云也是一件 ROI 很高的事情。

财务层面来看,迁云的主要成本是人力,不管是内部抽调两个月专门做,还是新招专家一年时间慢慢做,一次性成本也就几十万。而迁云第一年就能节省几十万,后续每年也都能省下很多钱,如果业务规模扩大,省下的钱就更可观了。技术层面来看,房极客自成立就长在云上,绝大多数服务也都跑在 K8S 上(意味着 IaaS 已被抽象),剩余服务要么用的开源技术栈,要么在腾讯云也有对标 PaaS / SaaS 产品可以选择,因此实际迁移难度并不大。

更重要的是,迁云是一次难得的学习实践机会,也是对团队的一次大考验。一方面是我们借此机会把阿里云和腾讯云的相关文档都深入阅读了一遍,发现很多此前不曾注意的最佳实践。另一方面是「如何在不影响业务的前提下完成平迁」,腾讯云迁移团队有非常多的实战经验,这些经验搞得定平迁,搞定局部架构优化就更不在话下了。事实证明,迁移过程中用到的 DTS、监控等思路和方法,后来也被我们多次用到重要业务的架构演进中,对整体稳定性起到重要帮助。

当然,迁云过程中还是出现了意想不到的事情:当时正值疫情放开,两边都陆续有人感染停工… 好在大家都健康归来,整体也按计划完成了各项准备和改造工作,最后顺利在既定时间完成切割,团队经受住了这次大考。

这是充满历练的三年

这三年在工作之外也发生了很多事情:

  • 大宝终于会说话了,练习时长两年半,逻辑推理和胡说八道起来很像 ChatGPT… 仔细想想大模型的原理和人类幼崽的表达还挺像的。
  • 二宝在 2021 年底出生了,小名小乖。和大宝相比,最大的感受是:女儿实在是太可爱太美好了!!!
  • 年少时去医院不知道要看哪个科,去了甚至没找到科室的路,这些年带着家人一天跑几个医院几个科室,路线规划轻车熟路… 人到中年,辛酸不已。

回首过去,工作与生活的种种经历,确实不易,但过程并没有那么痛苦。支撑我走下来的,是价值观,更是信念——始终做正确的事情,不要轻易因为外在因素而否定自己,相信自己并坚定不移地走下去。

Always Day One.