一位博士在华为的 22 年
共 9368字,需浏览 19分钟
·
2022-07-05 10:50
八股文网站:xiaolincoding.com
转自:心声社区 | 对白的算法屋
大家好,我是小林。
今天给大家分享一位博士从大学毕业入职华为到今年退休的经历,他将自己22年的职业生涯都奉献给了华为,让我们一起学习他的感悟与经验,以下为原文。
转眼在我厂已经度过近22年,近日跟部门领导和HR正式提出了退休申请。华为或将是我经历的唯一职场,趁着这段时间,回忆这段职业之路,对自己做个小结。未来将调整好身体、补充新知识、开启新生命历程。
1
回首当年的入职,似乎还历历在目。到华为工作,是我不后悔的选择;但能坚守这么长时间,却是我未曾料到的。
回到2000年的校招。临近博士毕业的我面临选择,导师说我的性格不适合社会,太较真,希望我留校跟他做科研,在学术上有所作为(我的导师是华中科技大学机械学院的段正澄教授,工程院院士,最好的师者。
他年轻时曾是校篮球队队长,年届八旬依然鹤发童颜、走路生风,却不幸在2020年2月离世于新冠疫情下的武汉。我至今尚未能到他的墓前祭扫,常感憾恨!)。
但当时我觉得自己已经在家庭艰窘的境况下读书二十多年,希望能尽快赚钱回报家人。作为一个多子女农村家庭的长子,父母对我期望也最大。
校招阶段,我拿到了大唐和华为的offer。还参加了朗讯贝尔实验室的面试,面试的地点在当时洪山区唯一的四星级酒店。我最心仪的还是贝尔,因为是外企。听面试官说有健身补助的福利,觉得好人性化。
但因英语口语实在太烂,专业也不是通信,没能走到最后一关。现在回想,真是福兮祸兮,后来IT泡沫破裂,贝尔实验室也关张了。当初我还有一个诉求就是必须到北京,因为夫人在北京。
实在是华为招聘员工的敬业精神打动了我,即使在午饭时间去问问题,他们都会欣然放下手中的盒饭耐心解答,敬业得让人感动。我想这样的公司一定是有竞争力的。签约时,我特别对招聘的MM表示了感谢,她说:“你能工作满五年就是对我最大的感谢”。现在看来我已经守信,做到了。
很长一段时间,父亲对于我到华为工作这件事都是羞于启齿,认为读了这么多年书,结果却去了没有保障和名分的私企。
在他的认知里,还不如回家乡,到九院。那时候九院为了引进博士,不但提供安家费,还分房,但我还是坚持选择了华为。
一是华为人体现的干劲儿和企业精神面貌很吸引人;二是起薪5500元对我来说还是一笔很大的数目(大家可以嘲笑我没见过世面)。
记得签约仪式上,当时的副总裁洪天峰来学校跟我们座谈,洪老还拿着精美的深圳市民中心规划画册跟我说,到深圳多好,为什么要去北京啊?
2
那时候入职先到深圳进行大队培训,这也是我第一次去特区。第一次看到深南大道那么宽,高速车流保持通畅,全然不见拥堵,忍不住感叹特区规划就是有前瞻性;第一次发现明信片上的蓝天白云是真的,皮鞋可以一周不用擦灰。
当然七月也是炎热的,但公共汽车都有空调,只是动不动六、七块的车票好贵。培训是在石岩湖(宝安),公司在科技园(南山),进城入关还要查阅通行证。现在想想,那时真是最幸福的时候,吃得好,还没项目压力,每天就是跑操、上课,晚上看电影写心得。
公司当时有两个大的战略项目:上海的无线和北京的数通。我有幸被分到数通,做核心路由器的8011项目。那时北研所刚搬到上地七街的华为大厦不久,特别偏,难得有一路公交车365在上地五街就拐弯了。
记得第一次从蓟门桥打车去研究所,司机师傅本来要走清华-体大线路,但我们担心被绕远,要求走西苑-农大线路,结果越走越偏,在宛如村道的马连洼北路上心里直发凉。
报到那天,干部部的MM给大家简单介绍了研究所的情况后,所长孙业林跟大家沟通,具体讲了什么已经不记得了,总之就是他在华为的成长体会。也没什么高言大义,就是现身说法,用自己的成长经历鼓励大家,但说得我心潮澎湃,就想赶快上战场建功立业。
此后各部门主管来领自己的员工,这其中还发生了一个插曲。当时网管的头儿施勇把我接走,途中交流发现我是做硬件的,又把我送回来了(其实当时我也说“如果需要我做软件我也可以学”,但估计他更希望要个对口的人赶快上手干活)。
随后网控硬件部的江建平来把我接走,我被直接带到徐振华那里(后来知道他是8011产品的硬件经理),接着老徐又把我带到LPU(线路处理单元)线卡项目经理于东海处。这样我就算进入项目,开始为期3个月的试用期。
当时8011要实现端口最高速率POS(基于SDH/SONET的封装报文) 2.5G。现在做数通的动不动就是400G、800G,甚至是热点的3.2T芯片出光,肯定觉得2.5G太low了,但当时家庭还是ADSL(非对称数字用户环线)、以M论端口带宽的时代。
老于安排1999年入职的董巍做我导师。因为我们是全球第一个用I公司的网路处理器的α客户,我被安排把NP(网络处理器)搞清楚,编写硬件相关微码,这样单板回板后能支撑调测、打通业务。
现在想来,我一个拿到芯片手册会把data frame翻译成框架的通信小白,就是凭着“无知无畏”的劲头在往里扎。董导对我说,单板回来后,你得保证业务尽快打通,你自己不能成为整个项目组的瓶颈。
说实在的,那个时候压力挺大。要学的东西很多,我就边看芯片手册边写心得,并在项目组例会给大家汇报,听取大家的反馈。也没想结果会是什么,就想拼着命也要搏一回。一遍看不懂就看两遍,两遍不行就三遍。我还专门去海淀图书城买了TCP/IP红宝书补充网络知识。那个时候大家年纪都差不多,也没什么拖累,满心都是工作,也没什么面子观念(老板也说过世界上只有不要面子的人才会成功),不懂就找周围的同事请教。
同事关系也简单,大家都是有问必答。加班是家常便饭,但没觉得辛苦,后来我夫人建议把家安在公司附近,也极大地间接促进了我的常态加班。大家都把产品当作自己的儿子、一切付出的期望。晚上加班晚了,老于还不时请大家到上地东里吃夜宵。
这种吃饭聚餐有个规矩——级别最高的买单,作为新员工的我就安心享受。后来才知道,我是项目组里年龄最大的。
三个月的试用期,我按时写周总结、月度总结,即便没有人要求,我都发给整个项目组,请大家指正。
试用期结束后转正答辩,答辩组长是负责底层软件开发部的黄国勇,答辩组的领导们让我回答了几个问题,应该还比较满意,答辩结果是A。
很快老于就跟我沟通加薪,好像是1300,一下从5500涨到了6800,顿感前途一片光明。
3
转正后就成了“老员工”,大家也不再拿我当新员工对待了。
很快,我们的单板回来了,大家宝贝得不行。我从办公室转战到了实验室,成天与它泡在一起。正如前面所讲,因为我们是I公司的α客户,注定了我们的调测与I公司是同步的,甚至先于他们。
那个时候微码仿真器都还没到,其实就是一个小盒子,连上NP的JTAG(联合测试行动组织所定义)接口可以在线调试微码。
但那玩意儿比芯片还贵,整个产品就只有3-4个,分在硬件和微码用,用完都要小心收在保密柜里,所以我们开创性地在单板上设计了一排LED灯,这样通过在微码中植入点灯代码来确认运行步骤和调试结果。
现在想想,很佩服老徐、老于、王重阳、兰天、董导、梁冰、唐峰、刘晨等项目组成员如此天才的想法(没错,当时我们项目组就8个人)。后来因为我们不断发现芯片隐藏Bug,也让I公司的专家不得不对我们的能力刮目相看,从起初的傲慢逐渐转向对我们反馈问题的重视。
那时候心里充满了激情,感觉每天都有进展,自发自驱地拼命往前赶,好像除了工作没有其他,单纯地快乐着。主管和同事的关系也很纯粹,大家都对技术有种痴迷,主管没有任何架子,极好相处。
记得有一晚调逻辑遇到问题,产品经理朱天文来实验室看到了,直接上手说该这样改、该那样改,后来才知道他就是我们最大的头儿(工号0311)。单板调测差不多之后,就该跟网板联调了。
当我们在华为大厦4层把第一个报文从DMU(数据搬移单元)接口经过网板ping通之后,我兴奋地欢呼起来。后来有同事说整个华为大厦都听到了我的尖叫。
因为调测,我对NP的相关寄存器定义了然于胸,硬测的陈冬为此很佩服,夸我说无论什么时候问那上百个寄存器的bit定义,我都能不看手册随口应答。我自己倒没觉得什么,也就是熟能生巧吧,当然那个时候的记忆力也是超强的。
但事情并非一帆风顺。前期的调试都是基于理想场景下的功能调测,进展很快,但接下来的调试,让我真正感受到了做成功产品的不易。其中有一项测试就是拔插网板的主备倒换功能。
我设计了主备倒换流程,通过命令行倒换一切都很正常,但一拔插网板就会导致网板和线卡无法再同步。数百次摸索后还发现不仅是主网板,拔备网板也是如此。这显然无法满足商用的诉求(因为在实际的应用中,核心路由器的高可用性是最重要的特性,自然也存在对单板拔插进行维护的场景)。
反馈给I公司,一时也无法给我们建议,因为我们的调测已经走到了他们的前面。为了找到诱因,我启动了枯燥的拔插单板测试,设计了表格,记录每次单板拔插的表现。系
统满配是16块线卡、2块网板,我需要从大量的寄存器、计数器的蛛丝马迹中尽快找到原因。同时产品也安排王重阳、刘少伟去I公司总部,搭建一套环境同步复现定位问题。当时临近春节,他俩也是二话不说就领命奔赴海外。
不记得到底经过了多少次的拔插——上千次肯定是有的,有时候拔插到怀疑人生:难道我要被这样的问题困住吗?为了尽可能找到根因,按老同事的建议,我将单板接口的关键信号引出到示波器实时监控,拔一次,查一次寄存器,看一次信号。
功夫不负有心人,终于发现故障与接口的时钟锁相环相关。找到这个原因后,我进一步验证。自己设计了一个时钟电路,识别主网板的时钟后同时提供给线卡的主备DASL(数据对齐串行链路)接口,然后再进行主备网板拔插测试。
我把能想到的各种手段都用了,一切验证都OK。一种“为伊消得人憔悴,蓦然回首,那人却在灯火阑珊处”的喜悦袭来,顿感前期的所有苦心坚守都是值得的。
我兴奋地跟老于汇报后,领导们做了一个很“英明”的决定:这是我们宝贵的资产,应申请专利,以构筑自己的技术门槛。我们也因为NP的可编程性成功发布了第五代路由器,在竞争力上,特别是特性灵活性上完胜友商当时的产品。
由于在项目中的贡献,我收获了公司给员工的最高荣誉——2002年度的金牌个人奖。当时觉得,项目组的同事都那么优秀,那么奋斗,却把荣誉给了新来的我,心里很感动。
这一时期,整个公司都面临困难(华为的冬天),一度停止了加薪,一定级别的干部还主动申请降薪。2002年老于跟我沟通年终奖,说我是项目组里高的,大概2000多吧,为此回家被太太打趣。不少人觉得看不到希望,纷纷出走。那个时候好像不走的人是因为不够优秀☹。我也在想,若有月薪10K的机会,也得走了。
现在回忆起来要感谢老于,还有当时的部门经理张志淳,不但给我“画饼”,更重要的是给我压业务担子,让我忙于工作没有更多的时间瞎想,更别说去面试了。
4
当时市场上已经有10G的线卡,市场部直接给老板发邮件和工作联络单,压力一下子到了研发。而I公司也一时没有下一代NP的计划。
为了快速应对市场压力,产品领导陈俊华、危峰决定开发10G接口,让我负责快速推出,实行封闭开发。从立项到团队组成,团队“召之即来,来之能战”,我感受并沉浸在“胜则举杯同庆,败则拼死相救”的团队氛围中。当时底软是瓶颈,我就跟底层黄新宇他们一起学习写代码。
因为这个模块很沉很重,导致有一天硬件的朱倩影拔插模块时把门牙磕坏,因公负伤,我为此一直很歉然。
老叶带领的逻辑团队也很强,几乎没费什么大的周折就调试成功。那真是一段激情燃烧的岁月,一切在大家的密切配合下水到渠成。虽然这个模块最终因为无法10G线速而未能发货,但主要竞争对手还是吃惊于我们能这么快推出10G接口。
那个时候整个硬件部也就20-30人,随着设备上网的增多,维护的工作量也开始加大。也许领导觉得我是“问题克星”,所以让我来负责维护团队。也不知道加了多少班,攻克了多少问题单,如DMU挂死、内存乱序挂死等疑难杂症被我们逐个攻克。
2005年我们获得了金牌团队荣誉,团队成员有汤成、赵守春、吴余粮、宋继潮、周文旻、黄新宇、李彬轩、才军、郭蓥。
这期间我第一次去海外进行比拼测试,NE40的拔插网板测试零丢包把客户都惊呆了。不过在印尼,测试期间发生恐袭爆炸,街对面的我司办事处也一片狼藉:震碎的玻璃如尖刀般四处飞溅插满桌椅,让我对当地至今缺乏好感。
在泰国,深入现场发现导电布脱落导致短路、接口异常,解开了在家里始终不能复现问题、百思不得其解的困惑。每次到一线,服务兄弟对我“人到病除”极表赞佩,自己内心也成就感满满。也是客户教育了我们,问题务必找到根因,才能对网上风险进行有效评估,让我养成了对待质量敬畏谨慎、如履薄冰的态度。
这段时间还经历了产品线的一个事故:ATM(异步传输模式)接口网上大面积异常。运营商网络事故甚至惊动了当地内阁部长。一线面临极大的压力,产品领导去跟客户道歉后直接被“扣留”,我作为问题攻关负责人自然要负责“解救”。
我们成立了攻关组,从南京来的同事以及李山林从无线协调的DSP(数字信号处理)专家,聚在一起献计献策。我几乎吃住在公司。那时候的领导知道为员工承担压力,总是鼓励大家放下包袱。但攻关不是很顺利,一个个可以想到的可疑点都被逐个排除,攻关陷入停滞。
马上到年底,部门都要聚餐;估计山林也急了,在聚餐路上问我们啥时候能搞定。联想到I公司的NP在异常场景下的考虑不足,我就想,印尼是个岛国,多采用微波回传,链路肯定会充满了碎包、异常包。
但硬件测试的兄弟边勇构造了各种异常,包括拔插单板,问题仍然无法复现。不得已,我们启动代码检视工作,从正向查。虽然软件也发现了一些代码的Bug,但仍未找到问题的原因。
我们继续查芯片和逻辑代码。虽然代码检视是非常痛苦的决定,但终于在检视时发现对报文length byte字段定义为0的报文缺乏处理,一旦该字段为0,报文就处理死锁了。
发现了这个隐患,但到底是不是由它引起,还不能百分百确定。于是又请硬测兄弟专门构造这样的报文在测试环境中尝试,果然不出所料,网上的场景终于复现。因为问题重大,我们仍不敢把话说满,期望客户给我们一个机会进行验证。经过验证,确实由此引起,问题得以顺利解决。
这也让我明白,流程不是万能的,最终解决问题的还是人的智慧。流程只能帮助我们不犯以前犯过的错误,但不能保证我们不犯错,所以流程只应该是保障业务成功的工具之一,而不应本末倒置,用流程来包打一切,乃至掩盖问题。
5
可能是因为在解决问题上的突出成绩,领导提拔我做部门的管理者。起初觉得是一种责任担当,义不容辞,几年下来才知自己可能是冲锋陷阵的战士,而不是一个适合的管理者。只可惜领悟得有点晚,在这里也跟硬件部的XDJM(兄弟姐妹)们道个歉。
接手的时候,NE80/NE40逐步稳定下来,但新推出的产品又问题频出。那个时候,我们为每一个芯片的稳定疲于奔命,甚至是帮着厂商进行稳定。
放在平台规划、能力提升方面的精力自然少了,大家都是直接拉到战场上边战斗边学习。有些兄弟姐妹长期处于这样的环境下,可能觉得看不到希望,就离开了。
现在回想起来,在那样艰难的情况下,第一代数通领导陈俊华、柏璐、邓抄军等是可敬的,他们做出了VRP平台化等超前决策与布局,还有接入网过来的李剑亲自操刀NP的自研。从后来的发展情况看,也正是有了这些,数通才得以走向自由之路。
数通的发展经历了很多磨难。不管是核心芯片的获取,业务的剥离,还是与思科的官司,在艰难中总有一批数通人不计得失地默默奉献着,用内心之火照亮着大家,日复一日、月复一月地努力向前。
还记得陈总去香港见供应商A公司的高层,要求解决过孔失效问题,但对方却始终充满了傲慢。无线同样出现了这个问题,求助数通一起攻关。靠供应商靠不住,我们就在系统上想办法,与负责微码的李晓武一起组织兄弟们开创性地设计了Atom微内核的故障在线隔离与恢复,以确保故障时不影响业务。
后来公司从前期摇摆的战略到明确数通要坚持投入,丁耘来到网络。公司急盼数通能走出困境,便从核心网调来了有成功经验的干部查钧、胡克文。
经过多年的摸爬滚打,我们提出了E2E维护的系统五步法,从来料、设计、开发验证、出厂测试、网上梳理出质量保证手段;第一次明确了“硬件不可能100%不坏,坏了不能影响业务,主动运维”等。
那时为了保交付,我有大半年时间蹲在松山湖南方工厂。深圳的兄弟蒲正杰、刘治华、李清平、王金海等也是亲历者。
我们顶住各种压力,第一次在公司推行温巡出厂测试,温箱都是产品线自己买,故障单板也是我们自己修。其实当时很多的芯片批次问题都是这个阶段发现的,有效地避免了批量召回,保障了发货质量。
德国Q运营商的处理至今记忆犹新。Q是数通在西欧的第一个突破点,他们使用了ATM接口,但使用时常出现端口异常,长时间稳定不下来。德国客户对质量要求高,老胡要求我去现场尽快搞定。
去一线后,服务的兄弟抱怨,说我们的产品总不让人省心,这么长时间总是问题不断,需要尽快给客户说明根因并彻底稳定下来。我安抚一线说我来了就一定搞定。后来查老也来了,给大家打气。事后一线的同事告诉我,查老临走时跟他们说:老谢这次搞不定就别回去了,考评打C。
家里前前后后给了好几个版本,但都不能有效根除问题,眼见就进入了死胡同。我一时也回不去,就问家里要了芯片的资料,一条条审视分析。突然发现有个Bug是电源处理,新的版本要求将接地电阻去掉,否则芯片将在不稳定状态下工作。而我们单板是早期设计,按参考设计有这个电阻。
我马上让家里验证。待确认根因就是它后,我又面临一个问题,现网几十块单板,如果等家里发货,一方面是一大笔开销,还有不短的发货周期,根本来不及。兵贵神速,在获得默许后,对单板进行了改制,随着这批单板的上线,困扰Q运营商多年的疑难杂症终于被攻克。客户和一线兄弟都很满意。
6
2013年,外派三年后我回国去了网络技术规划部,负责硬件平台的技术规划。这期间我拉通数通、传送和接入的产品进行了平台化规划,不仅是框式硬件平台,还有主控的底软平台、软转发平台。
我最自豪的是组织无线、采购,以及联合产业伙伴供应商推动了25G 10km、40km在IEEE(802.3cc)的标准化与产业化,至今25GE已经是无线前后传、企业、OTT(互联网业务提供商)的关键速率,年发货量百万件以上。
我也与O公司的Kohichi成为了朋友,每次OFC(光纤通信会议)或ECOC(欧洲光通信会议)相见,他都会把我引荐给他们公司的领导,说是因为我才有了25GE的LR和ER标准。
后来部门主管秦佩峰为了我的发展,向战略规划部的祁峰推荐了我,担任蓝军首席。工作期间得到了祁峰、潘少钦的不少指导,建立了蓝军运作机制来管理不确定性,战略蓝军与技术蓝军相互支撑,将管理落到实处;建立了《网络前哨》平台,激发大家针对战略、技术进行无限制探讨。
有了蓝军专项预算,我们针对TIP(电信基础设施项目)、CORD(重构中心机房为数据中心项目)、软转发、白盒交换机等进行了原型开发与验证,对相关产业风险提供了量化和具体的决策建议。
很感动于那段时间,祁峰总同我们大家一起思考、一起布局、一起面对一个个质疑和挑战,我们也获得了公司最佳蓝军的荣誉。
或许是因为我在蓝军发表了一篇关于DC(数据中心)模块产业话语权建立的战略意义与建议自研的文章,也或许是由于前期在技术规划部的良好合作,2018年谢卫平邀请我去产品管理负责光模块。
当时公司也准备大发展光模块产业,还专门成立了光电SPDT(超级产品开发团队)。因为来自研发,也因为在维护中经历的各种磨难,且受启发于老余在手机的结果,所以我一直认为一个好的产品管理应该是懂得如何做减法、如何做精品,把资源花在创造最大价值上。
我首先明确了以下判断:100G、400G是大代际,要深度构建竞争力,200G是小代际不应深度投入;应将模块看作系统,从系统角度判断架构最简的模块将成为主流,应聚焦重点投入;并从架构和产业角度,首次构建了模块的目标成本模型,使得在成本构建上不再雾里看花。
也许是自身的热爱吧,这段时间工作虽然不太被部门认可,但得到了产品、客户和业界的认可,也多次受邀分享对产业的建议,参与了800G MSA的创建、国家标准项目的启动;第一次亲历从做产业的角度做产品,切实感受到我司的变化。
这一时期立项成就了数通有史以来投资回报率最高的模块,基于专利技术的创新构建了足够的成本优势、产业控制优势。面对客户,我们在没有希望的情况下,把每一次的客户交流都作为机会,稳扎稳打;拉通一线、海思、光电TDT(技术开发团队)随时决策,最终实现了DCN模块的突破。
当然也有遗憾,一直抱有厚望的某光模块没有像期望的那样攻城略地,由此也深知材料工艺相关工作的难度。
不知从何时起,周围的工作氛围有些变了。人们更关注过程而非结果,明哲保身、不求有功但求无过;可以有大量的时间开会务虚却不能及时有效决策,最后结果是什么似已不重要,反正都是按流程走,要怪就只能怪组织还不成熟。
如此,自然在交付最后一公里时免不了更多的协调、沟通。面向客户交付要做成一件事越来越难,PPT竞争力的高谈阔论却越来越多,陷入了低效的循环怪圈。
领导喜悦“高大上”的创新,周围也就围绕着“献宝”之英、论证领导“英明”之士,而安静地专注于把业务搞定的,大概率不会被关注。
7
回想在公司的近22年,我一个农村出身、一无所有而又懵懂不知世事的草根青年,能够在帝都定居安家努力到还不油腻的中年,要感谢公司提供的平台。我想公司还有很多像我这样通过努力读书、勤奋工作改变命运并勇敢承担生命责任的兄弟姐妹。
我也深深领悟了“性格决定命运”。我非可以曲意逢迎、凌下媚上之人,周围一些同事担任管理重任后,为避嫌我可能更有意疏远了。
相比早期会因争执问题与领导吹胡子瞪眼、拍桌子的毛头做派,后期的我虽有改进,但喜欢较真的性格不变。我不知道这种性格若不是在华为会让我怎样,但人生没有假设,一切都是最好的安排吧。
期望大家有好的身体。大概是在2001年,北研全体员工与老板在亚运村五洲大酒店沟通(彼时也是我第一次见老板真人)。老板在答一位员工提问时说了句大实话:“身体是你自己的本钱”。
至今我还受苦于听力受损,不得不戴可编程助听器才能听真切家人日常轻声的讲话。该是源于当初某产品风扇调速未做好,一开机就会有如飞机起飞般的轰鸣。
记得当初在德国合作商的厂房,轰鸣的噪声让厂里工人们惊吓不小。其实当初也没有警觉,长期在实验室受高频噪声的影响而没有采取保护措施,等到发现时已经不可逆。
期望大家保持好的心态。完全的公平是没有的,重要的是找到自己的长处,通过价值呈现(面向客户总是捷径)获取回报和自身的成长,若不适合管理,就安安心心钻研好技术,做个简单率真的人挺好。此心安处是吾乡!
不管怎么说,华为还是一个让我尊敬的职场,周围有很多人品好、有能力、值得钦佩的同事。如今公司处于艰难的环境中,但反者道之动!成千上万华为人的奋斗就是最大的本钱,只要公司主流仍是以客户为中心、敢于战略取舍,没有理由不相信公司会涅槃重生、再创辉煌。