序言 FOREWORD

从“一板成功”到硬件故障排查

“一板成功”!初次听到这个词是在刚刚入行时,这是一位前辈的标签。笔者和这位前辈没有技术层面的交流,仅有的接触是给他送过一张单板。印象深刻的是,他戴上防静电手套,先触摸了墙边的暖气片后,才小心地打开包装……以致多年以来,笔者但凡接触到“有良好静电保护意识”的硬件工程师,都会留下“训练有素”的印象。

第二次在脑海中留下印记的是一次面试,略显锋芒的面试官喜欢问一些刺激神经的问题,其中便有:“如何做到一板成功”?并补充道,“摆在你面前的事情很清楚,一板成功是考评优秀,两板是良好,三板勉强合格,再做就该走人了……”。

在此之前,笔者没有仔细思考过这个问题。现在再来回答这个问题时,已经有了一个框架的认识,再整理便成了今天序言的一部分。

1.“一板成功”之我见

“一板成功”这个词中的“一”字过于引人注目,从而成了优质产品的“标签”“奖章”。时过境迁,笔者对“一”字的理解不同于以往,如今更关注“成功”。

到底何为“成功”?硬件设计的成功应该是阶段性战术意图的达成,不同的硬件项目或硬件产品存在要求差异,阶段性的目标也不同。例如下述情形。

(1)无参考案例的原型设计。

原型设计几乎没有供参考的相关设计案例,如新的核心芯片组,新的架构……这种原型设计的阶段性目标是实现需求定义的功能,此时“成功”可以定义为硬件平台能够支持固件和软件工程师开展工作、实现单板需求。

在计算机主板上,最低目标是CPU和主存组成的最小系统能够良好运行,启动(Boot)代码能够顺利加载,操作系统(OS,Operation System)能够运行,这样整个项目的人员都可以开展工作。如果因为硬件设计或芯片自身的问题,个别I/O外设功能未能实现,还有很多方法可以弥补,但是如果系统启动失败,所有的验证工作将很难开展。

这里需要用合理的成本(时间、物料和生产流程等)来保证功能验证的开展这个基本面。基本面不保,何谈成功,至于“一板”与否,以成本合理为标准。

(2)量产产品的测试验证阶段。

产品在生命周期内一般生产几万片甚至更大数量,硬件平台有可供参考的案例,或是开发板,或是类似项目。那么此时“一板”的目标除了满足功能需求以外,还需要具备小批量试制(产),并导入测试的硬件条件。电源与信号完整性、系统集成测试、稳定性与可靠性测试等工作可以在此平台上开展,反馈的问题可以在此平台进行解决或优化(解bug),为量产版本打下基础。对此类产品,单纯地追求“一(板)”是不现实的。

综上所述,“一板成功”不能脱离阶段性战术意图的目标。识别主次,辩证地看清“成功”是对“一板”的有力支撑,并做到有重点地进行设计。

而不论何种项目,故障排查几乎贯穿电子信息设备的全生命周期。“成功”与“故障排查”是紧密绑定的。

2.本书要说的重点——硬件故障排查

目前最庞大的故障案例分析和故障排查资料是以“复盘报告”“技术分享”“质量报告”“归零文档”等形式存在于各企业的防火墙之后,形成企业的“积累”和工程技术人员的“经验”。由于行业背景的差异、企业优势和特长的不同、工程项目的独立性等原因,没有形成解决问题的“通解、通法”及故障排查的方法论。事实上,防火墙后的文档质量也参差不齐。

除了上述文档中所涉及的专业知识,我们更关注硬件电子产品的故障如何被发现,怎样解决,为何发生,能否避免(如同学生时代,查看一道题目的答案可以学习知识,目标是学会解题思路,这是同样的道理),所以需要将这些硬件电路与系统领域的“报告”“案例”进行抽象,形成方法。本书开篇谈方法论——硬件故障排查的方法论,接着再谈故障排查之阵眼——现象复现,并认识故障表象与本质的差异,从而捕捉故障的根本原因,这需要客观的思维。进一步用案例去践行这些方法,即知行合一。

接下来的几章涉及时钟、电源、复位。一方面是呼应硬件故障排查方法论之“三板斧”;另一方面其中的案例涉及时钟、电源、复位启动多个角度,体会方法至简,应用“不可胜穷”的要义。并在“不可胜穷”的案例中,解释案例的用处是什么。为什么如此鼓励亲临一线操作、实践?因为硬件工程师要理解实践中的“执行力”,硬件电子技术的故障排查是在实践中不断探索和趋近本源的科学。

除了在项目案例中践行方法,电子科学与技术是一套完备的知识体系,脱离知识而空谈方法,无异于镜中花、水中月,所以本书将进一步论述“MOS管和逻辑器件”“总线”“高速电路”等设备以及“测试、测量技术”。

最后再次提升认识,思考设计中如何提升质量、控制风险,这与在故障排查过程中正视故障、解决问题是一种思想的两种表述方式。

说明:文中需扫码阅读的请扫此付费二维码。