第三节
机器学习工程师和机器学习规划师会互相走近对方吗?

在上一小节之中,我已经叙述了当前的背景。在这样的背景之下,人工智能领域中的机器学习已经进入了幻灭期。对此,我们可以想出各种各样的理由。例如,机器学习这门技术本身就是不好的;速成培养出来的人才其实没有很好地掌握机器学习技术等,诸如此类。

企业在涉足机器学习领域之时,如果不能同时做到技术、人才两手抓的话,那么首先应该确保人才能够走近技术,理解技术。

谁应该最先走近对方?

上文中我曾说到,与机器学习相关联的职业有三种,并且我们已经明确了这三种职业的不同职责。机器学习工程师是负责建机器学习模型的;机器学习规划师则需要负责去考量建什么样的模型才能够给企业带来收益。

如果机器学习规划师和机器学习工程师相遇,那么这两个负责不同板块的人会发生以下对话。当机器学习规划师对有着商业敏感嗅觉的机器学习工程师说“我们现在有这些数据,怎样才能把它们用起来呢?”的时候,机器学习工程师就会回答说:“说到底,那些数据到底是做什么的呢?”或者“用这些数据是要解决什么课题吗?它能够给公司带来多大的投资回报率呢?”

反过来也是如此。负责企划的规划师也要对编程有一些了解,比如“这些数据虽然量很大,但是其实质量并不高,即便建模,想要拿出成果也难。”就像这样,他们就会重新做出其他企划,并选择其中最可行的企划来推进项目。

然而,现实情况却是,这些项目很少有进展顺利的。更多的情况则是,机器学习工程师和机器学习规划师,以及机器学习项目团队当中的人在交流的时候,都在说图1-3那样的“危险语句”。而这些危险语句无疑会招致PoC死这一必然的结局。

在这些危险语句交织的情况之下,整个机器学习项目团队基本都会处于一种模糊的状态,并且无法挣脱出来。例如,“这么做应该挺好的”“要是这样的话就最好不过了”等,这些语句会让周围人都陷入不切实际的幻想之中,从而令项目遇到挫折甚至停摆。

要想避免这一结果,就需要我们避开这些危险语句,积极去做能够拿出成果的机器学习模型。那么在这个时候,机器学习工程师和机器学习规划师应该如何走近对方呢?当然了,这两者一起走近对方是最好不过的。但是如果硬要问哪一方先迈出第一步的话,那么本人认为最好还是由负责企划一方的机器学习规划师率先迈出第一步。

图1-3 诱发PoC死的项目危险语句

考虑到机器学习工程师人才短缺……

由机器学习规划师首先走近对方的理由有两个。第一,机器学习技术没有那么困难。为了打磨好企划而所需要掌握的编程及数学知识,其实难度并没有那么高。的确,如果你的目标是开发出机器学习的新算法等,那么你就必须掌握微积分、行列式、概率统计等知识,而且对机器学习工程师来说,最好还要掌握编程和数学等理工科知识。然而对于一个机器学习规划师来说,如果有人问:“要想打磨好一份企划,需要掌握编程和数学知识吗?”自然不是必须掌握的。在读完本书所讲解的机器学习知识之后,再了解一些深度学习的核心知识及长处、短处就是最好不过了。

第二,如今的工程师,尤其是软件、机器学习的工程师处于供少求多的状态,因此即便他们不走近企划一方,对他们的工作也不会造成任何不便。换言之,考虑到企业内的现实状况,刺激工程师一方主动走近企划一方的诱因少之又少。在公司内部,如果过度要求工程师一方走近企划一方的话,反而会导致工程师跳槽到更加欣赏自己的其他公司里去[8]

应该将“商业投资回报率”纳入视野之内

与哪一方如何走近对方无关,在涉足机器学习之际,最为重要的一个视角就在于“商业投资回报率”。这里所说的回报率视角,与后文中将要叙述的“七个规则”相关联。这七个规则,聚焦在如何令投资回报率最大化之上,是人们整合了各式各样的机器学习项目相关实例后整理出的共同要素。在投资如何获得改善、课题如何才能得到解决、如何能够赚钱等方面,商业投资回报率这一概念是最为重要的。本书将统一采取“投资回报率”这一用词,并且对其进行解释说明。

试想一下,在一个机器学习项目中,分别有一个机器学习规划师和一个机器学习工程师。假设机器学习工程师对商业有着灵敏的嗅觉,当机器学习规划师说“我们这里有这样的数据,但是输入机器学习模型里却不怎么好用”的时候,机器学习工程师就会回答说:“那如果解决了这个问题,预计会带来多大的投资回报率呢?”进而这两人就会展开一番讨论。

反过来也是如此。机器学习工程师会提出假说:“虽说数据成千上万,数量是足够多,但是质量却不太好,投资回报率也是。所以我们应该重新选取数据。”接着双方就开始进行相应的企划。那么这个时候,机器学习规划师就可以与预测出投资回报率的机器学习工程师对话,讨论出需要的必要数据以及最新取得的成果等。

从经济价值的角度去考虑企业的投资回报率

谈及企业的投资回报率,从经济价值的角度来考量的话应该让人更加容易理解。换句话说,投资回报率的基准,就是投资究竟能够给企业贡献多少利润。这个时候就有两种考虑方向。其一,就是通过提高给用户的附加价值的方式来提高销售额;其二,就是通过过程的改善而带来成本的降低。

在机器学习项目当中,如果机器学习模型不通过概念验证这一关的话,我们是无法知道模型的性能究竟如何的。另外,想必所有人都会认为:只要是性能高的,就一定好。但是在性能这一点上,也有着各种各样不同的指标。

在机器学习的情况下,我们可以将我们所希望达到的性能与投资回报率合在一起进行讨论。打个比方,假如通过机器学习模型在大工厂进行机器的故障检测的话,就可以试算出目前的成本可以获得的回报。“如果检测的准确率超过了99.9%的话,其准确程度就相当于超过了人类,就可以完全实现自动化了。这样一来,一年就可以削减100人份的劳动力成本。如果一个人的平均年收入是500万日元的话,那么总共省下来的钱就是5亿日元。因此,即便企业为机器学习模型建模投资5亿日元,也是能做到收支平衡的。”

通过理解投资回报率来加深讨论

我们继续用上面的故障检测的例子来讲解。如果加深了对机器学习的投资回报率的理解的话,企业内部就会进行这样的讨论:“准确率到达99.9%是不可能的,但是达到98%却不是不可能。”“以前做故障检测都需要100个人。现在如果准确率是98%的话,那只要50个人就可以应付了。”

另外,再举个检测产品不合格率的例子。想必真正理解了的人之间会这样边进行实证检测边讨论:“假如近三年内,人们在进行检测的时候,合格产品自然直接通过放行,如果看到异样的产品,检测人员就会把它们挑出来进行二次检测。我们把所设定的性能目标定为98%而不是99.9%。这样一来,我们所需的投资额只要之前的一半,即2.5亿日元即可。”“我们先把准确率设定为90%。总之,我们是希望避免人们看漏不合格产品的情况。为此,我们就需要在机器学习中加入二次检测来降低漏掉不合格产品的概率。即便只是做了这一件事,我们也可以减少客户的投诉,提高产品的满意度。”

然而直到今天,却还是有很多实例表明,不少企业在不考虑投资回报率的情况下,就十分天真地认为:只要用了机器学习,准确率肯定就能达到100%。而且他们在做出这样的判断之后,就开始开展项目。完美的人类是不存在的。同样地,机器学习的准确率也不可能达到100%。真实情况就是,企业在不考虑投资回报率和性能二者之间的关系的情况下,就贸然进行企划、讨论,甚至开始将机器学习模型投入实际应用的话,是无法获得成功的。