1.4 技术路线及创新点

1.4.1 技术路线

本书在深度学习、强化学习、深度强化学习以及其他相关技术的基础上解决车间生产调度问题,技术路线如图1.3所示。

图1.3 技术路线图

1.4.2 创新点

在新一代人工智能技术迅速发展的背景下,深度强化学习等方法在车间生产调度问题上的应用还有待深入研究,本书研究的出发点是将相关技术和方法用于求解流水车间调度、作业车间调度、多目标车间调度和分布式车间调度等问题,力争在以新一代人工智能技术求解生产调度等组合优化问题上做一些工作。结合几种生产调度问题的实际情形,分析完善了深度学习、强化学习、深度强化学习方法在生产调度问题中应用的理论依据和可行性,在实验的基础上较好地找到了方法与问题的结合点,以深度强化学习方法为主线,其他相关技术为补充,取得了丰硕的研究成果,在理论和方法上做了一些创新工作。本书的主要创新点如下:

设计了以基于值函数的深度强化学习方法求解车间调度问题的模型。首先,改进了两种基于监督学习的序列模型用于求解作业车间调度问题,以长短期记忆网络为主框架,基于自注意力和多头自注意力机制的序列模型,构建了深层编码组件和解码组件,同时嵌入指针网络和条件随机场的问题模型,将工件的工序位置理解为以一定的概率存在于某个位置,设计了深度神经网络逼近值函数的方法。其次,在强化学习框架下分析调度问题的底层特征,将启发式规则用于强化学习动作构建,通过深度学习框架将当前状态映射为最佳调度规则,将车间调度问题映射到强化学习模型并加以解决,为基于值函数逼近的强化学习算法求解类似问题提供了参考。

提出了一种将基于策略梯度的深度强化学习算法用于求解车间调度问题的场景。设计了一种基于长短期记忆网络的深度序列模型,结合指针网络提高工序位置指向的准确性,将工序排列空间中不同工序序列的差异作为奖励信号,采用策略迭代的深度强化学习算法进行问题求解。实验结果表明,基于策略梯度的深度强化学习算法具有解决作业车间调度问题的能力,所设计的模型在解决此类问题时具有可行性和有效性。

设计了基于混合Q-learning的多目标车间调度问题算法。结合强化学习算法、带精英策略的非支配排序遗传算法和蚁群算法,对带精英策略的非支配排序遗传算法的交叉和变异机制进行改进,加入基于N5邻域结构的局部搜索策略,设计了新的算法并进行多目标问题求解。在Pareto解的基础上针对能耗目标进一步优化,设计了强化学习遗传蚁群算法并进行求解,拓宽了强化学习算法的应用场景。

提出了一种基于NASH-Q-learning的分布式车间调度问题算法。在分布式流水车间调度问题背景下,深入分析了多智能体强化学习方法,在NASH均衡和NASH-Q-learning理论框架下,结合平均场理论提出了多智能体车间调度算法。通过与改进的迭代贪婪算法进行对比,验证了深度强化学习方法在求解分布式车间调度问题时的有效性,且通过实验证明了该算法也适用于规模较大的分布式生产调度问题。