Paper reading:Intelligent Laser Welding through Representation, Prediction, and Control Learning: An Architecture with Deep Neural Networks and Reinforcement Learning

paper 的地址:Intelligent Laser Welding through Representation, Prediction, and Control Learning: An Architecture with Deep Neural Networks and Reinforcement Learning

中文翻译:通过表达、预测、控制学习实现智能的激光焊接:一个基于深度学习和强化学习的架构

1 简介

这篇 paper 主要是教机器学会焊接。

如上图,焊接的质量是分质量好质量坏的。上图是质量好的焊接,右图是质量不好的焊接。其中,质量的好坏是通过焊接的平整度来区分的。

目的: 实现智能激光焊接系统的快速建立和焊接系统的灵活性。

成果: 一个自学习和自提升的激光焊接系统。

关键的技术:
(1)使用深度学习来提取特征
(2)使用强化学习来预测和控制

2 算法的架构

该算法主要包括 3 个部分。

(1)表达
基于深度学习算法,对传感器数据进行降维,提取出重要的特征。

(2)预测
基于时间差分法的强化学习对焊接过程进行预测,建立知识库模型

(3)控制
根据强化学习的预测结果,选择 value 最大的 action,进行相应的动作。

2.1 表达

(1)数据的采集
传感器为工业相机和光电二极管。由于获取的数据是多维度的和多模态的,很那直接应用于控制算法,因此将原始的数据转换到低维的数据空间中。

(2)业界常用的方法
主成分分析、线性离散化分析、深度自编码技术。

(3)作者的方法
作者使用了 深度学习+自编码技术,能够有效的防止过拟合,鲁棒性更强。
为了证明作者说的这些优点,论文之后将深度自编码技术与主成分分析的方法进行了对比,通过数据表明深度自编码技术具有更好的效果。

2.1.1 表达——深度自编码提取特征

作者的模型就是我们常见的自编码模型。如下图所示。

分为编码和解码两部分。图中的 x 层输入数据,h5 层是提取的特征,之后进行解码,y 层是重建后的数据。

通过将解码的数据(对应于图中的 y 层)与原始的数据(对应于图中的 x 层)进行比较,计算 loss 值,训练神经网络。

这个 loss 值是重构的误差。具体的 loss 构建方法,这里不作概述,一般是均方误差。

2.1.2 表达——训练神经网路的小 tip

作者在训练神经网路的时候,使用了一个小 tip:Greedy layer-wise pre-training

如上图所示。

首先,作者训练了一个传统的自编码神经网络(图 a)。训练好这个网络后,保留编码器部分的权值(图 b)。保留好 W1 部分的权值后,增加一层隐藏层 h2(图 c),训练 h1 到 y 之间的神经网络,训练好后,仍旧保留编码器部分的权值(即保留 w2,图 d)。依次循环步骤 c 和步骤 d,直到建立完整的神经网络。

最后,输入数据,对整个神经网络进行训练,对参数进行微调。

总之,作者的思路是依次单独训练每一层,然后再对整个神经网络进行训练。

2.1.3 表达——深度学习训练结果 1

文中,从不同的角度和不同的距离下的 16000 张激光焊接图像进行训练。分别采取了不同维度的特征向量:4 维、8 维、16 维、32 维、64 维。将文中的算法与 PCA 算法进行了对比试验。最后,利用 SVM 算法进行了分类。

从表中可以看到,深度自编码在 16 维特征的时候,具有更小的分类误差率。而且,相比于 PCA 方法,效果更好。

2.1.4 表达——深度学习训练结果 2

(1)为了更好将特征进行可视化,依次将 16 维特征向量的当前位置置 1,其他的置 0。之后利用解码器进行解码,得到了上图的原始图像和 DNN 特征。

(2)从山图可以看出,算法很好的重建了原始的焊缝图像,重构误差很小。

2.2 预测

(1)目的
通过焊接的动作、过程和焊接的质量,建立知识库模型,从而实现对焊接的未来动作进行预测。

(2)常见的方法
系统模型、查找表等。这些方法的精确度不高,算法的鲁棒性差。同时,目前的预测学习主要是基于线性的模型,不能够很好的适应于非线性系统。

(3)作者的方法
采用基于时间差分法的强化学习进行预测。能够很好的适应实时和多时间尺度问题。

时间差分法是强化学习中的一种常用的方法。如果不是很清楚这种方法,可以查看哔哩哔哩网站的李宏毅老师的强化学习课程。

2.2.1 预测——强化学习预测

如上图,通过输入焊接的动作、过程和焊接的质量,建立一个知识库(即图中的经验池)。通俗的来讲,经验池里存储了当前状态当前动作下,可能的焊接质量。比如,A 状态下,焊点向右移动,焊接质量会增加。这个焊接的质量是之前的“表达”部分来评估出来的。即通过深度自编码提取出来的特征来评估焊接的质量。

有了经验池后,当前状态下,便可以通过查询经验池,获得下一步最佳的动作。从而能够预测未来焊接的动作。

2.2.2 预测——强化学习预测结果

如图,是预测部分的结果。绿色的线或红色的线表示实际的焊接质量。蓝色的线表示预测的焊接质量。

图 1:训练过程中的预测结果。可以看到,预测结果和实验结果很吻合。

图 2:在未知的过程中,一次迭代训练的结果。可以看出,预测的结果与实际的曲线基本一致。但是系统预测的误差比较大。

图 3:在未知的过程中,模型训练收敛之后的预测结果。可以看到图 3 比图 2 更好地完成了未知过程的预测。

图 4:在未知的过程中,时间差分法的预测结果。

从图 4 可以看到,时间差分法中,预测的焊接质量和真实的焊接质量是基本吻合的,而且误差比较小。

图 4 比图 1 的误差比较大,是因为图 1 是在训练样本上得出的结果。而图 4 中包含了未训练的样本。实际的应用场景中会有很多的未训练过的样本。

2.3 控制

(1)目的
对焊接的动作和过程进行控制。

(2)常用的方法
PID 控制、自适应控制、模糊控制。这些方法的缺点是比较耗时,算法不能很好的解决条件变化,鲁棒性比较差。

(3)作者的方法
使用 AC(执行者—评价者)的强化学习算法,根据评价者学习的策略来执行动作。可以适应多变的场景。

在 2.2 节说到,在经验池已经存储了“经验”。因此,在提取出传感器数据的特征数据后,系统可以根据当前的特征数据和“经验池”中的数据,来计算机一条最优的策略(焊接动作的策略)。从而实现质量好的焊接。AC 模型是主要内容就是,评论者会评价当前不同策略的好坏,提出一条最优的策略,然后执行者来执行这条策略。

3 实验的整体结果

文中利用 ANSYS 仿真软件做了激光焊接的仿真实验,验证了强化学习控制算法的有效性。

上图:焊接电源、奖励、测量误差等参数的变化结果
(a)高斯分布均值
(b)高斯分布方差
(c)激光强度
(d)奖励
(e)焊接深度
(f)焊接的方差

关键是看 d 图、e 图、f 图。可以看到,焊接的奖励逐渐增加,焊接的深度也增加,而焊接的方法逐渐减小。说明这个系统是可以工作的。

4 总结

(1)提出了一个新的焊接自学习架构。该结构能够实现焊接过程的观察、知识系统的建立和焊接过程的控制。

(2)关键的技术是将深度学习和强化学习融入到了激光的焊接过程中。

(3)该架构和算法可以应用于其他的应用场景。

0

Leave a Reply

Your email address will not be published.