论文阅读:Rewriting a Deep Generative Model

论文链接:Rewriting a Deep Generative Model 0.摘要 关于GAN等生成网络是如何编码规则和更改规则的,目前尚不清楚。该文章提出一个新的思想:操纵已编码的深度生成模型规则。 论文提出了一些公式来操作深层网络的线性联想记忆(LAM),从而实现操纵规则目的。 论文做了三个工作: – 提出算法。提出了一种修改关联记忆的算法,并证明了可行。 – 提供用户界面。使用户能够交互使用模型。 – 结果对比。在论文方法和其他方法之间进行结果对比。结果显示论文方法具有优势。 1.介绍 我们对模型进行了重写,其目的是添加,删除和更改预训练的深度网络的语义和物理规则。当前的图片编辑工具能够实现对单个输入图像的操作,但是我们的方法能够通过编辑生成模型中的规则来合成无数的新图像。 例如在图1中,我们应用一系列规则更改来编辑一个预先训练在LSUN教堂场景上的StyleGANv2模型。第一个改变去除水印文本模式(a);第二种增加了建筑物前的人群(b);第三个规则用绘制树梢的规则代替了绘制塔顶的规则(c)。创造了一个从塔上长出树木的神奇场景。因为每一次改变都改变了生成模型,每一次改变都构建了一个完整的图像类别,去掉了模型的所有水印,将人安排在多种建筑前,在塔顶创建树木。所示的图像是来自无穷分布的样本。 图1:重写生成器的权重以更改生成规则。 可以将规则更改为:(a)删除水印等图案;(b)加入诸如人等对象;或(c)更换定义,例如使树木从塔中长出来。我们的方法无需编辑单个图像,而是编辑生成器,因此可以使用更改后的规则合成和处理一组无限的图像。

Read More

导航机器人的基础架构

paper:Mobile Manipulation in Unstructured Environments 先上图: 对于导航相关项目来说,主要是三个部分:导航、目标检测和环境互动。 对于导航来说,一般是使用激光雷达传感器,而对于目标检测和环境互动来说,一般是使用三维相机(3D 相机)。三维相机可以检测距离。 对于一个导航机器人系统,主要有以下方面。 (1)硬件:主要是用于环境感知和目标检测的传感器。比如激光雷达传感器、深度相机等。 (2)映射与导航:3D 地图生成、激光雷达数据(3D 点云)、ROS 导航、强化学习。 (3)目标检测与映射:3D 点云、神经网络检测(Yolov3 等)、强化学习。 (4)稠密重建。 (5)路径规划。

Read More

Paper reading:Intelligent Laser Welding through Representation, Prediction, and Control Learning: An Architecture with Deep Neural Networks and Reinforcement Learning

paper 的地址:Intelligent Laser Welding through Representation, Prediction, and Control Learning: An Architecture with Deep Neural Networks and Reinforcement Learning 中文翻译:通过表达、预测、控制学习实现智能的激光焊接:一个基于深度学习和强化学习的架构

Read More

Neural Episodic Control(神经情景控制)

本文内容同个人微信号推送文章:神经情景控制(Neural Episodic Control) 原论文地址:Neural Episodic Control 1 深度强化学习面临的问题 深度强化学习面临的问题——学习速度慢,学习时间长 (1)Stochastic gradient descent optimisation requires the useof small learning rates. (梯度下降需要较小的学习率。)

Read More

Classic Convolutional Neural Networks (经典卷积神经网络)——LeNet-5、AlexNet、VGGNet、InceptionNet、ResNet

查看个人微信号推送文章:经典卷积神经网络(Classic Convolutional Neural Networks) 简介 介绍了几种经典的卷积神经网络,分别为: LeNet-5(1998)、AlexNet(2012)、VGGNet(2014)、InceptionNet(2014)和ResNet(2015)。 LeNet-5(1998) LeNet-5是Yann LeCun在1998年提出的卷积神经网络算法,最初用于解决手写识别的问题。 LeNet-5的网络结构 LeNet-5的网络结构如下图所示: LeNet-5网络由7层组成。每层有多个特征图(Feature Map),每个特征图通过一种卷积滤波器提取输入的一种特征。每个特征图有多个神经元。 输入:输入为32*32的灰度图像。即输入为一个2维度的矩阵。 Layer1卷积层:6个大小为5*5的卷积核,步长为1。因此输出为28*28*6。需要训练的参数个数为:5*5*6+6=156,每个卷积核大小为5*5,共有6个卷积核,最后加上6个偏置项。 Layer2池化层(降采样层):2*2的池化层,使用平均池化方法,步长为2。因此输出为14*14*6。采样的方式为将4个输入相加,乘以一个可训练的参数,再加上一个可训练的偏置项,结果通过sigmoid函数(与平常熟知的平均池化不同)。需要训练的参数个数为:2*6=12个。 Layer3卷积层:16个大小为5*5的卷积核,步长为1。因此输出为10*10*16。在这一层中,输入为Layer2中所有6个或者几个特征的map组合。在该层中,前6个特征图以Layer2中3个相邻的特征图子集为输入,接下来的6个特征图以Layer2中4个相邻特征图的子集作为输入。然后的3个以不相邻的4个特征图子集作为输入,最后一个将Layer2中所有的特征图作为输入。下图说明了从Layer2的6个特征图得到Layer3的16个特征图的过程: 图中,最左边的0-5为Layer2的6个特征图,最上边的0-15为Layer3的6个特征图。Layer3的前6个特征图(0-5)与Layer2层相连的3个特征图相连接。之后的6个特征图与Layer2中相连的4个特征图相连接,后面的3个特征图与Layer2中不相连的4个特征相连接,最后一个与Layer2中所有特征连接。而输出的图像大小仍旧为10*10。 因此,需要训练的参数个数为:6*(3*5*5+1)+6*(4*5*5+1)+3*(4*5*5+1)+1*(6*5*5+1)=1516

Read More

经典卷积神经网络——AlexNet

本文内容同个人微信号推送文章:经典卷积神经网络(Classic Convolutional Neural Networks) AlexNet(2012) AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的起学生Alex Krizhevsky设计的卷积神经网络。在比赛中取得了top-5错误率为15.3%的成绩。 AlexNet的网络结构 AlexNet的网络结构如下图所示: AlexNet网络由8层组成,5层卷积层和3层全连接层。每层卷积层后面都有池化层。 输入:ImageNet数据集。训练集包含120万张图片,验证集包含5万张图片,测试集包含15万张图片。这些图片分为了1000个类别。 AlexNet有以下特点: 特点1:ReLU(Rectified Linear Unit) Nonlinearity AlexNet使用了Relu激活,并验证了其效果在较深的网络超过了Sigmoid激活函数。Sigmoid函数在网络较深的时候会出现梯度弥散问题。 Sigmoid函数: 当时用sigmoid函数作为激活函数时,随着网络层数的增加(隐藏层),训练误差反而会增大。靠近输出层的隐含层梯度较大,参数更新速度快,很快就会收敛;靠近输入层的隐含层梯度较小,参数更新速度慢,几乎和初始状态一样;在含有四个隐藏层的网络中,第一层比第四层满了可能会接近100倍,即出现梯度弥散现象。 sigmoid函数的导数:

Read More

经典卷积神经网络——VGGNet

本文内容同个人微信号推送文章:经典卷积神经网络(Classic Convolutional Neural Networks) VGGNet(2014) VGGNet是牛津大学计算机视觉组(University of Oxford)和Google DeepMind与204年提出的卷积神经网络。VGGNet通过反复的堆叠33的小型卷积核和22的最大池化层,构建了16-19层深的卷积神经网络。其取得了ILSVRC 2014比赛分类项目的第2名和定位项目的第1名。 VGGNet的网络结构 VGGNet的网络结构图如下图所示: 特点1:The Use of 1×1 and 3×3 Filters(Reduce the

Read More

经典卷积神经网络——LeNet-5

本文内容同个人微信号推送文章:经典卷积神经网络(Classic Convolutional Neural Networks) LeNet-5(1998) LeNet-5是Yann LeCun在1998年提出的卷积神经网络算法,最初用于解决手写识别的问题。 LeNet-5的网络结构 LeNet-5的网络结构如下图所示: LeNet-5网络由7层组成。每层有多个特征图(Feature Map),每个特征图通过一种卷积滤波器提取输入的一种特征。每个特征图有多个神经元。 输入:输入为32*32的灰度图像。即输入为一个2维度的矩阵。 Layer1卷积层:6个大小为5*5的卷积核,步长为1。因此输出为28*28*6。需要训练的参数个数为:5*5*6+6=156,每个卷积核大小为5*5,共有6个卷积核,最后加上6个偏置项。 Layer2池化层(降采样层):2*2的池化层,使用平均池化方法,步长为2。因此输出为14*14*6。采样的方式为将4个输入相加,乘以一个可训练的参数,再加上一个可训练的偏置项,结果通过sigmoid函数(与平常熟知的平均池化不同)。需要训练的参数个数为:2*6=12个。 Layer3卷积层:16个大小为5*5的卷积核,步长为1。因此输出为10*10*16。在这一层中,输入为Layer2中所有6个或者几个特征的map组合。在该层中,前6个特征图以Layer2中3个相邻的特征图子集为输入,接下来的6个特征图以Layer2中4个相邻特征图的子集作为输入。然后的3个以不相邻的4个特征图子集作为输入,最后一个将Layer2中所有的特征图作为输入。下图说明了从Layer2的6个特征图得到Layer3的16个特征图的过程: 图中,最左边的0-5为Layer2的6个特征图,最上边的0-15为Layer3的6个特征图。Layer3的前6个特征图(0-5)与Layer2层相连的3个特征图相连接。之后的6个特征图与Layer2中相连的4个特征图相连接,后面的3个特征图与Layer2中不相连的4个特征相连接,最后一个与Layer2中所有特征连接。而输出的图像大小仍旧为10*10。 因此,需要训练的参数个数为:6*(3*5*5+1)+6*(4*5*5+1)+3*(4*5*5+1)+1*(6*5*5+1)=1516 Layer4池化层(降采样层):2*2的池化层,使用平均池化方法,步长为2。因此输出为5*5*16。采样的方式为将4个输入相加,乘以一个可训练的参数,再加上一个可训练的偏置项,结果通过sigmoid函数(与平常熟知的平均池化不同)。需要训练的参数个数为:2*16=32。 Layer5卷积层(全连接层的输入层):将Layer4的16个单元特征输入,卷积核的大小为5*5,卷积核的个数为120个。输出为1*1*120。即120个卷积结果。需要训练的参数个数为(5*5*16+1)*120=48120。该层将作为全连接层的输入层。 Layer6全连接层:该层有84个神经元。计算输入向量与权重向量之间的点积,再加上一个偏置,结果通过sigmoid函数输出。可训练的参数个数为(120+1)*84=10164。

Read More

经典卷积神经网络——InceptionNet

本文内容同个人微信号推送文章:经典卷积神经网络(Classic Convolutional Neural Networks) InceptionNet在2014的GoogleNet比赛中取得了第一名,与VGG同年。由Google提出。 InceptionNet V1 InceptionNet V1网络的结构为: 该网络有9个Inception module线性叠加,深度为22层(包括池化层为27层)。 特点1:Inception Module 在同一级别上运行多种尺寸过滤器。因为在不同的图片中,信息位置的大小的变化的,例如有的信息占据图片很大空间,而有的信息占据图片很小空间。因此选择一个合适大小的卷积核很困难。大的卷积核有利于提取全局信息,而小的卷积核有利于提取局部信息。 其解决方案就是Inception模块,对输入使用3中大小不同的滤波器(1*1,3*3,5*5)进行卷积操作,使得网络可以提取到“稀疏”和“不稀疏”的特征,增加了网络深度的同时增加了网络对尺度的适应性。还进行了最大池化。输出连接到下一个Inception模块(如下图所示)。 为了降低计算成本,对Inception module进行了改进。在3*3和5*5的卷积之前加入额外的1*1的卷积来限制输入通道的数量,同时增加网络深度。输入通道数量的减少能够使得计算量减少(如下图所示)。 use 1×1 and

Read More

VAE(Variational Autoencoder)变分自编码器

本文内容同个人微信号推送文章:变分自编码器 VAE(Variational Autoencoder) 0.Autoencoders 自动编码器 自动编码器是一种数据压缩的方法。并且是一种有损压缩的方法。 (1)encoder(编码):输入一幅图像,经过神经网络对数据提取特征(对数据进行降维,降维到一个编码)。 (2)decoder(解码):通过神经网络进行解码。 (3)loss(损失值):比较原始图像和解码图像的相似度,最小化它们之间的差异。即在训练模型的时候,要逐步减小重构图像和原始图像的平均平方误差。 1. Variational autoencoders 变分自编码器 在自动编码器中,模型将输入数据映射到一个低维的向量(map it into a fixed vector)。 在变分自编码器中,模型将输入的数据映射到一个分布(map

Read More

卷积神经网络+卷积神经网络的反向传播(Back Propagation in Convolutional Neural Networks)

本文内容同个人微信号推送文章:卷积神经网络的反向传播 1 卷积神经网络(Convolutional Neural Networks) 卷积神经网络是一种前馈神经网络,其由一个或者多个卷积层和全连接层组成,同时包含关联权重和池化层。 1.1 卷积神经网络的流程 The whole of CNN (1)Input Matrix:卷积神经网络一般用于处理图形,其输入是图像的像素值数组。因此输入为矩阵。 (2)Convolution+Pooling:之后对矩阵做卷积运算和池化运算。这个过程可以重复很多步。 (3)Fully Connected Feedforward network:卷积或者池化操作后的结果送入全连接层,全连接层将结果输出。 具体流程为:

Read More