Kirgiz/Kyrgyz Arabic to Cyrillic converter & Kirgiz to English translater

First, I am not Kirgiz. If you find a problem, please be sure to email: lixudong521@foxmail.com.

Second, this converter is only a reference for learning Kirgiz. Please do not use it for academic research.

Converter address:Arabic and Cyrillic converter & Kirgiz translato

柯尔克孜文/吉尔吉斯语 阿拉伯文与西里尔文转换器 柯尔克孜文翻译器

第一,本人并不是柯族,也不是柯语专业的。如果发现问题,请务必邮件:lixudong521@foxmail.com。

第二,这个转换器仅供学习参考,万万不可用于学术研究。

转换器地址:阿拉伯文与西里尔文转换器&柯尔克孜文翻译器

0
Posted in 柯尔克孜语

柯尔克孜文/吉尔吉斯语 阿拉伯文与西里尔文转换器

第一,本人并不是柯族,也不是柯语专业的。如果发现问题,请务必邮件:lixudong521@foxmail.com。

第二,这个转换器仅供学习参考,万万不可用于学术研究。

转换器地址:阿拉伯文与西里尔文转换器&柯尔克孜文翻译器

0
Posted in 柯尔克孜语

周报模板

下载地址(点击下载):
文档下载

0
Posted in 研究

本文内容同个人微信号推送文章:神经情景控制(Neural Episodic Control)

原论文地址:Neural Episodic Control

1 深度强化学习面临的问题

深度强化学习面临的问题——学习速度慢,学习时间长

(1)Stochastic gradient descent optimisation requires the useof small learning rates. (梯度下降需要较小的学习率。)

(2)Environments with a sparse reward signal can be difficultfor a neural network to model as there may be very fewinstances where the reward is non-zero. (极少情况下奖励为非零。)

如果奖励a,b,c为非零奖励,则根据算法要增强每个行为的概率。但是变化前后概率和都为1,因此变化后,有的行为的概率会减小。

(3)Reward signal propagation by value-bootstrapping tech-niques, such as Q-learning, results in reward informationbeing propagated one step at a time through the history ofprevious interactions with the environment. (用价值引导技术进行奖励信号传播。如 Q-学习,这导致每与环境交互一次奖励信息就按先前存储器传播一步。反馈信号传播慢。)

2 神经情景控制——架构


神经情景控制由三个部分组成,分别是一个处理二维图像s的卷积神经网络、一系列存储器模块以及一个将行为存储器读出到值的网络。

神经情景控制,就是一种能够快速吸收新经验基于此采取行动的深度强化学习代理。

3 DND(可微神经字典)


存储模块 Ma=(Ka,Va), hi is the i-th element of the array Ka.

按照键h执行查找输出为o(存储器价值的加权和):

k(x,y) is a kernel between vectors x and y.

不足之处:占用了更多的磁盘空间存储数据

可微神经字典有两种操作:

4 ε-greedy policy(ε贪心策略)

NEC的流程为:

对于每个action都有一个可微神经字典M_{a}

当从环境中接收到State S_{t}和嵌入层参数h后,使用3中的公式计算得到Q(s_{t},a)

之后使用ε-greedy policy来选取action,选取action后获得reward。

ε-greedy policy为:

即有ε的概率随机选择一个action,而有1-ε的概率选择Q值的最大值对应的action。

5 存储器值更新

在4中,选取action获得reward后的流程为:

将键值对(h,{\color{Red} Q^{(N)}(S_{t},a_{t})})存储进可微神经字典里面(N为N-Step Q估计)。并且将(s_{t},a_{t},Q^{(N)}(s_{t},a_{t}))存储进D(D为replay memory)。reply memory为一个经验存储空间,可以用于离线测试数据。

N-step Q估计的计算方法为:

如键值对已经存在,则将其更新;如果不存在就新增键值对。

6 N-step Q估计推导

Q-learning 中两种常用的衡量value的方式,一种MC方式,一种是TD方式。

7 训练模型


D为replay buffer,存储了经验。可以用于离线训练样本。


训练模型的步骤为:

(1)sampled mini-batches from a replay buffer
(2)calculate predicted Q value by NEC.
(3)minimising L2 loss between the predicted Q value for a given action and the Q(N) estimate

即:

8 实现结果

论文提供的结果:

9 总结

0
Posted in 深度学习&强化学习

给定一个n,注意这里n小于10^12,求从i=1到n, n%i之和

import java.math.BigInteger;
import java.util.Scanner;
import java.math.*;

public class Main
{
       public static BigInteger Solve(long n)
       {
           BigInteger ans=BigInteger.ZERO;
           long i,t=(long) Math.sqrt(n*1.0);
           for(i=1L;i<=t;i++)
           {
               BigInteger a=BigInteger.valueOf(n/i+n/(i+1)+1); 
               BigInteger b=BigInteger.valueOf(n/i-n/(i+1));
               BigInteger temp=BigInteger.ZERO;
               if(i!=(n/i))
                   temp= (a.multiply(b)).divide(BigInteger.valueOf(2));
               BigInteger c=BigInteger.valueOf(n/i);
               BigInteger ret=c.add(temp);
               ret=ret.multiply(BigInteger.valueOf(i));
               ans=ans.add(ret);
           }
           return ans;
       }
    
       public static void main(String[] args)
       {
              Scanner cin = new Scanner(System.in);
              while(cin.hasNextLong())
              {
                   long n=cin.nextLong();
                   BigInteger x=BigInteger.valueOf(n);
                   System.out.println((x.multiply(x)).subtract(Solve(n)));
              }
       }
}
0
Posted in ACM