分类
外汇交易技术分析

基于强化学习的自动交易系统研究与发展综述

摘要: 深度强化学习是人工智能领域新兴技术之一, 它将深度学习强大的特征提取能力与强化学习的决策能力相结合, 实现从感知输入到决策输出的端到端框架, 具有较强的学习能力且应用广泛. 然而, 已有研究表明深度强化学习存在安全漏洞, 容易受到对抗样本攻击. 为提高深度强化学习的鲁棒性、实现系统的安全应用, 本文针对已有的研究工作, 较全面地综述了深度强化学习方法、对抗攻击、防御方法与安全性分析, 并总结深度强化学习安全领域存在的开放问题以及未来发展的趋势, 旨在为从事相关安全研究与工程应用提供基础.

基于值函数和策略梯度的深度强化学习综述 被引量:52

摘要 作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望. As a hot research problem in the field of artificial intelligence, Deep Reinforcement Learning (DRL) has attracted more and more attention since it was proposed. At present, DRL can solve many problems that were previously difficult to solve such as learning how to play video games directly from raw pixels and learning a control strategy for robot problems. DRL builds an autonomous system with a higher level understanding of the visual world by a continous optimization of the control strategy. Among them, DRL based on value function and policy gradient is the core basic method and research focus. This paper systematically elaborates and summarizes two types of DRL methods including 基于强化学习的自动交易系统研究与发展综述 solving algorithms and network structures. Firstly, DRL methods based on value function are summarized, including Deep Q - Network (DQN) and improved methods based on DQN. DQN is a pioneering work in the field of DRL. This model trains Convolutional Neural Network (CNN) with a variety of Q learning. Before the emergence of DQN, the problem of instability or even non-convergence will appear when the action value function in Reinforcement Learning (RL) is approximated by neural network. To solve this problem, DQN uses two technologies: the experience replay mechanism and the target network. According 基于强化学习的自动交易系统研究与发展综述 to different emphasis on DQN improvement, various improved versions based on DQN can be divided into four categories: improvement of training algorithm, improvement of neural network structure, improvement of introduction of new learning mechanism and improvement based on new proposed RL algorithm. The 基于强化学习的自动交易系统研究与发展综述 research motivation, overall thinking, advantages and disadvantages, application scope and performance of DQN improvement are elaborated in detail. Then the concept and common algorithms of policy gradient are 基于强化学习的自动交易系统研究与发展综述 introduced. Policy gradient algorithm is widely used for RL problems in continuous space. Its main idea is to parameterize the policy, calculate the policy gradient about the action and the 基于强化学习的自动交易系统研究与发展综述 action is adjusted continuously along the direc

作者 刘建伟 高峰 罗雄麟 LIU Jian-Wei;GAO Feng;LUO Xiong-Lin(Department of Automation,China University of Petroleum, Beijing 102249)

关键词 深度学习 强化学习 深度强化学习 值函数 策略梯度 机器学习 deep learning reinforcement learning deep reinforcement learning value function policy gradient machine learning

Server Error in '/kcms' Application.

Description: HTTP 404. The resource you are looking for (or one of its dependencies) could have been removed, had its name changed, or is temporarily unavailable. Please review the following URL and make sure that it is spelled correctly.

综述+线结构光中心提取算法研究发展

综述|线结构光中心提取算法研究发展 点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 摘 要 : 线结构光扫描是三维重建领域的关键技术。光条纹中心提取算法是决定线结构光三维重建精度以及光条纹轮廓定位准确性.

?基于强化学习的自动交易系统研究与发展综述

?基于强化学习的自动交易系统研究与发展综述 作者 |梁天新 编辑 |DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) 近年来,强化学习在电子游戏、棋类、决策控制领域取得了巨大进展,也带动着金融交易系统的迅速发展,金融交.

光测力学-栅线投影/面结构光技术

光测力学-栅线投影/面结构光技术 点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:琉璃犀 https://zhuanlan.zhihu.com/p/146841284 本文仅做学术分享,如有侵权,请联系删除。 本文主要介绍了栅线投影方法的基本原理-.

算法简介从插画中提取线稿

算法简介:从插画中提取线稿 版权声明: 未经同意,禁止转载。 (更新时间:2020-10-02) | 个人笔记,仅供参考。 关键词: 基于高通滤波的线稿提取算法,基于深度学习的线稿提取模型 本文属于: 动漫线稿自动上色-系列论文.

【智能驾驶】基于计算机视觉的自动驾驶算法研究综述

深度学习加速综述算法编译器体系结构与硬件设计

深度学习加速综述:算法、编译器、体系结构与硬件设计 深度学习加速综述:算法、编译器、体系结构与硬件设计 概述 一、算法顶层 1.1 大规模分布式机器学习 1.2 优化算法 1.3(轻量级)高效的神经网络结构 1.4 神经网络架构.

浅谈数据中心网络结构的发展历程

浅谈数据中心网络结构的发展历程 传统数据中心的网络架构 数据中心计算网络主要由大量的二层接入设备与少量的三层设备组成的网络结构,是传统上标准的三层结构: 1、接入层,用于连接所有的计算节点,在目前的数据中.

综述 | 图像特征提取与匹配技术

综述 | 图像特征提取与匹配技术 关注“ 机器学习与生成对抗网络 ”, 设为星标,第一时间获取更多干货 作者:william 链接:https://zhuanlan.zhihu.com/p/133301967 文仅分享,侵删 特征提取和匹配是许多计算机视觉应用中的一个重要任.

老年轻度认知障碍的筛查评估工具研究进展综述认知障碍研究进展

老年轻度认知障碍的筛查评估工具研究进展综述认知障碍研究进展

范文大全-www.tqwba.com 进展jnzhǎn[proceed] 向前发展在他的主管下,城市建设 进展 得很迅速下面是跳墙网为大家带来的老年轻度认知障碍的筛查评估工具研究进展综述认知障碍研究进展,希望能帮助到大家! 老年轻度认知障碍的筛查.

有用的线框图和原型制作工具–综述

有用的线框图和原型制作工具–综述 从年轻人到老年人,全球化的观念以不断的创造力和想象力冲击着世界。 从创造力在营销,线框设计和原型制作领域中创造机会这一事实来看,它肯定在列表中。 这些工具不仅可以使您的网.

导航系统中里程计研究综述

导航系统中里程计研究综述 文章:A Survey on Odometry for Autonomous Navigation Systems 作者:SHERIF A. S. MOHAMED , MOHAMMAD-HASHEM HAGHBAYAN, TOMI WESTERLUND 翻译:particle 论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。.

群体智能集群机器人研究综述

群体智能集群机器人研究综述 阅读论文—《集群机器人研究综述_王伟嘉》 自然界中的生物群体通过个体自主决策和简单信息交互, 经过演化, 最终使整个群体宏观上涌现出自组织性、协作性、稳定性及对环境的适应性. 群体智能.

太赫兹被动光频梳研究获进展

知识图谱可视化应用研究现状文献综述

知识图谱可视化应用研究现状文献综述 信息检索课写的一篇文献综述,这里记录一下,或许以后研究会用到 文章目录 摘要 关键词 Abstract Key words 引言 知识图谱概念 知识图谱可视化的构建流程及关键技术 1. 数据来源与处理 结.

智能网联汽车发展综述

智能网联汽车发展综述 一.思维导图 本次学习了清华大学李克强教授的一篇综述,下面为这次总结的思维导图。 二.参考文献 [1]边明远,李克强.以智能网联汽车为载体的汽车战略顶层设计[J].中国工程科学,2018,20(01):52-58.