admin 管理员组

文章数量: 887021


2024年1月23日发(作者:sqlmodify)

NO.3 2023

SCIENCE & TECHNOLOGY INFORMATIONDOI: 10.16661/.1672-3791.2207-5042-2614

信息与智能基于PS-PDDPG算法的网络路由优化研究陆燕 杨秋芬(湖南开放大学 湖南长沙 410004)摘要: 当前基于深度强化学习算法实现网络路由优化主要面临算法的难以收敛和可扩展性差两个问题。该文在深度强化学习PDDPG算法的基础上,提出了动态权重策略,设置了共享经验回放池,融合共享参数更新了公式,并搭建不同规模的网络实验环境,将深度强化学习优化算法PS-PDDPG应用到网络路由优化中。结果显示,PS-PDDPG算法在不同网络负载均衡环境下,它的网络延时较短且稳定,说明PS-PDDGP算法的收敛速度和可扩展性得到了提升。关键词: PDDPG算法 PS-PDDPG算法 网络路由 深度强化学习中图分类号: TP181文献标识码: A 文章编号: 1672-3791(2023)03-0010-04Survey of Network Routing Optimization Based on PS-PDDPG

AlgorithmLU Yan YANG Qiufen(Hunan Open University, Changsha, Hunan Province, 410004 China)Abstract: At present, network routing optimization based on deep reinforcement learning algorithm is faced with

two problems: difficult convergence and poor scalability. Based on the deep reinforcement learning PDDGP algo‐rithm, this paper proposes a dynamic weight strategy, sets a shared experience playback pool, integrates shared pa‐rameters to update the formula, and builds network experimental environments of different scales to apply PS-PDDPG algorithm of deep reinforcement learning optimization to network routing optimization. The results show

that the PS-PDDPG algorithm has a short and stable network delay under different network load balancing envi‐ronments, indicating that the convergence speed and scalability of PS-PDDGP algorithm have been Words: PDDPG algorithm; PS-PDDPG algorithm; Network routing; Deep reinforcement learning随着网络技术的发展以及互联网的规模逐渐扩大及其应用的不断丰富,通信网络正经历着爆发式的流量增长[1]。研究表明:通过对设备提速扩容来提升网络服务质量的方法已不再适用[2]。近年来,学术界使用了深度强化学习(DRL)技术来生成网络路由的最优路径[3]。基于深度强化学习的网络路由算法通常是有数据驱动的,在一定程度上克服了人工进行流量分析和建模的缺点[4]。但是,已有的深度强化学习网络路由算法存在无法收敛及可扩展性差等问题[5]。对此,该文主要介绍了一种基于多变量分配技术的结构,并将其与优先级深度确定性策略梯度(Prioritized DeepDeterministic Policy Gradient,PDDPG)算法融合,通过Agent间相互共享策略与经验提升算法的收敛速度和算法的可扩展性。1 算法设计目前,基于DRL算法实现的网络路由方案主要面基金项目: 湖南省教育厅科学研究项目“基于Actor-Critic框架的DDPG算法优化研究”(项目编号:21C1186);湖南省职业院校教育教学改革研究项目“基于深度学习的高职课堂教学评价研究”(项目编号:ZJGB2021189);湖南省自然科学基金项目“基于AdaBoost的哈欠检测算法研究”(项目编号:2021JJ60038)。作者简介: 陆燕(1982—),女,硕士,副教授,研究方向为网络安全、人工智能。10科技资讯SCIENCE & TECHNOLOGY INFORMATIONCopyright©博看网. All Rights Reserved.

信息与智能

2023 NO.3

SCIENCE & TECHNOLOGY INFORMATION科技资讯图1 PS-DDPG算法框架临两个问题。(1)难以收敛。当网络负载呈指数增长扩展。该项目的共享优先经验回放池技术有助于提升时,高输出维数使得深度强化学习算法无法收敛[6]。训练效率,参数共享技术有助于提升算法可扩展性,从当网络负载流量呈指数级增长,过高的输出维度使得而使得PS-PDDPG算法适用于大规模动态变化的网络深度强化学习算法出现无法收敛的情况。(2)可扩展性差。目前,基于DRL算法的网络路由方案通常需要控制网络中所有目标元素单元(链路或数据流)。随着网络负载和流量的增加,这种控制方法将导致DRL输出动作空间过大,容易出现数据交换成本增加以及网络传输延时增长,影响了算法的可扩展性。为解决当前DRL算法的两个问题,该文对算法进行了设计。1.1 DRL学习机制和基于KDN的路由框架[7]路由优化场景。(1)利用基于注意力的经验回放优化算法,实现使智能体能有选择性地存储和利用训练样本,提升PS-DDPG算法的训练效率。为了提高样本的采集效率,该项目设计两个经验回放池,一个为普通的经验回放池,另一个为高奖励经验回放池。当回合结束时,将进程缓存器中的交互经验累积起来,计算该回合对应的累积奖励值,然后将其与历史最大的回合累积奖励值该文使用深度强化学习算法来控制和操作网络,进行对比,如果大于历史最大的回合累积奖励值,则将并展示了知识定义网络(KDN)功能平面的三层结构:该回合交互轨迹存入高回报经验回放池中。在智能体数据平面、责任存储以及转发和处理数据包。控制平面(CP)负责监控网络流量,并分发流表规则和顶级知识平面(KP)。在KP中的Agent(DRL Agent)用于利用底部发送的有效网络信息生成有效的网络策略,从而找到当前网络流量状态下的链路权重信息,将其发送到控制平面,使用路径规划模块生成路由流表,并将其更新到拓扑交换机以实现KDN全局实时网络控制。同时,KP中有动作离散化模块和状态预处理模块这两个模块,分别用于KP接收数据平面信息的状态优化和分发数据平面的动作优化。该文使用当前网络流量来构造符合当前网络流量状态的链路权重,并预先处理原始信息以生成代理的先验知识增强神经网络中动作状态的潜在相关性。神经网络在初始权重上继续学习,以降低学习难度,从而根据流量状态对路由策略采取行动,降低梯度向错误策略参数更新的概率,提高算法的收敛速度。1.2 参数共享的优先深度确定性策略梯度算法该文基于参数共享的优先级深度确定性策略梯度(PS-PDDPG)算法是PDDPG方法在多Agent系统中的与环境进行交互并采集存储交互经验时,同时从两个经验回放池中采样训练样本,对动作网络和策略网络进行更新,如图1所示。该文将注意力机制的应用范围从对神经网络特征的调制优化拓展到模型输入,利用注意力机制对训练样本进行筛选,在不同的训练阶段,根据模型的训练状态,选择适合当前学习的训练样本,提升强化学习算法的样本效率,降低对于数据的依赖。其中,动作网络用于策略学习,对于给定环境状态依据策略输出执行的动作,从而评判网络用于拟合动作、状态和回报值之间的关系,从而在训练中对动作网络的输出进行监督,实现策略学习。该项目初步提出基于注意力机制的经验回放算法,首先定义policy是以θ={θ1θN}为参数的N个Agent之间的博弈,将所有Agent策略的集合设为π={π1πN},则期望奖励的梯度为公式(1)。ÑθJθi=ESPi()u

aiπi[Ñθlogπi(ai|oi)Qπ(1)i(sa1aN)]i经过引入注意力机制的经验回放优化后,损失函数的定义为公式(2)。科技资讯SCIENCE & TECHNOLOGY INFORMATION11Copyright©博看网. All Rights Reserved.

NO.3 2023

SCIENCE & TECHNOLOGY INFORMATION

信息与智能图2 PS-DDPG算法的智能体策略学习过程图3 PS-PDDPG算法的训练与执行框架tttìy=risa+γmaxQuiSaiaxïï

íêQuïLεi=Esarsésaiax-yïëiît()()t((()))|a=u(o)tjtjj2PS-PDDPG算法的集中式训练和分布式执行框架如图3所示,在各阶段步t,各智能个体根据当地观测ont和经过训练的控制系统μÆont和控制系统的控制(2)ùú

û()(2)融合共享参数可以增强算法的可扩展性。系统Æ*来实现决策,而无需评判系统。在PS-PDDPG

PDDPG算法采用了评判器系统的结构,由评判器系统算法中所有智能体共享参数,可获得其他智能体的经的状态和行为作为输入,输出的标量函数估计用于判断当前的策略;执行程序Actor网络是以状态作为输入的,而输出持续的行为则是基于评判器网络估算的价值来进行战略升级。为了提高PDDGP算法的可扩展性,引入Target-Actor网络和Target-Critic网络。训练前,Target-Actor与Actor以及Target-Critic与Critic的网络结构和共享参数完全相同,如图2所示。因为各代理的观察测量o、动作a和奖励r设定是相同的,因此各代理n在周期内t与周围的情境相互作用产生了一种体验单元ontantrntont+1φntεntφnt+1εnt+1,智能体N的多智能体联合Q值函数可近似为Qθo1toNta1taNt»Qθontantφntεnt(3)12科技资讯SCIENCE & TECHNOLOGY INFORMATION验,该方法可以帮助智能主体在不进行选择的情况下,迅速地发现最佳的网络路由策略,从而提高了系统的可扩展性。2 实验2.1 部署不同网络负载均衡实验场景,以验证算法性能的整体有效性深度强化学习路由算法的整体有效性在现有网络架构下难以大规模部署。因此,该文利用智慧校园网络和实验实训机房软硬件资源,尝试自主组建大规模网络环境,并改变网络负载均衡,在不同网络负载的网络场景下验证DDPG算法和PS-PDDPG算法的收敛速度和可扩展性,由此来验证基于PS-PDDPG算法的整()()()Copyright©博看网. All Rights Reserved.

信息与智能

2023 NO.3

SCIENCE & TECHNOLOGY INFORMATION科技资讯图4 不同网络负载下的算法性能测试体有效性。2.2 实验结果该实验使用网络流量构建符合两种不同规模网络流量状态的链路权重,使用两种不同方法,让Agent在网络负载均衡分别为25%和75%的两种环境中学习网络路由最优策略,最终获得最短网络延时。通过实验发现PDDPG算法的训练曲线增长缓慢,表明Agent在网络负载均衡为25%和75%两种环境中的随训练步数增加时,网络延时降低速率较慢。但PS-PDDPG算法的训练曲线在整个学习和训练阶段不断增加,网络延时快速降低,且较早稳定。但是,在训练初期阶段,由于没有从行为选择模型中学习到有效的行为选择策略,代理累积的内外奖赏并不能帮助寻找最佳的网路路径。PS-PDDPG算法在训练过程中逐步获得一种较好的抽样策略,从而使PS-PDDPG算法在最大程3.2 设置共享经验回放池根据奖励值对训练样本进行分类,分别放入高奖励经验回放池或者普通奖励经验回放池。不同的训练阶段,根据模型的训练状态,选择适合当前学习的训练样本,提升深度强化学习算法的训练效率。3.3 融合共享参数更新公式利用参数分享技术,使各主体分享同一策略的参数,并利用各主体在与周围环境的互动中获得的经验,从而减少了算法的复杂性。帮助学习者进行高效的学习,执行高奖励策略,解决深度强化学习的普遍问题,并提升算法的可扩展性。参考文献[1]孟泠宇,郭秉礼,杨雯,等.基于深度强化学习的网络路由优化方法[J].系统工程与电子技术,2022,44(7):2311-2318.度上达到了很好的稳定性,比PDDPG算法要好得多。[2]高敬鹏,胡欣瑜,江志烨.改进DDPG无人机航迹规划算法[J].计算机工程与应用,2022,58(8):264-272.研究结果显示,该PS-PDDPG算法能够有效地减少在复杂的网络环境中学习路由优化策略的困难,从而使代理更好地掌握路由优化策略。优化后的PS-PDDPG算法在收敛速度和可扩展性方面优于其他深度强化学习算法。[3]张斌,何明,陈希亮,等.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270.[4]王万良,陈浩立,李国庆,等.基于深度强化学习的多配送中心车辆路径规划[J].控制与决策,2022,37(8):2101-2109.[5]叶宇剑,袁泉,汤奕,等.抑制柔性负荷过响应的微网分散式调控参数优化[J].中国电机工程学报,2022,42(5):1748-1760.[6]张金宏,王兴伟,易波,等.面向主干网的网络级绿色节能机制[J].软件学报,2020,31(9):2926-2943.[7]邓清唐,胡丹尔,蔡田田,等.基于多智能体深度强化学习的配电网无功优化策略[J].电工电能新技术,2022,41(2):10-20.3 结论对于高维度和大规模网络的路由优化,对原有的DDPG算法进行了改进和改进,从而得到了增强的PS-PDDPG算法,它更适合解决网络路由优化问题。3.1 提出动态权重策略使用当前网络流量根据当前网络流量状态构建链路权重,预先两次处理原始信息以生成智能体积的先验知识可以增强网络中动作状态的潜在相关性,提高算法的收敛速度。科技资讯SCIENCE & TECHNOLOGY INFORMATION13Copyright©博看网. All Rights Reserved.


本文标签: 网络 算法 学习 策略 路由