华泰金工 | SAM:提高AI量化模子的泛化性能
发布日期:2024-10-19 17:53 点击次数:56炒股就看金麒麟分析师研报,巨擘,专科,实时,全面,助您挖掘后劲主题契机!
本磋商先容一种低本钱、高通用性的正则化方法——Sharpness Aware Minimization(SAM),从优化器的角度提高模子的泛化性能。在GRU基线模子的基础上,接管传统优化器AdamW、SAM优化器过甚四种鼎新版块进行对照施行。覆没标明应用SAM优化器能显贵提高模子预计因子的多头端收益,且基于各种SAM模子构建的指数增强组合功绩均显贵优于基线模子。其中,GSAM模子在三组指数增强组合上均获得雅致发达,沪深300、中证500和中证1000增强组合年化逾额收益分歧为10.9%、15.1%和23.1%,信息比率分歧为1.87、2.26和3.12,显贵优于基线模子,而ASAM模子2024年发达凸起,三组指数增强组合逾额收益均早先基线模子约5pct。
中枢不雅点]article_adlist-->东说念主工智能84:应用SAM优化器提高AI量化模子的泛化性能
本磋商先容一种低本钱、高通用性的正则化方法——Sharpness Aware Minimization(SAM),从优化器的角度提高模子的泛化性能。在GRU基线模子的基础上,接管传统优化器AdamW、SAM优化器过甚四种鼎新版块进行对照施行。覆没标明应用SAM优化器能显贵提高模子预计因子的多头端收益,且基于各种SAM模子构建的指数增强组合功绩均显贵优于基线模子。其中,GSAM模子在三组指数增强组合上均获得雅致发达,而ASAM模子2024年发达凸起。
SAM优化器通过追求“平坦极小值”,增强模子鲁棒性
SGD、Adam等传统优化器进行梯度下落时仅以最小化亏蚀函数值为目的,易落入“粗暴极小值”,导致模子对输入数据散播明锐度高,泛化性能较差。SAM优化器将亏蚀函数的平坦度加入优化目的,不仅最小化亏蚀函数值,同期最小化模子权重心隔壁亏蚀函数的变化幅度,使优化后模子权重处于一个平坦的极小值处,增多了模子的鲁棒性。基于SAM优化器,ASAM、GSAM等鼎新算法被连续提议,从参数行径自顺应性、扰动所在的准确性等方面进一步增强了SAM优化器的性能。
SAM优化器能镌汰教师过程中的过拟合,提高模子的泛化性能
SAM优化器想象初志是使模子教师时在权重空间中找到一条缓慢的旅途进行梯度下落,改善模子权重空间的平坦度。可通过不雅察模子教师过程中评价谈论的变化趋势以及亏蚀函数地形图对其进行考证。从评价谈论的变化趋势分析,SAM模子在考证集上IC、IR谈论下落幅度较缓,教师过程中评价谈论最大值均高于基线模子;从亏蚀函数地形分析,SAM模子在教师集上亏蚀函数地形相较基线模子愈加平坦,测试集上亏蚀函数值合座更低。概括两者,SAM优化器能灵验扼制教师过程中的过拟合,提高模子的泛化性能。
SAM优化器能显贵提高AI量化模子发达
本磋商基于GRU模子,对比AdamW优化器与各种SAM优化器模子发达。从预计因子发达看,SAM优化器能提高因子多头收益;从指数增强组合功绩看,SAM模子过甚鼎新版块模子在三组指数增强组合功绩均显贵优于基线模子。2016-12-30至2024-09-30内,概括发达最好模子为GSAM模子,单因子回测TOP层年化收益高于31%,沪深300、中证500和中证1000增强组合年化逾额收益分歧为10.9%、15.1%和23.1%,信息比率分歧为1.87、2.26和3.12,显贵优于基线模子。2024年以来ASAM模子发达凸起,三组指数增强组合逾额收益均早先基线模子约5 pct。
正 文]article_adlist-->01 导读
提高泛化性能是增强AI量化模子发达的枢纽。对AI量化模子应用允洽的正则化方法,不错进一步“强化”模子,提高其泛化性能,让量化战略的发达更进一步。正则化方法的目的为结合模子捕捉数据背后的普遍法例,而不是单纯地牵记数据样本,从而提高模子的泛化性能。正则化方法种类繁密,其通过校正亏蚀函数或优化器、顽抗教师、扩凑数据集、集成模子等妙技,使模子教师过程愈加镇定,幸免模子对教师数据的过拟合。
本磋商先容一种低本钱、高通用性的正则化方法Sharpness Aware Minimization(SAM),从优化器的角度提高模子的泛化性能。该方法对传统优化器梯度下落的算法进行鼎新,提议了鲁棒性更强的SAM优化器,通过寻找权重空间内的“平坦极小值”,使模子不仅在教师集上发达雅致,且在样本外雷同发达褂讪。SAM优化器提议后,学术界连续迭代出了各种鼎新的SAM优化器,从不同角度进一步增强SAM优化器的发达。
本磋商在GRU模子的基础上应用SAM优化器过甚各种鼎新版块进行施行,覆没标明:
SAM优化器相较于传统优化器在模子教师过程中考证集上过拟合速率镌汰,且亏蚀函数曲面平坦度提高,展现出更强的泛化性能;
SAM优化器过甚鼎新版块教师模子预计因子2016-12-30至2024-09-30内多头组年化收益31.4%,相较于等权基准信息比率4.0,比拟基线模子提高显贵;
应用SAM优化器过甚鼎新版块教师模子构建指数增强组合,相较于GRU基线模子提高显贵,沪深300、中证500、中证1000指数增强组合逾额收益提高在1-2 pct;
对比各SAM优化器教师模子发达,回测全区间内GSAM模子预计因子谈论及指增组合功绩谈论发达较好,ASAM模子2024年以来发达凸起。
02SAM优化器与模子泛化性能
正则化方法
正则化方法(regularization)旨在使模子变得“更通俗”,注重过拟合。机器学习中的一个枢纽挑战是让模子卤莽准确预计未见过的数据,而不单是是在熟悉的教师数据上发达雅致,即镌汰模子的泛化错误。正则化的目的是饱读舞模子学习数据中的宽广模式,而不单是记取数据自己。正则化方法通过各种妙技,使教师后的模子处于最好情状,在教师数据和测试数据上获得雷同雅致的发达。
正则化方法的形势各种。其中狭义的正则化时常指显式正则化方法,即在亏蚀函数中显式添加一个刑事包袱项或照顾,镌汰模子的复杂性,典型的显式正则化项包括L1、L2正则化;而广义的正则化时常指隐式正则化,其含义较为宽广,在当代机器学习方法中无处不在,包括早停、Dropout、数据增强、去极值、多任务学习、模子集成等,险些统统勤奋于增强模子泛化性能的方法齐可归于此类。
传统优化器过甚局限性
深度学习规模中,优化器的采取关于模子教师的遵循和最终性能至关蹙迫。在繁密优化算法中,当场梯度下落(SGD)过甚变体是最为基础且宽广使用的优化方法之一。SGD通过逐次或批量更新权重来最小化亏蚀函数,尽管通俗灵验,但其学习率的采取和震荡问题是主要局限。为了克服这些问题,Adagrad、RMSprop以及Adam等优化器被连续提议,灵验提高了SGD优化器适用性和性能。下表汇总了深度学习中常用的传统优化器的脾气和局限性。
除了以上汇总的优纰谬,传统的优化器比拟本文先容的SAM优化器还有一个共同的局限:传统优化器时常只接洽最小化教师集上的亏蚀函数,可能堕入“粗暴极小值”,这些极小值点处诚然教师亏蚀较低,但往往会导致过拟合怡悦,即模子对教师数据过度拟合而泛化性能较差。比拟之下,SAM优化算法卤莽克服这些局限性,在教师时寻找“平坦极小值”,这些极小值不仅在教师集上发达出较低的亏蚀,何况在测试集上也具有较好的泛化性能。
Sharpness Aware Minimization
Sharpness Aware Minimization(SAM)方法最初由Google Research团队Foret等东说念主(2021)提议。该方法的起点为对模子进行优化时,不仅但愿优化后的模子权重所处位置亏蚀函数较小,同期还但愿该位置在模子权重空间中亏蚀函数的“地形”较为平坦。由此扩充出三个问题:什么是亏蚀函数“地形”?为什么平坦的极值点处模子的泛化性能较优?奈何追求平坦的极值点?
什么是亏蚀函数“地形”?
亏蚀函数地形即亏蚀函数值与模子参数之间的变化关系。在优化问题中,亏蚀函数可看作以模子参数为自变量的函数,用公式露出即
。关于神经网罗这类具有无数参数的模子,自变量为一个高维向量。若不合模子参数进行降维处理,则亏蚀函数地形为高维空间中的一个曲面,曲面上的每一个点代表一组自变量取值时的亏蚀函数值。
由于高维空间亏蚀函数曲面难以可视化,四肢磋商对象不够直不雅,因此时常可对模子参数降维,通过简化后的低维空间进行可视化和清醒。例如来说,假设模子中唯唯独个可变参数,则此时亏蚀函数地形即退化为一维的亏蚀函数弧线;雷同假设从高维模子参数中索求两个主要重量四肢模子参数,即可将亏蚀函数与参数之间的变化关系用二维曲面进行露出,这亦然最为常见的作念法。
为什么平坦的极值点处模子的泛化性能较优?
以一维亏蚀函数弧线为例进行讲解。下图展示了两个口头不同的极值点,其中左边的极值点较为“平坦”,即亏蚀函数跟着模子参数的变化较小,而右边“粗暴”的极值点则相背。若模子教师完成后处于右边的“粗暴”极值点,诚然其在教师数据上的亏蚀函数值较小,但当模子在测试数据上进行骨子预计时,由于测试数据与教师数据之间散播的偏差,预计覆没将会产生较大错误。而若模子教师完成后处于左边的“平坦”极值点,则测试数据与教师数据的偏差给模子预计带来的影响就相对轻细。
奈何追求平坦的极值点?
SAM优化器通过两次梯度下落,微调梯度下落的所在来寻找权重空间中较为平坦的极值点。具体作念法为:将传统的优化器的优化目的从优化一个权重心位置处的亏蚀函数改为优化这个点以过甚扰动范围内全部点亏蚀函数的最大值。用公式抒发即:
其中]article_adlist-->代表优化的目的函数,]article_adlist-->代表模子权重,而]article_adlist-->则代表权重心]article_adlist-->隔壁的一个轻细扰动值,]article_adlist-->为截止该扰动值大小的超参数。
而某权重心扰动范围内亏蚀函数最大值的位置其实是已知的。惯例优化算法梯度下落时沿着该权重心处亏蚀函数的负梯度方上前进,可使亏蚀函数最速下落。因此,亏蚀函数最大值的位置的所在即亏蚀函数的正梯度所在。在该权重心处沿着亏蚀函数正梯度方上前进一小步的位置即扰动范围内亏蚀函数最大值处。用公式抒发即:
其中,]article_adlist-->
为亏蚀函数]article_adlist-->在]article_adlist-->处的梯度,而分母中的
则露出该梯度张量的二阶模。
露出的便是亏蚀函数高潮最快的扰动所在,
将]article_adlist-->
代入中并求梯度,经过泰勒张开及近似,就不错得到SAM优化算法在教师时每一步骨子更新的梯度:
即在SAM算法中,
每一次梯度下落时用亏蚀函数]article_adlist-->在
处的梯度更新点处的模子权重
。]article_adlist-->SAM优化器算法经由暗示图和伪代码如下图所示。
SAM优化器的鼎新
SAM优化器还是提议即在学术界引起了宽广眷注。SAM优化器通过松懈灵验的算法逻辑增强了模子的泛化性能,但雷同也存在多方面的鼎新空间。好多鼎新版块的SAM优化器被连续提议,汇总如下:
对SAM优化器的鼎新主要分为两个所在,分歧注目优化SAM优化器的性能和遵循。关于应用于量化选股的AI模子而言,优化器的泛化性能才是最终决定模子预计后果的因素,因此优化器的遵循相较于其性能并不枢纽。接下来简要先容着眼于鼎新性能的几种鼎新SAM优化器。
ASAM
Adaptive Sharpness Aware Minimization(ASAM)由Kwon等(2021)提议。ASAM优化器相较于SAM优化器的鼎新访佛于Adagrad优化器相较于SGD优化器的鼎新,区别在于后者支柱学习率大小以顺应神经网罗中不同参数的行径,而前者支柱权重空间内扰动半径以顺应神经网罗中不同参数的行径。ASAM优化器引入了自顺应扰动半径的宗旨,在诡计权重空间内扰动半径时接洽到各参数的行径,因此通过该方法诡计得到的SAM优化旅途与各参数自己的行径无关,贬责了SAM中锐度界说的明锐性问题,提高了模子的泛化性能。
GSAM
Surrogate Gap Guided Sharpness Aware Minimization(GSAM)由Zhuang等(2022)提议。该磋商发现扰动后亏蚀与扰动前亏蚀之差(即surrogate gap)更能准确权衡模子权重空间极小值处亏蚀地形的平坦度。由此进一步推导出GSAM优化器的梯度更新方法:第一步访佛于SAM,通过梯度下落最小化扰动亏蚀;第二步则在骨子更新权重时早先将扰动前梯度在扰动后梯度方朝上投影得到垂直重量,接着将扰动后梯度与该垂直所在重量相加得到最终梯度下落的所在,更新模子权重。
GAM
Gradient Norm Aware Minimization(GAM)由Zhang等(2023)提议。本磋商发现,应用SAM方法往昔日因为小区域内存在多个极值点的情形导致“误判”:即使在小扰动半径内亏蚀函数波动额外剧烈,但因为扰动后参数点的亏蚀函数与扰动前差距较小而以为在该扰动范围内亏蚀函数是“平坦”的。因此,GAM方法通过同期优化扰动半径内的零阶平坦度(亏蚀函数平坦度)以及一阶平坦度(梯度平坦度)幸免了该种“误判”。
FSAM
Friendly Sharpness Aware Minimization(FSAM)由Li等(2024)提议。磋商发现SAM优化器的扰动所在不错被剖判为全梯度重量和仅与每个小批量预计的当场梯度噪声重量,且前者对泛化性能的有显贵的负面影响。FSAM优化器通过指数迁徙平均(EMA)臆想扰动所在中的全梯度重量,并将其从扰动向量中剥离,仅利用当场梯度噪声重量四肢扰动向量,告捷减少了全梯度因素对泛化性能的负面影响,从而提高了模子的泛化性能。
03施行方法
基线模子
本磋商基于端到端的GRU量价因子挖掘模子测试SAM优化器的鼎新后果。基线模子的构建方法如下图,分歧使用两个GRU模子从日K线和周K线中索求特征得到预计值,四肢单因子,再将两个单因子等权合成得到最终的预计信号。GRU模子的构建细节可参考《神经网罗多频率因子挖掘模子》(2023-05-11),本文不作念张开。
基线模子输入数据细节及教师超参数树立如下表:
SAM优化器
SAM优化器的凸起脾气即适用性强,并吞种SAM优化器卤莽封装各种不同的基础优化器,而无需对模子教师的经由进行大范围的修改。本磋商将SAM优化器应用于基线模子,GRU的网罗结构及超参数均不作念更动,仅更动模子教师时使用的优化器。其中,SAM优化器过甚4种鼎新版块均录取AdamW四肢基础优化器,优化器的学习率、动量和权重衰减等超参数均不作念支柱。5组对比施行接管的SAM优化器过甚独到参数取值汇总如下。
04 施行覆没
本磋商在GRU基线模子的基础上,保捏模子结构、数据集不变,更动教师使用的优化器共进行6组对比施行。以下分歧从模子教师时的箝制性、亏蚀函数地形、模子预计因子发达和基于模子构建指数增强组合功绩等方面展示施行覆没。
模子箝制性
模子教师过程中亏蚀函数和评价谈论在考证集上发达的变化趋势是模子泛化性能最直不雅的体现。若教师时跟着Epoch增多,考证集的评价谈论骤然提高后速即下落,则讲解模子过拟合严重,泛化性能欠安;反之,若考证集的评价谈论跟着Epoch增多镇定提高,则讲解模子泛化性能较好。
本摘抄取疏通种子点、疏通数据集下的基线模子与SAM模子,对比教师过程中两者在考证集上IC、IR等谈论的变化趋势。
覆没标明,基线模子与SAM模子在考证集上IC、IR谈论变化趋势均为先高潮后下落,但相较而言,SAM模子下落幅度较缓,且教师过程中谈论最大值均高于基线模子,解释SAM优化器灵验扼制了过拟合,提高了模子的泛化性能。
亏蚀函数地形
SAM优化器想象初志是使模子教师时在权重空间中找到一条缓慢的旅途进行梯度下落,即每次权重更新时亏蚀函数不剧烈变化,最终在权重空间中停留在一个平坦的极值点处。因此,本节尝试对模子权重空间上的亏蚀函数进行可视化,以熟悉SAM优化器的应用后果。
轮回神经网罗的权重时常包含更仆难尽的参数,以GRU为例,输入时序维度为30、掩盖层维度为64、特征数为6、层数为2的网罗共包含40000多个权重参数,每次梯度下落时,优化器同期对统统参数迭代更新。因此,可视化一个数万维度权重空间上的亏蚀函数值并非易事。常见的贬责方法为通过PCA、t-SNE等工夫将高维空间的权重降维至二维或三维,从而绘画一幅亏蚀函数“地形图”。
本磋商接管PCA方法,绘画亏蚀函数“地形图”,具体门径如下:
录取教师轨迹上考证集最优权重四肢原点;
对教师轨迹上的统统权重向量愚弄主因素分析,从中索求出两个主因素向量,分歧四肢二维图像的两个轴所在;
生成一组二维冲突点阵四肢图像每个像素点的坐标,并对每个坐标点对应的神经网罗权重在给定数据集上使用全部样本进行一次推理,诡计亏蚀函数值,四肢该点的像素值。该门径完成后即可绘画出一张二维的亏蚀函数地形图像;
将模子教师时每个Epoch的模子权重投影至该二维平面,终了模子教师轨迹的可视化。
依据该方法,本文录取基线模子与SAM模子,在疏通数据集和疏通的当场数种子点的前提下,分歧绘画亏蚀函数地形图。绘画时对两组施行分歧录取主因素轴,并接管疏通的亏蚀函数等高线和疏通的像素分辨率,分歧绘画教师集和测试集上的亏蚀函数地形,覆没如下:
对比以上遣发放现:
两组施行的第一主因素轴均达到80%傍边的方差孝顺率,且两个主因素轴的累计孝顺率均超越了90%,讲解两幅亏蚀函数曲面图均能很好的反应教师轨迹一说念亏蚀函数的变化趋势;
教师集上基线模子亏蚀函数地形图等高线较为密集,而SAM模子亏蚀函数地形图等高线较为寥落且散播均匀,讲解SAM优化器能灵验改善亏蚀地形的平坦度,合适预期;
SAM模子在测试集上的亏蚀函数地形与基线模子比拟合座亏蚀函数值较低,其中SAM模子早停处亏蚀函数值小于-0.17,而基线模子早停处亏蚀函数值大于-0.16,讲解SAM模子泛化错误较小,即在教师数据与测试数据上发达雷同雅致,灵验扼制了过拟合。
因子发达
针对6组施行,分歧测试模子预计因子发达。单因子测试的细节如下:
测试覆没如下,可得出如下论断:
SAM模子与基线模子预计因子RankIC及RankICIR发达接近,标明将传统优化器改为SAM优化器并未显贵提高模子预计因子的RankIC发达;
5组SAM模子TOP组收益率均高于基线模子,其中GAM、GSAM、FSAM组提高较为昭彰,FSAM模子发达最好。解释应用SAM优化器能灵验改善预计因子多头端预计准确性,提高多头组发达;
几组施行预计因子分层后果均较为优异,多头端收益5组SAM优化器模子普遍高于基线模子。
指数增强组合发达
将以上6组施行得到的预计因子应用于组合优化,分歧构建沪深300、中证500及中证1000指数增强组合。组合优化及回测细节如下。
沪深300增强组合
基于6组施行预计因子构建的沪深300指数增强组合回测覆没如下。测试覆没标明,SAM模子及4个鼎新模子年化逾额收益及信息比率相较于基线模子均有褂讪提高。其中GSAM模子发达最好,年化逾额收益、信息比率、逾额收益Calmar比率及胜率在几组施行中均名按序一。
中证500增强组合
基于6组施行预计因子构建的中证500指数增强组合回测覆没如下。测试论断与沪深300访佛,GSAM模子年化逾额最高为15.1%,FSAM模子信息比率最高为2.29。另外,除了GAM模子外,其余模子在回撤截止和月度胜率方面相较于基线模子也雷同具有上风。
中证1000增强组合
基于6组施行预计因子构建的中证1000指数增强组合回测覆没如下。测试覆没标明,SAM优化器模子在年化逾额收益和信息比率谈论上相对基线模子均有昭彰上风,可将年化逾额收益提高2%,信息比率提高0.2傍边。其中从逾额收益及信息比率角度看发达最好的模子为ASAM,可将年化逾额收益从21.4%提高至24.6%,信息比率从2.87提高至3.25。
2024年功绩发达
统计各指增组合2024年以来功绩发达如下。分析发现,各指增组合在2024年9月末的大幅波动下逾额收益均迎来显贵回撤。但SAM模子过甚鼎新模子相对基线模子均具有褂讪上风。其中ASAM模子在2024年发达凸起,三组指增功绩均名按序一,且逾额收益早先基线模子约5%。
05 回来
本磋商先容一种低本钱、高通用性的正则化方法Sharpness Aware Minimization(SAM),从优化器的角度提高模子的泛化性能。本文早先综述各种正则化方法在改善模子泛化性能中的蹙迫性,其次分析SAM优化器相较于传统优化器的鼎新过甚旨趣,接着先容学术界对SAM优化器的进一步鼎新,临了以端到端的GRU量价因子挖掘模子四肢基线模子,更动教师模子使用的优化器进行实证。覆没标明应用SAM优化器能灵验扼制模子过拟合,显贵提高模子预计因子的多头端收益,且基于各SAM模子构建的指数增强组合功绩均显贵优于基线模子。
提高泛化性能是增强AI量化模子发达的枢纽。对AI量化模子应用允洽的正则化方法,不错进一步“强化”模子,提高其泛化性能,让量化战略的发达更进一步。正则化方法的目的为结合模子捕捉数据背后的普遍法例,而不是单纯地牵记数据样本,从而提高模子的泛化性能。正则化方法种类繁密,其通过校正亏蚀函数或优化器、顽抗教师、扩凑数据集、集成模子等妙技,使模子教师过程愈加镇定,幸免模子对教师数据的过拟合。
SAM优化器通过追求“平坦极小值”,增强模子鲁棒性。SGD、Adam等传统优化器进行梯度下落时仅以最小化亏蚀函数值为目的,易落入“粗暴极小值”,导致模子其对输入数据散播明锐度高,泛化性能较差。SAM优化器将亏蚀函数的平坦度加入优化目的,不仅最小化亏蚀函数值,同期最小化模子权重心隔壁亏蚀函数的变化幅度,使优化后模子权重处于一个平坦的极小值处,增多了模子的鲁棒性。基于SAM优化器,ASAM、GSAM等鼎新算法被连续提议,从参数行径自顺应性、扰动所在的准确性等方面进一步增强了SAM优化器的性能。
SAM优化器能镌汰教师过程中的过拟合,提高模子的泛化性能。SAM优化器想象初志是使模子教师时在权重空间中找到一条缓慢的旅途进行梯度下落,改善模子权重空间的平坦度。可通过不雅察模子教师过程中评价谈论的变化趋势以及亏蚀函数地形图对其进行考证。从评价谈论的变化趋势分析,SAM模子在考证集上IC、IR谈论下落幅度较缓,教师过程中评价谈论最大值均高于基线模子;从亏蚀函数地形分析,SAM模子在教师集上亏蚀函数地形相较基线模子愈加平坦,测试集上亏蚀函数值合座更低。概括两者,SAM优化器能灵验扼制教师过程中的过拟合,提高模子的泛化性能。
SAM优化器能显贵提高AI量化模子发达。本磋商基于GRU模子,对比AdamW优化器与各种SAM优化器模子发达。从预计因子发达看,SAM优化器能提高因子多头收益;从指数增强组合功绩看,SAM模子过甚鼎新版块模子在三组指数增强组合功绩均显贵优于基线模子。2016-12-30至2024-09-30内,概括发达最好模子为GSAM模子,单因子回测TOP层年化逾额收益高于31%,沪深300、中证500和中证1000增强组合年化逾额收益分歧为10.9%、15.1%和23.1%,信息比率分歧为1.87、2.26和3.12,显贵优于基线模子。2024年以来ASAM模子发达凸起,三组指数增强组合逾额收益均早先基线模子约5%。
本磋商仍存在以下未尽之处:
本磋商测试SAM模子均接管文件中保举参数,并未针对AI量化模子作念大范围参数调优;
本磋商仅对SAM优化器的性能鼎新版块优化器进行测试,未对遵循鼎新版块的优化器进行测试。SAM优化器在教师时需要进行两次梯度下落,由此会带来一定的迥殊诡计本钱,对SAM优化器的遵循进行鼎新有望提高AI量化模子的教师遵循;
本磋商对各鼎新版块的SAM优化器进行单独测试,后续磋商中可尝试聚拢各种鼎新所在,得到一个概括鼎新版块的SAM优化器。
参考文件
Kwon, J., Kim, J., Park, H., Choi, I.K., 2021. ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks, in: Proceedings of the 38th International Conference on Machine Learning. Presented at the International Conference on Machine Learning, PMLR, pp. 5905–5914.
Sun, Y., Shen, L., Chen, S., Ding, L., Tao, D., 2023. Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape, in: Proceedings of the 40th International Conference on Machine Learning. Presented at the International Conference on Machine Learning, PMLR, pp. 32991–33013.
Li, T., Yan, W., Lei, Z., Wu, Y., Fang, K., Yang, M., Huang, X., 2022. Efficient Generalization Improvement Guided by Random Weight Perturbation.
Du, J., Yan, H., Feng, J., Zhou, J.T., Zhen, L., Goh, R.S.M., Tan, V.Y.F., 2022. Efficient Sharpness-aware Minimization for Improved Training of Neural Networks.
Li, T., Zhou, P., He, Z., Cheng, X., Huang, X., 2024. Friendly Sharpness-Aware Minimization. Presented at the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5631–5640.
Zhang, X., Xu, R., Yu, H., Zou, H., Cui, P., 2023. Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization. Presented at the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 20247–20257.
Mi, P., Shen, L., Ren, T., Zhou, Y., Sun, X., Ji, R., Tao, D., 2022. Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach.
Zhao, Y., Zhang, H., Hu, X., 2023. Randomized Sharpness-Aware Training for Boosting Computational Efficiency in Deep Learning.
Foret, P., Kleiner, A., Mobahi, H., Neyshabur, B., 2021. Sharpness-Aware Minimization for Efficiently Improving Generalization.
Du, J., Zhou, D., Feng, J., Tan, V., Zhou, J.T., 2022. Sharpness-Aware Training for Free. Advances in Neural Information Processing Systems 35, 23439–23451.
Zhuang, J., Gong, B., Yuan, L., Cui, Y., Adam, H., Dvornek, N., Tatikonda, S., Duncan, J., Liu, T., 2022. Surrogate Gap Minimization Improves Sharpness-Aware Training.
Liu, Y., Mai, S., Chen, X., Hsieh, C.-J., You, Y., 2022. Towards Efficient and Scalable Sharpness-Aware Minimization. Presented at the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12360–12370.
Li, H., Xu, Z., Taylor, G., Studer, C., Goldstein, T., 2018. Visualizing the Loss Landscape of Neural Nets, in: Advances in Neural Information Processing Systems. Curran Associates, Inc.
风险教导:
东说念主工智能挖掘阛阓法例是对历史的回来,阛阓法例在畴昔可能失效。深度学习模子受当场数影响较大。本文回测假设以vwap价钱成交,未接洽其他影响来回因素。
预计研报]article_adlist-->研报:《金工:SAM:提高AI量化模子的泛化性能》2024年10月10日分析师:林晓明 S0570516010001 | BPY421
分析师:何康 S0570520080004 | BRB318
预计东说念主:浦彦恒 S0570124070069
]article_adlist-->眷注咱们]article_adlist-->华泰证券磋商所国内站(磋商Portal)https://inst.htsc.com/research
探望权限:国内机构客户
华泰证券磋商所国外站
https://intl.inst.htsc.com/research
探望权限:好意思国及香港金控机构客户
添加权限请预计您的华泰对口客户司理
]article_adlist-->免责声明]article_adlist-->▲朝上滑动有瞻念看本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)磋商说明的发布平台,本公众号仅供华泰证券中国内地磋商作事客户参考使用。其他任何读者在订阅本公众号前,请自行评估禁受预计推送内容的允洽性,且若使用本公众号所载内容,务必寻求专科投资参谋人的领导及解读。华泰证券不因任何订阅本公众号的行径而将订阅者视为华泰证券的客户。
本公众号转发、摘编华泰证券向其客户已发布磋商说明的部天职容及不雅点,好意思满的投资意见分析应以说明发布当日的好意思满磋商说明内容为准。订阅者仅使用本公众号内容,可能会因枯竭对好意思满说明的了解或枯竭预计的解读而产生清醒上的歧义。如需了解好意思满内容,请具体参见华泰证券所发布的好意思满说明。
本公众号内容基于华泰证券以为可靠的信息编制,但华泰证券对该等信息的准确性、好意思满性实时效性不作任何保证,也不合证券价钱的涨跌或阛阓走势作细则性判断。本公众号所载的意见、评估及预计仅反应发布当日的不雅点和判断。在不同期期,华泰证券可能会发出与本公众号所载意见、评估及预计不一致的磋商说明。
在职何情况下,本公众号中的信息或所表述的意见均不组成对任何东说念主的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身孤独的判断,应自主作念出投资有筹谋并自行承担投资风险。订阅者若使用本贵府,有可能会因枯竭解读作事而对内容产生清醒上的歧义,进而变成投资亏蚀。对依据或者使用本公众号内容所变成的一切后果,华泰证券及作家均不承担任何法律包袱。
本公众号版权仅为华泰证券统统,未经华泰证券书面许可(金麒麟分析师),任何机构或个东说念主不得以翻版、复制、发表、援用或再次分发他东说念主等任何形势侵略本公众号发布的统统内容的版权。如因侵权行径给华泰证券变成任何奏凯或辗转的亏蚀,华泰证券保留根究一切法律包袱的权力。华泰证券具有中国证监会核准的“证券投资商榷”业务经历,筹备许可证编号为:91320000704041011J。
]article_adlist-->(转自:华泰证券金融工程)
海量资讯、精确解读,尽在新浪财经APP