周寻举手。“那现有的大模型模块呢?”
陆方想了想。“保留。作为备用。”
陈默站在门口,听着陆方的汇报,笑了。他转身走回办公室,对沈清如说:“陆方把准确率提高到92.3%了。”
沈清如抬起头。“这么快?”
“他说用了多模型集成。三个开源模型加权平均。”
沈清如笑了。“他这是要把星海大模型模块淘汰掉。”
陈默点头。“对。自己淘汰自己。”
沈清如看着他。“这不就是你教他们的吗?‘技术是工具,不是主人。’”
陈默笑了。“对。”
晚上,陆方坐在工位上,面前是三块屏幕。左边是星海平台的监控界面,中间是多模型集成的测试结果,右边是陈曦发来的消息。他正在和陈曦讨论下一步的计划。
陆方:“多模型集成跑通了,准确率92.3%。下一步,我想试试用强化学习来优化权重。”
陈曦:“可以。但强化学习需要奖励函数。你怎么定义奖励?”
陆方:“准确率。奖励就是准确率。”
陈曦:“那太简单了。试试用夏普比率?不仅要准,还要稳。”
陆方:“夏普比率?我用的是分类任务,不是交易策略。”
陈曦:“分类任务也可以用夏普比率。把准确率看成收益,把方差看成风险。最大化夏普比率,就是最大化收益风险比。”
陆方沉默了几秒。“有道理。我试试。”
陈曦:“好。有结果告诉我。”
陆方放下手机,打开论文,开始研究强化学习。
2024年3月31日,星期日,晚上十一点。
陆方完成了强化学习的第一个版本。他用夏普比率作为奖励函数,训练了一个权重优化模型。测试结果:准确率93.1%,波动率下降了30%。他在笔记本上写道:“强化学习有效。下一步,部署到
本章未完,请点击"下一页"继续阅读! 第6页 / 共8页