设置

关灯

第379章 实验室里的深夜对话(第6节)

周寻举手。“那现有的大模型模块呢?”

陆方想了想。“保留。作为备用。”

陈默站在门口,听着陆方的汇报,笑了。他转身走回办公室,对沈清如说:“陆方把准确率提高到92.3%了。”

沈清如抬起头。“这么快?”

“他说用了多模型集成。三个开源模型加权平均。”

沈清如笑了。“他这是要把星海大模型模块淘汰掉。”

陈默点头。“对。自己淘汰自己。”

沈清如看着他。“这不就是你教他们的吗?‘技术是工具,不是主人。’”

陈默笑了。“对。”

晚上,陆方坐在工位上,面前是三块屏幕。左边是星海平台的监控界面,中间是多模型集成的测试结果,右边是陈曦发来的消息。他正在和陈曦讨论下一步的计划。

陆方:“多模型集成跑通了,准确率92.3%。下一步,我想试试用强化学习来优化权重。”

陈曦:“可以。但强化学习需要奖励函数。你怎么定义奖励?”

陆方:“准确率。奖励就是准确率。”

陈曦:“那太简单了。试试用夏普比率?不仅要准,还要稳。”

陆方:“夏普比率?我用的是分类任务,不是交易策略。”

陈曦:“分类任务也可以用夏普比率。把准确率看成收益,把方差看成风险。最大化夏普比率,就是最大化收益风险比。”

陆方沉默了几秒。“有道理。我试试。”

陈曦:“好。有结果告诉我。”

陆方放下手机,打开论文,开始研究强化学习。

2024年3月31日,星期日,晚上十一点。

陆方完成了强化学习的第一个版本。他用夏普比率作为奖励函数,训练了一个权重优化模型。测试结果:准确率93.1%,波动率下降了30%。他在笔记本上写道:“强化学习有效。下一步,部署到

本章未完,请点击"下一页"继续阅读! 第6页 / 共8页