设置

关灯

第384章 17岁,跨洋代码(第3节)

看着那些数据。“你试了吗?”

“正在试。她用了一个简单的微调方法,只训练了最后一层。效果好,速度快。”

陈默笑了。“下一代,真的不一样。”

陆方点头。“对。他们比我们开放。我们习惯从零开始造轮子,他们习惯站在巨人的肩膀上。”

陈默拍了拍陆方的肩膀。“那就跟着他们学。”

陆方也笑了。“好。”

2024年7月28日,星期日,下午两点。陆方按照陈曦的教程,成功微调了LLaMA-7B模型。准确率91.2%,和伯克利的结果基本一致。他兴奋地给陈曦发消息:“成功了!91.2%。”

陈曦回复:“恭喜!接下来可以试试更大的模型,比如LLaMA-13B。准确率还能再提高。”

陆方:“13B需要更大的显存。我没有。”

陈曦:“用云服务。按需付费,不贵。”

陆方:“我试试。”

他注册了一个云服务账号,租了一台带A100显卡的服务器。按小时计费,一小时十几块钱。他把模型上传,开始微调。等了两个小时,结果出来——准确率93.1%。他靠在椅背上,长出一口气。

他给陈曦发消息:“13B跑通了。93.1%。”

陈曦:“厉害!下一步,可以试试多模型集成。把几个模型的预测结果加权平均,准确率还能再提高。”

陆方:“多模型集成?我没试过。”

陈曦:“试试。不复杂。就是把几个模型的输出做加权平均。权重可以用验证集上的准确率来定。”

陆方:“我明天试试。”

陈曦:“好。有结果告诉我。”

2024年7月30日,星期二,上午九点。陆方完成了多模型集成的测试。他用LLaMA-7B、Falcon-7B、Bloom-7B三个模型,在验证集上计算准确率,然后用准确率作为权重,对三

本章未完,请点击"下一页"继续阅读! 第3页 / 共8页