楚一航坐回电脑前,打开终端窗口。
他通过命令行连接到隔壁机房的GPU集群。
钟柏点开了解压后的数据集目录,仔细翻看了一遍官方提供的数据说明文档。
“哎?你们看这数据分布。”钟柏指着屏幕。
“这比赛提供的一百二十万张训练图像,一共被划分为了一千个类别。”
“但这玩意儿看着眼熟啊,这不就是咱们前段时间折腾的那个五百万张图片、五千个类别的超大数据集的子集吗?”
钟柏手指在键盘上无意识地敲了两下,忽然嘿嘿一笑。
“手痒了。”
“既然是子集,要不咱们直接用前两天刚跑完的那个五千分类的通用预训练模型,来预测一下这数据集?”
“看看现成的模型,在这五万张验证集上效果咋样。”
楚一航一听,直接竖起了大拇指。
“你小子真是个机灵鬼,其实我刚才也正有此意。”
“现成的大模型不用白不用,说干就干!”
郭长征也点头同意了这个提议。
“跑一次看看,正好摸摸这个比赛数据集的特征分布底细。”
这里需要给非专业人士解释一下。
为什么用训练了五千个类别的通用模型,可以直接去预测只有一千个类别的子数据集?
因为在深度学习中,用海量数据喂出来的模型“见多识广”。
它在底层网络中已经学会了提取通用的图像特征,比如轮廓、纹理、色彩组合。
这种通用的特征提取能力,完全可以直接套用到子集数据的分类任务上。
但直接这么做,预测精度必然会存在误差,成绩会差一些。
原因很简单,模型最终输出的是五千个选项的概率。
在面对这五万张只有一千种标准答案的验证图片时,通用模型依然会按照五千个类别的范围去预测。
一
本章未完,请点击"下一页"继续阅读! 第2页 / 共4页