白板前的安德烈猛地一僵。
他脑子里灵光乍现,几乎是咆哮着用俄语喊了出来:
“除以方差的平方根!对!除以维度的平方根!”
他赶紧用袖子擦掉一半的算式,重新把那个代表缩放因子的分母加了进去。
他快速心算了几十秒,然后扔掉马克笔,转头看着屏幕里的顾屿,眼神里全是难以置信的震撼。
“平滑了!数据分布完美平滑了!”安德烈双眼通红地盯着屏幕,
“顾,你简直是个魔鬼。”
顾屿当然不会说这是前世无数个秃头算法工程师在论文里写明的现成答案。
他只是耸了耸肩,保持着那份高深莫测。
“所以,RNN可以扔进历史的垃圾堆了吗?”顾屿看向楼天城。
楼天城这时候已经完全从刚才的萎靡中复活了。
“绝对可以。但这套玩意的计算复杂度是跟着序列长度的平方增长的。序列越长,显存占用越恐怖。”
楼天城摸了摸下巴,“要是处理超长文本,一样会爆显存。”
“算力从来不是你要操心的问题,楼教主。”顾屿非常财大气粗地打断了他,
“不够用我就让采购部继续去英伟达拿货。五百张不够就买一千张,做成大规模数据并行。”
说到这里,顾屿语气转为平淡,抛出了一个后世极其经典的工程黑科技:
“至于单卡显存被打爆的问题,楼教主,你听说过梯度检查点(Gradient CheCkpOinting)这种用计算时间换显存空间的底层框架优化思路吗?”
楼天城愣住了,随后双眼爆发出狂热的光芒。
原本萎靡的神经被这句话彻底点燃,他脑子里已经开始飞速构思底层的CUDA加速代码和内存管理逻辑了。
任少卿看着屏幕里的年轻老板,心里涌起难以名状的敬畏。
从组建九天实验室到现在
本章未完,请点击"下一页"继续阅读! 第4页 / 共6页