设置

关灯

第624章 九章之上,再攀一天(第3节)

“一个序列里有十二个字。每一个字,都能同时'看到'其他所有十一个字。不需要一层一层地滑窗口,不需要一步一步地扩大感受野。每个位置直接和所有位置产生联系,然后自己决定,我该重点关注谁,忽略谁。”

任少卿的第一反应是脱口而出的。

“计算量会爆炸。”

紧接着他的眉头皱成了川字,

“而且这不符合逻辑。如果不靠卷积的滑动窗口,也不靠循环网络的先后顺序,模型怎么知道这句话的语序?'我爱你'和'你爱我',在这种每个位置同时交互的结构里,权重会变得完全一样,位置信息彻底丢失了!”

顾屿眼底透出赞赏。

不愧是任少卿,立刻就捏住了Self-AttentiOn最致命的七寸——位置编码。

但他没有立刻解答,只是微微一笑:

“对。”

顾屿点头,毫不意外。

“十二个字,每个字和其他十一个字交互,就是十二乘以十二,一百四十四次运算。如果是一千个字呢?一百万次。一万个字呢?一亿次。复杂度是字数的平方。”

他看着任少卿。

“所以关键从来不是这个思路对不对。理论上它是对的,你心里清楚。关键是怎么让它跑得起来,算得动,能工程化。怎么让一亿次运算压缩到GPU能并行处理的范围内,怎么把丢失的位置信息用数学手段重新注入进去。怎么让它不只是一个漂亮的数学公式,而是能真正训练出结果的工程方案。”

任少卿的手指无意识地敲着桌面。

顾屿看着他的表情。这张被雅安紫外线晒黑了一圈的脸上,正有什么东西在松动。

“这是值得你花一年甚至更长时间去攻克的课题。”

顾屿说完这句话,往椅背上靠了回去。

他知道今天说到这里就够了。种子已经种下去了。

任少卿是这个领域最顶尖的工程大脑

本章未完,请点击"下一页"继续阅读! 第3页 / 共7页