这个死胡同里。
大家都知道RNN效率低,但所有人都觉得处理语言这种有先后顺序的东西,必须得用串行的RNN或者LSTM。
“所以你们的想法呢?”顾屿靠在椅背上,看着屏幕那头的三大金刚。
任少卿叹了口气:“我们在尝试优化RNN的内部结构,看看能不能勉强实现部分并行。安德烈最近算矩阵算得快吐了。”
“既然RNN是个阻碍并行的毒瘤,为什么不直接把它整个切掉?”
顾屿抛出了这个在当时看来极其离经叛道的理论。
任少卿愣住了。安德烈直接站了起来,连连摇头。
“这不可能的顾。没有RNN的循环结构,模型怎么知道这句话里哪个词在前面,哪个词在后面?语言是有顺序的,直接切掉它,输入进去的东西就变成了一盘散沙。”
顾屿笑了笑。这就是他作为“穿越者”带来的认知差距。
他不需要自己去推导那些复杂的数学公式,他只需要在这些绝顶天才走上岔路口的时候,伸手把他们推上那条名为未来的高速公路。
“谁规定注意力只能用来让输出端去看输入端?”顾屿敲了敲桌面,抛出了那个价值千金的灵魂拷问。
“一个句子里面的每个词,为什么不能对这句话里的其他所有词施加注意力?让序列内部自己看自己。”
会议室里安静得落针可闻。
安德烈的眼睛瞪大,此刻只觉像遭了高压电击。
顾屿提出的这个概念,就是后世大模型时代的基石。
自注意力机制。
为了让这几个天才彻底打通任督二脉,顾屿开始用最通俗的语言描绘那个恐怖的数学模型。
“你们把每一个词想象成带着三个不同身份去参加相亲大会。我们管这三个身份叫Q、K和V。”
顾屿竖起三根手指。
这其实是一个非常直白的查询匹配逻辑。
Q代
本章未完,请点击"下一页"继续阅读! 第2页 / 共6页