今天是Transformer论文《Attention is All You Need》发布六周年纪念日!
有趣的事实:
⭐ Transformer并非创造了注意力机制,但它将其推向了极致。首篇关于注意力机制的论文早在3年前(2014年)发表,题目并不引人注目:“通过联合学习对齐和翻译实现神经机器翻译”,出自Yoshua Bengio实验室。该论文结合了RNN和“上下文向量”(即注意力)。很多人可能没有听说过这篇论文,但它是自然语言处理领域最重要的里程碑之一,已经被引用了2.9万次(相比之下,Transformer被引用了7.7万次)。
⭐ Transformer和最初的注意力论文都没有谈论通用序列计算机。相反,它们都被构想为解决一个狭窄而特定的问题:机器翻译。令人惊讶的是,AGI(即将来的人工智能通用智能)可以追溯到谦逊的谷歌翻译。
⭐ Transformer于2017年发表在全球顶级人工智能会议NeurIPS上。然而,它甚至没有得到口头报告,更别说奖项了。那一年的NeurIPS有三篇最佳论文,至今总共引用了529次。