算法与数据结构无所不能的Embedding6 – 跨入Transformer时代~模型详解&代码实现 上一章我们聊了聊quick-thought通过干掉decoder加快训练, CNN—LSTM用CNN作为Encoder并行计算来提速等方法,这一章看看抛开CNN和RNN,transformer是如何只……继续阅读 » 3周前 (03-11) 3035浏览 0评论1968个赞