利用自的分块计算将长序列分布到多个设备上,以克服 transformer 架构固有的内存限制,从而能够在训练和推理过程中处理较长的序列;能够在保持性能的同时根据设备数量缩放长度,在没有近似的情况下超过 1 亿长度。
未经允许不得转载:尊龙游戏旗舰厅官网 » ring attention – 一种内存高效的方法
利用自的分块计算将长序列分布到多个设备上,以克服 transformer 架构固有的内存限制,从而能够在训练和推理过程中处理较长的序列;能够在保持性能的同时根据设备数量缩放长度,在没有近似的情况下超过 1 亿长度。
未经允许不得转载:尊龙游戏旗舰厅官网 » ring attention – 一种内存高效的方法