2行代码，「三体」一次读完！港中文贾佳亚团队联手MIT发布超长文本扩展技术，打破LLM遗忘魔咒

hezhisheng026 热点资讯 2023-10-24 19:30:02 206 0

从模型给出的答案可发现，一些模型如Llama2[2]可能在预训练过程中见过相关小说，但如果在提问时进行仅根据小说题目进行短文本提问的话，回答并不理想。

两个模型的回答对比，高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说，都是一把好手，完胜Llama2。

两行代码和三个关键结论

Llama2可以说是AI社区内最强大的开源大模型之一，行业位置领先，LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意，到底是怎么做到的?

原来大语言模型对长文本处理过程中，计算量的主要开销集中在自注意力机制（self-attention），其开销随着文本长度成平方次地增加。

针对这个问题，研究团队提出LongLoRA技术，并用分组和偏移的方式来对全局自注意力机制进行模拟。

简单来说，就是将长文本对应的tokens拆分成不同的组，在每组内部做自注意力计算，而分组的方式在不同注意力头（attention head）上有所偏移。

这样的方式既可以大幅度节约计算量，又可以维持全局感受野的传递。

而且，这个实现方法也非常简洁，仅两行代码即可完成!

除此之外，LongLoRA还探索了低秩训练的方式。

原有的低秩训练方式，如LoRA[5]，无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上，引入嵌入层（Embedding layer和 Normalization layers）进行微调，从而达到可以和全参数微调(Full fine-tune)逼近的效果。

进行不同长度文本扩展和训练时，LongLoRA、LoRA和全参数微调不同技术的具体效果如何，可以参考三个维度表现:

在Perplexity-困惑度上，原有LoRA方法的性能在不断恶化，而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;
在显存消耗上，相比于全参数微调，LongLoRA和原有LoRA都有大幅度的节省。例如，对于8k长度的模型训练，相比于全参数微调，LongLoRA将显存消耗从46.3GB降低到25.6GB。
在训练时间上，对于64k长度的模型训练，相比于常规LoRA，LongLoRA将训练时间从90～100小时左右降低到52.4小时，而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗，以及极佳的准确性，令LongLoRA大规模推广成为可能。

目前，相关技术与模型已全部开源，感兴趣的用户们可以自己部署感受。

值得一提的是，这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。

相距不过短短两个月，不得不说，这研究速度和能力跟LongLoRA一样惊人。

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。