欧美日韩国产一区二区三区不卡,欧洲一区二区三区精品,日韩一区不卡,成人国产二区

uiuc(比LoRA還快50%!一張3090超越全參調(diào)優(yōu),UIUC聯(lián)合LMFlow提出LISA)

時間:2024-04-13 17:37:16 閱讀:3

比LoRA還快50%!一張3090跨越全參調(diào)優(yōu),UIUC團結(jié)LMFlow提出LISA

機器之心專欄

機器之心編纂部

2022 年底,隨著 ChatGPT 的爆火,人類正式進入了大模子年代。但是,練習(xí)大模子必要的時空斲喪仍然居高不下,給大模子的普及和提高帶來了宏大困難。面臨這一挑唆,原先在盤算機視覺范疇盛行的 LoRA 武藝告捷轉(zhuǎn)型大模子 [1][2],帶來了接近 2 倍的時間增速和實際最高 8 倍的空間緊縮,將微調(diào)武藝帶進千家萬戶。

但 LoRA 武藝仍存在一定的挑唆。一是 LoRA 武藝在很多職責(zé)上還沒有凌駕正常的全參數(shù)微調(diào) [2][3][4],二是 LoRA 的實際實質(zhì)分析比力困難,給其進一步的研討帶來了攔阻。

UIUC 團結(jié) LMFlow 團隊成員對 LoRA 的實行實質(zhì)舉行了分析,不測發(fā)覺 LoRA 十分側(cè)重 LLM 的底層和頂層的權(quán)重。使用這一特性,LMFlow 團隊提出一個極度簡便的算法:Layerwise Importance Sampled AdamW(LISA)。

  • 論文鏈接:https://arxiv.org/abs/2403.17919
  • 開源地點:https://github.com/OptimalScale/LMFlow

LISA 先容

LISA 算法的中心在于:

- 一直更新底層 embedding 和頂層 linear head;

- 隨機更新少數(shù)正中的 self-attention 層,好比 2-4 層。

出乎意料的是,實行發(fā)覺該算法在指令微調(diào)職責(zé)上凌駕 LoRA 乃至全參數(shù)微調(diào)。

更緊張的是,其空間斲喪和 LoRA 相當(dāng)乃至更低。70B 的總空間斲喪低落到了 80G*4,而 7B 則直接降到了單卡 24G 以下!

進一步的,由于 LISA 每次正中只會激活一小局部參數(shù),算法對更深的網(wǎng)絡(luò),以及梯度反省點武藝(Gradient Checkpointing)也很友好,可以帶來更大的空間節(jié)流。

在指令微調(diào)職責(zé)上,LISA 的收斂實質(zhì)比 LoRA 有很大提升,到達了全參數(shù)調(diào)治的水平。

并且,由于不必要像 LoRA 一樣引入分外的 adapter 布局,LISA 的盤算量小于 LoRA,速率比 LoRA 快將近 50%。

實際實質(zhì)上,LISA 也比 LoRA 更容易分析,Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等現(xiàn)有優(yōu)化范疇的數(shù)學(xué)東西都可以用于分析 LISA 及其變種的收斂實質(zhì)。

一鍵使用 LISA

為了奉獻大模子開源社區(qū),LMFlow 現(xiàn)已集成 LISA,安裝完成后只需一條指令就可以使用 LISA 舉行微調(diào):

假如必要進一步變小大模子微調(diào)的空間斲喪,LMFlow 也以前支持一系列最新武藝:

假如在使用歷程中遇就職何成績,可經(jīng)過 github issue 或 github 主頁的微信群接洽作者團隊。LMFlow 將持續(xù)維護并集成最新武藝。

總結(jié)

在大模子比賽的趨向下,LMFlow 中的 LISA 為一切人提供了 LoRA 以外的第二個選項,讓大大多平凡玩家可以經(jīng)過這些武藝到場到這場使用和研討大模子的海潮中來。正如團隊標(biāo)語所表達的:讓每一局部都能訓(xùn)得起大模子(Large Language Model for All)。

[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.

[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).

[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).

[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).

版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除

原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/45187.html


Copyright ? 2021-2022 All Rights Reserved 備案編號:閩ICP備2023009674號 網(wǎng)站地圖 聯(lián)系:dhh0407@outlook.com

主站蜘蛛池模板: 大埔区| 崇左市| 苏尼特右旗| 庄河市| 白朗县| 泸溪县| 沿河| 嘉禾县| 吴桥县| 西林县| 泰顺县| 泰兴市| 扶沟县| 滕州市| 连山| 华安县| 康平县| 禹州市| 石楼县| 汉源县| 花莲县| 密山市| 广丰县| 德化县| 溧水县| 县级市| 泾川县| 巴青县| 贵定县| 大名县| 兴安县| 瑞金市| 苗栗县| 泰宁县| 崇州市| 阿城市| 侯马市| 都昌县| 青州市| 左贡县| 宜州市|