网站首页 > 精选文章 正文
IT之家 10 月 2 日消息,据 PyTorch 新闻稿,PyTorch 旗下架构优化库 torchao 现已正式发布,该优化库主要专注于模型的量化和稀疏性优化,能够在保证性能的同时降低模型的计算成本和 RAM 用量,从而提升模型运行效率,IT之家附 GitHub 页面地址(点此访问)。
据介绍,torchao 提供了一系列优化工具集,可以帮助 LLaMA 3 等流行的 AI 模型提升性能,其支持 float8、int4 等低精度数据类型,能够有效减少硬件开销和 RAM 用量。
官方举例,在 LLaMA 3 70B 模型的预训练中,torchao 提供的 float8 训练流程可将模型计算速度提升 1.5 倍。开发者只需利用
convert_to_float8_training 函数,即可将模型训练转换为 float8,从而轻松实现模型高效训练。
在推理方面,torchao 提供多种量化方法,包括权重量化(Weight-Only Quantization)和动态激活量化(Dynamic Activation Quantization),用户可以自有选择适合的量化策略,以获得最佳的模型推理性能。
在稀疏性优化方面, torchao 可以优化模型参数计算效率,据称可让 ViT-H 模型的推理速度提升 5%。同时,torchao 还可以将权重量化为 int4,并将键值缓存量化为 int8,可令 LLaMA 3.1 8B 在完整的 128K 上下文长度下仅占用 18.9GB 的显存。
猜你喜欢
- 2025-05-16 Llama 4系列模型
- 2025-05-16 OPPO Find N5与OPPO Find N3参数配置的详细对比
- 2025-05-16 微软拥抱DeepSeek,Copilot+PC本地运行7B和14B模型
- 2025-05-16 Llama 4 大战 DeepSeek V3,全错翻车,我人都傻了
- 2025-05-16 一块小小的ISP,让明年旗舰机有了新的质变
- 2025-05-16 清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
- 2025-05-16 深入解读英伟达“HOPPER”GPU 架构
- 2025-05-16 一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型
- 2025-05-16 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
- 2025-05-16 为现代AI计算打造?IBM AIU芯片:5nm制程32核心,230亿个晶体管
- 最近发表
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)