微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

发布时间:2025-05-15 17:26:03 来源:互联网

本站 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。

本站援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。

此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。

BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。

微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。

尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。

微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。

参考

  • BitNet b1.58 2B4T Technical Report

  • hugging face 模型页面

本周热门教程

1
jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

2025/03/26

2
亚洲vs欧洲vs美洲:哪个大洲的球队将在未来的国际赛事中占据主导地位?

亚洲vs欧洲vs美洲:哪个大洲的球队将在未来的国际赛事中占据主导地位?

2025/03/30

3
搞机time极速模式如何直接访问?无需登录,快速享受便捷体验!

搞机time极速模式如何直接访问?无需登录,快速享受便捷体验!

2025/03/30

4
9.1破解版.apk安装教程,让你轻松下载安装并享受无限功能

9.1破解版.apk安装教程,让你轻松下载安装并享受无限功能

2025/03/28

5
91网站:提供丰富多样内容的互动平台,未来将迎来更智能化发展

91网站:提供丰富多样内容的互动平台,未来将迎来更智能化发展

2025/03/30

6
百丽直播为何受到用户喜爱?揭秘直播背后的成功因素

百丽直播为何受到用户喜爱?揭秘直播背后的成功因素

2025/03/29

7
惠普打印机乱码一直在打印怎么办 分享5个解决方法

惠普打印机乱码一直在打印怎么办 分享5个解决方法

2025/04/06

8
Meta 计划在威斯康星州投资 10 亿美元建设人工智能数据中心

Meta 计划在威斯康星州投资 10 亿美元建设人工智能数据中心

2025/04/15

9
酷态科 CR2032 纽扣电池开售:无汞无镉、210mAh,10 粒装 9.9 元

酷态科 CR2032 纽扣电池开售:无汞无镉、210mAh,10 粒装 9.9 元

2025/04/29

10
如何利用9.1人网站免费创建个人或小企业网站?:免费的建站服务是否适合你的需求?

如何利用9.1人网站免费创建个人或小企业网站?:免费的建站服务是否适合你的需求?

2025/03/29