MosaicML 推出 300 亿参数模型,训练成本 70 万
(资料图片仅供参考)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
您可能也感兴趣:
为您推荐
神仙道装备强化等级一览表(三生三世神仙等级排列)_热点聚焦
【全球热闻】2023年网络名人“点赞天津”系列活动走进河西区
即时:俄方任命的赫尔松州负责人:充加尔大桥损伤评估将持续约20天
排行
最近更新
- MosaicML 推出 300 亿参数模型,训练成本 70 万
- 一问“医”答丨高温热浪又双叒叕来了!如何防护?|世界动态
- 北京中考首日高温“烤验”突出 或现40℃三连击警惕中暑
- 【世界独家】菠萝能和香蕉一起吃吗(与菠萝相克的食物中毒)
- 再等77天,四大生肖心里最善良,成功摆脱困境,桃花找上门
- 我国的四个直辖市分别是什么 焦点速看
- 结婚人数七年连降(结婚人数7年连降) 环球热讯
- 怎么连接wifi
- 浙江龙游发生5车追尾事故,致6人死亡 今日快看
- 天天新消息丨我市特需家长服务中心成立
- 企业数字化转型的核心任务是什么?
- 两岸共祭中华人文始祖伏羲
- 每日关注!终究走到了这一步,乌克兰干了一件荒唐的事
- 终究走到了这一步,乌克兰干了一件荒唐的事 全球要闻
- 全球讯息:长度达105米 世界最长陆上风电叶片信阳下线
- 热门:怎样做清炖鱼?_怎样做清炖鱼
- 【播资讯】让传统节日绽放时代新韵
- 联合国安理会举行乌克兰局势公开会 中方呼吁俄乌冲突双方保...
- 全国铁路今天预计发送旅客1515万人次 全球通讯
- 全球讯息:2022年中国逆变焊割设备行业重点企业对比分析:瑞...
- 国王欲抢勇士追梦 全球头条
- 全球要闻:薪资专家:湖人不会追欧文 他们专注于留住里夫斯...
- 全球讯息:这份心理调适指南,送给高考后的你们
- 无论是不是佛教徒,临终助念都有好处
- 夏邑湖居美宅,就它了
- 动态 | 平谷区消防救援支队到平谷区兴隆观开展消防安全检查
- 万国城商街夜市开街,双倍快乐。_短讯
- 焦点快看:倒计时2天 尼山前瞻丨向善?趋利?当儒家学说碰撞...
- 加盟代理模式:让平台涅槃重生
- 奋进节!龙舟竞渡代代传承 百舸争流奋勇向前