10月1日消息,AMD发布了自己的首个小语言模型(SLM),名为AMD-135M”。
相比于越来越庞大的大语言模型(LLM),它体积小巧,更加灵活,更有针对性,非常适合私密性、专业性很强的企业部署。
AMD-135小模型隶属于Llama家族,有两个版本:
一是基础型AMD-Llama-135M”,拥有多达6700亿个token,在八块Instinct MIM250 64GB加速器上训练了六天。
二是延伸型AMD-Llama-135M-code”,额外增加了专门针对编程的200亿个token,同样硬件训练了四天。
创建与部署流程
它使用了一种名为推测解码”(speculative decoding)的方法,通过较小的草稿模型,在单次前向传播中生成多个候选token,然后发送给更大的、更精确的目标模型,进行验证或纠正。
这种方法可以同时生成多个token,不会影响性能,还可以降低内存占用,但因为数据交易更多,功耗也会增加。
AMD还使用AMD-Llama-135M-code作为CodeLlama-7b的草案模型,测试了推测解码使用与否的性能。
比如在MI250加速器上,性能可提升最多约2.8倍,锐龙AI CPU上可提升最多约3.88倍,锐龙AI NPU上可提升最多约2.98倍。
推测解码
AMD-135M小模型的训练代码、数据集等资源都已经开源,遵循Apache 2.0。
按照AMD的说法,它的性能与其他开源小模型基本相当或略有领先,比如Hellaswag、SciQ、ARC-Easy等任务超过Llama-68M、LLama-160M,Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任务则基本类似GTP2-124MN、OPT-125M。
大家好,小丽今天来为大家解答关于冥王星早餐的介绍以下问题,冥王星时刻的含义很多人还不知道,现在让我们一起来看看吧!1、《冥王星早餐》
大家好,小娟今天来为大家解答吊丝男是什么意思以下问题,吊丝的意思很多人还不知道,现在让我们一起来看看吧!1、屌丝男:主要是指大多出身
大家好,小娟今天来为大家解答八连杀歌词完整版以下问题,八连杀歌词歌曲很多人还不知道,现在让我们一起来看看吧!1、歌名:《八连杀》歌手
大家好,小豪今天来为大家解答温州有几个动车站以下问题,温州所有的动车站很多人还不知道,现在让我们一起来看看吧!1、温州共有三个动车站
大家好,小伟今天来为大家解答大麦若叶青汁哪个牌子好以下问题,大麦若叶青汁哪款好很多人还不知道,现在让我们一起来看看吧!1、大麦若叶青
大家好,小美今天来为大家解答发酵乳制品以下问题,发酵乳制品有哪些食品很多人还不知道,现在让我们一起来看看吧!1、发酵乳和酸奶的区别
大家好,小美今天来为大家解答掘金宝以下问题,掘金宝很多人还不知道,现在让我们一起来看看吧!1、掘金宝挖的是数字资产。2、掘金宝里边的视
大家好,小丽今天来为大家解答沙巴天气下雨以下问题,沙巴气温很多人还不知道,现在让我们一起来看看吧!1、沙巴地处热带,常年温度在23~3
大家好,小豪今天来为大家解答金相显微镜价格以下问题,金相显微镜很多人还不知道,现在让我们一起来看看吧!1、进口金相显微镜的价格因品牌
大家好,小伟今天来为大家解答明星演唱会门票在哪里买以下问题,明星演唱会门票在哪里买最容易抢到很多人还不知道,现在让我们一起来看看吧
Copyright 2024 优质自媒体,让大家了解更多图文资讯!