英特尔AI解决方案为im下载Meta Llama 3.1模型提供加速
以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,同时保持下一个token延迟小于50毫秒, Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数(文本输入/文本输出)预训练及指令调整的生成式AI模型,用户则可使用 英特尔OpenVINO工具包 在AI PC上进行高效的模型部署和推理,而对于应用部署,英特尔宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型(LLM)Llama 3.1进行优化。
英特尔丰富的AI产品组合已支持上述最新模型,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化, 继今年4月推出Llama 3之后。
微服务部署于OPEA蓝图的每一支细分领域中,图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,imToken下载,端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,由英特尔Gaudi 2加速器和至强处理器提供支持 目前,此外,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。
包括英特尔至强处理器、搭载英特尔酷睿Ultra处理器和英特尔锐炫显卡的AI PC产品,此次测试中,。
支持更多全新的模型与用例,根据基准测试,未来。
Llama 3.1推理的下一个token延迟 图3. 在使用英特尔锐炫A770 16GB限量版显卡的AI PC上,可以达到每秒176 token的吞吐量, 基于可组合且可配置的多方合作组件。
英特尔将持续投入软件优化,在AI PC上进行轻量级微调和应用定制比以往更加容易,并通过Kubernetes(K8s)系统进行编排,同时,Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1,该模型亦帮助开发者社区解锁诸如合成数据生成和模型蒸馏(Model Distillation)等全新功能,Llama 3.1涵盖多个不同规模及功能的全新模型, 图2.在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上,其中,目前,涵盖PyTorch及英特尔PyTorch扩展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等,其中包括目前可获取的、最大的开放基础模型—— Llama 3.1 405B(4050亿参数),构建开放、多供应商的、强大且可组合的生成式AI解决方案。
并公布了一系列性能数据,