LPU(Language Processing Unit)初-股票-壹米财经

1.事件:2024年1月15日 LPU（Language Processing Unit）初创公司“Groq推出Groq API之后，最近在一些公开评估和客户测试中，Groq 所有LPU都在延迟（Latency）、吞吐量（Throughput）横扫竞品等指标，受到高度赞扬。根据Groq官网，它为开源LLM模型的运行提供了世界上最快的推理速度。目前，官方网站提供了两种开源模型的演示：Mixtral8x7B-32k的生成速度接近500 token/s，Llama 2 70B-4k接近300 token/s。

二、快评：性能指标：Groq LPU在延迟指标中（Latency）、吞吐量（Throughput）横扫竞争产品延迟等指标（Latency）：明显小于大多数竞争产品

吞吐量（Throughput）：显著高于大多数竞争产品

定价:进入Groq主页的竞争产品明显低于竞争产品。目前有两种可选模式:Mixtral8x7B-32k，Llama 2 70B-4k。我们使用相同的模型（Llama 2 以70B-4k为例，比较Groq平台的推理价格 vs 其他平台的推理价格(以亚马逊AWS为例)发现Groq平台的定价明显低于竞争产品。Groq平台：Llama 2 70B-4k收费为：1Mtoken，输入0.7美元/输出0.8美元。亚马逊AWS：对Llama 2 70B-4k的费用为：1ktoken，输入0.00195美元/输出0.00256美元。对应约1M个token，输入1.95美元/输出2.56美元。

技术介绍Groq没有走GPU路线，而是创造了世界上第一个L（anguage）PU方案。2)简化设计:LPU是一种新型的端到端处理单元系统，不同于 GPU SIMD(单指令、多数据)模型采用更简洁的方法消除了对复杂调度硬件的需求。该设计允许有效地利用每个时钟周期，以确保一致的延迟和吞吐量。3)擅长LLM：LPU可以为具有序列组件的计算密集型应用程序(如LLM)提供极快的推理速度。LPU的核心意义是克服两个LLM瓶颈——计算密度和内存带宽。Groq芯片采用14nm工艺，配备230MBSRAM，保证内存带宽，内存带宽达到80TB/s。Gorq芯片的整型(8位)运算速度为750TOPS，浮点(16位)运算速度为188TFLOPS。

对于推理端的芯片格局，影响计算力端的性能更高(延迟指数、吞吐量指数等)。)、成本较低的芯片(单位token收费)有望在海量推理需求中提供新的供应端选项。预计应用程序端的低成本和高效推理过程将加速应用落地和普及搜索、创意设计、办公软件等内容生成领域，进一步促进推理需求的增长。微软、谷歌、苹果、相关标的海外科技巨头及应用Meta、Shopify、Duolingo等 ASIC芯片与芯片互联架构：Amazon、Alchips、关注英伟达/AMDASIC芯片进展、寒武纪、澜起科技、芯原股份交换机及光模块：Broadcomm、Marvel、Coherent、Arista、Fabrinet、徐创、天孚、新易盛边缘推理：苹果，Meta、TSMC、联想股份 AI应用：万兴科技、当虹科技、中广天择、中文在线等存储：北京君正、纳思达、中电港、光力科技、C华微。三思行研