本博评论:当今科技的发展以人工智能为主,令人眼花缭乱。一旦脱离世界潮流,就像北韩比大A...以下摘自网络
Groq一夜爆红,自研LPU速度碾压英伟达GPU
英伟达的挑战者Groq出现了!放弃GPU,开发自己的LPU!文本生成速度比眨眼快!推理场景比英伟达GPU快10倍,但价格和功耗只有后者的十分之一。
一觉醒来,AI圈又变天了。
在消化了Sora带来的冲击之前,另一家硅谷初创公司以历史上最快的大模型和自主研发的芯片LPU占据了热门搜索。
就在昨天,人工智能芯片制造商Groq(不是马斯克的Gork)开放了自己产品的免费试用。与其他人工智能聊天机器人相比,Groq闪电响应速度迅速引爆了互联网讨论。经过网民测试,Groq每秒生成近500 tok/s,碾压GPT-4的40 tok/s。
有网友震惊地说:
它的回复速度比我眨眼快。
但需要强调的是,Groq并没有开发出新的模型,它只是一个模型启动器,开源模型Mixtral运行在主页上 8x7B-32k,Llama 270B-4k。
来自驱动模型的硬件Groq并没有使用英伟达的GPU,而是开发了一种新型的AI芯片--LPU(Language Processing Units)。
每秒500 tokens,写论文比眨眼快
LPU最突出的特点是速度快。
Groq根据2024年1月的测试结果 LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。
前一篇文章提到,Groq LPU搭配Meta Llama 2 70B可以在7分钟内生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人打字速度快75倍。
一些推特网友问了一个与营销相关的专业问题,Groq在四秒钟内输出了成千上万个单词。
LPU,英伟达GPU的挑战者
Groq还没有开发出新的模型,它只是使用了不同的芯片。
根据Groq官网的介绍,LPU是专门为AI推理设计的芯片。GPU驱动,包括GPT等主流大型模型,是一种图形渲染并行处理器,有数百个核心,LPU架构不同于GPUSIMD(单指令、多数据),该设计可以使芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也减少了对复杂调度硬件的需求:
GroqLPU推理引擎不是一个普通的处理单元;它是一个端到端系统,为需要大量计算和连续处理的应用程序(如LLM)提供最快的推理。LPU推理引擎的性能比传统GPU高出几个数量级,以消除外部内存瓶颈。
简单地说,对用户来说,最直观的体验是'快'。
使用过GPT的读者必须知道等待大模型一个接一个地吐出字符是多么痛苦,而LPU驱动的大模型基本上可以实时响应。
问GroqLPU和GPU的区别,Groq生成这个答案需要不到3秒的时间,完全不像GPT、Gemini有明显的延迟。如果用英语提问,生成速度会更快。
Groq的官方介绍还显示,创新的芯片架构可以使多个张量流处理器(Tensor Streaming Processor,TSP连接在一起,没有GPU集群中的传统瓶颈,因此具有很高的可扩展性,简化了大规模人工智能模型的硬件要求。
能效也是LPU的另一个亮点。LPU每瓦特可以通过降低管理多线程的成本,避免内核利用率不足来提供更多的计算能力。
Groq创始人兼首席执行官Jonathan 在采访中,Ross永远不会忘记给英伟达眼药。
此前,他告诉媒体,在大模型推理场景中,Groq LPU芯片比英伟达GPU快10倍,但价格和功耗仅为后者的十分之一。
实时推理是通过人工智能模型运行数据的计算过程,提供人工智能应用的即时结果,实现流畅的最终用户体验。随着人工智能模型的发展,对实时推理的需求激增。
Ross认为,推理成本正成为产品中使用人工智能的公司的问题,因为随着使用这些产品的客户数量的增加,运营模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大型模型推理提供更高的吞吐量、更低的延迟和更低的成本。
他还强调,由于技术路径不同,Groq芯片的供应比英伟达更充足,不会被台积电或SK海力士等供应商卡住:
GroqChip LPU的独特之处在于,它不依赖于三星或SK海力士的HBM,也不依赖于将外部HBM焊接到芯片上的CoWoS包装技术。
然而,一些人工智能专家在社交媒体上表示,Groq芯片的实际成本并不低。
如人工智能专家贾扬清分析,Groq的综合成本相当于英伟达GPU的30倍以上。
考虑到每个Groq芯片的内存容量为230MB,实际运行模型需要572个芯片,总成本高达1144万美元。
相比之下,8个H100系统的性能相当于Groq系统,但硬件成本仅为30万美元,年电费约为2.4万美元。Groq系统的运行成本远高于H100系统,
此外,更重要的是,LPU目前仅用于推广。去年8月,Groq还宣布了与三星的合作计划,称其下一代芯片将在德克萨斯州三星芯片厂生产4纳米芯片,预计量产时间为24年下半年。
展望下一代LPU,Ross认为Groqchip的能效将提高15到20倍,可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。
要训练大模型,还需要购买英伟达GPU。