人工智能硬件&软件开发专家交流反馈

恋恋不舍不舍 · 发表于 2024-12-15 07:51

马上注册，享用更多功能，让你轻松玩转本论坛。

您需要登录才可以下载或查看，没有账号？立即注册

×

人工智能硬件&软件开发专家交流反馈
【完整版纪要同名，已上传过了】
专家也认为模型性能提升趋于平稳，确实看到了收益递减的情况。但同时创新还在发生，比如通过模型架构及压缩方式的改变、硬件的创新、更好的数据集（扩充和质量提升），来触发下一轮性能提升。英伟达和各种AI芯片创新公司将推动硬件创新，Mistral 和 Falcon Mamba 架构等正在对 Transformer 架构发起挑战，同时其他模型架构改进也正在进行中。（我之前提过一家华人做的all in RL的公司，他们最近炙手可热...）
由于训练成本越来越高，只有少数CSP才有能力押注于训练。随着扩展定律收益递减，它们的策略可能会转向争夺客户、商业化、以及客户留存（很像现在的微软）。随着更加关注模型可部署性、创造营收，推理的重要性势必提高。开源模型地位会提升，AI应用厂商可以不用从头训练模型，在开源模型基础上，专注于构建应用，类似于云操作系统时代的Linux。
OpenAI的o1所提倡的测试时间计算在未来不会成为常态，而只是解决准确性问题的一种变通方法。尽管测试时间计算通过在推理中进行前向和后向传递，能够解决安全和准确性方面的挑战，但在较大模型中每个请求的Token消耗会相当高（运行长推理工作负载时消耗的标记大约高出过去4-5倍），并且必须使用云端昂贵的GPU集群（无法在设备端运行），。未来或许会有比测试时间计算更好的方法来解决准确性问题。（但专家也没说其他方法是什么）
。
（数据中心计算、边缘计算相结合），能够根据问题的复杂性、性质进行拆分查询，并将其导向边缘或云，从而解决计算能力方面的挑战。随着应用的涌现，会看到端侧AI模型的采用率提高，因为计算机中的每一层在拥抱AI（从底层内核到操作系统再到用户应用APP）。从商业经济学角度来看，。
。生态参与者基本都认同，拥有一个基本开放的连接协议、能够随着时间推移实现改进，是未来的发展趋势。（这次ASIC的大突破如果逐渐兑现，对网络厂商是明显利好，NV在网络上的搭售和“垄断”，对比ASIC的开放生态）
：由于对前沿半导体存在出口限制，中国AI芯片计算密度较低，他们可以采用横向扩展的方法。某些美国公司，如Groq和Cerebras，它们的芯片基于非前沿半导体工艺（12/14/16纳米），采用这种方法进行横向扩展。
：英伟达GPU、CSP+博通/Marvell的自制ASIC、新兴AI芯片设计厂商（Tenstorrent、Groq、Cerebras等，采用全新架构）。显然，。但GPU面临一个根本问题，即将数据从芯片内转移到芯片外的成本对它们来说持续居高不下。因为GPU最初并非为大规模矩阵乘法、激活函数、处理如此大的模型尺寸而设计。其存储层次和数据访问模式对矩阵乘法不一定是最理想的。GPU通常高速缓存较小，完整内容联系微信kk152056当处理大规模矩阵乘法时，频繁的数据传输和存储访问延迟可能会成为性能瓶颈，也就是所谓内存墙。。比如TPU的脉动阵列架构可以高效地处理矩阵乘法。再比如Groq将RAM置于处理器内部，无需进行芯片外的数据传输，因此展现出更高吞吐。另一种路线是最近很热门的D-Matrix存内计算，在某些场景下确实会比GPU好。例如D-Matrix每秒可处理多达6万token，Groq在某些性能基准测试中比GPU快10-15倍。

王运成 · 发表于 2024-12-16 09:07

感谢提供信息分享。

账号		自动登录	找回密码
密码			立即注册

人工智能硬件&软件开发专家交流反馈

马上注册，享用更多功能，让你轻松玩转本论坛。

浏览过的版块