人工智能硬件&软件开发专家交流反馈
人工智能硬件&软件开发专家交流反馈【完整版纪要同名,已上传过了】
专家也认为模型性能提升趋于平稳,确实看到了收益递减的情况。但同时创新还在发生,比如通过模型架构及压缩方式的改变、硬件的创新、更好的数据集(扩充和质量提升),来触发下一轮性能提升。英伟达和各种AI芯片创新公司将推动硬件创新,Mistral 和 Falcon Mamba 架构等正在对 Transformer 架构发起挑战,同时其他模型架构改进也正在进行中。(我之前提过一家华人做的all in RL的公司,他们最近炙手可热...)
由于训练成本越来越高,只有少数CSP才有能力押注于训练。随着扩展定律收益递减,它们的策略可能会转向争夺客户、商业化、以及客户留存(很像现在的微软)。随着更加关注模型可部署性、创造营收,推理的重要性势必提高。开源模型地位会提升,AI应用厂商可以不用从头训练模型,在开源模型基础上,专注于构建应用,类似于云操作系统时代的Linux。
OpenAI的o1所提倡的测试时间计算在未来不会成为常态,而只是解决准确性问题的一种变通方法。尽管测试时间计算通过在推理中进行前向和后向传递,能够解决安全和准确性方面的挑战,但在较大模型中每个请求的Token消耗会相当高(运行长推理工作负载时消耗的标记大约高出过去4-5倍),并且必须使用云端昂贵的GPU集群(无法在设备端运行),。未来或许会有比测试时间计算更好的方法来解决准确性问题。(但专家也没说其他方法是什么)
。
(数据中心计算、边缘计算相结合),能够根据问题的复杂性、性质进行拆分查询,并将其导向边缘或云,从而解决计算能力方面的挑战。随着应用的涌现,会看到端侧AI模型的采用率提高,因为计算机中的每一层在拥抱AI(从底层内核到操作系统再到用户应用APP)。从商业经济学角度来看,。
。生态参与者基本都认同,拥有一个基本开放的连接协议、能够随着时间推移实现改进,是未来的发展趋势。(这次ASIC的大突破如果逐渐兑现,对网络厂商是明显利好,NV在网络上的搭售和“垄断”,对比ASIC的开放生态)
:由于对前沿半导体存在出口限制,中国AI芯片计算密度较低,他们可以采用横向扩展的方法。某些美国公司,如Groq和Cerebras,它们的芯片基于非前沿半导体工艺(12/14/16纳米),采用这种方法进行横向扩展。
:英伟达GPU、CSP+博通/Marvell的自制ASIC、新兴AI芯片设计厂商(Tenstorrent、Groq、Cerebras等,采用全新架构)。显然,。但GPU面临一个根本问题,即将数据从芯片内转移到芯片外的成本对它们来说持续居高不下。因为GPU最初并非为大规模矩阵乘法、激活函数、处理如此大的模型尺寸而设计。其存储层次和数据访问模式对矩阵乘法不一定是最理想的。GPU通常高速缓存较小,完整内容联系微信kk152056当处理大规模矩阵乘法时,频繁的数据传输和存储访问延迟可能会成为性能瓶颈,也就是所谓内存墙。。比如TPU的脉动阵列架构可以高效地处理矩阵乘法。再比如Groq将RAM置于处理器内部,无需进行芯片外的数据传输,因此展现出更高吞吐。另一种路线是最近很热门的D-Matrix存内计算,在某些场景下确实会比GPU好。例如D-Matrix每秒可处理多达6万token,Groq在某些性能基准测试中比GPU快10-15倍。
感谢提供信息分享。
页:
[1]