恋恋不舍不舍 发表于 2024-12-23 19:42

OpenAI o3系列模型理工编程能力较o1更强,国内外共振拉动算力需求强烈

【天风通信】OpenAI o3系列模型理工编程能力较o1更强,国内外共振拉动算力需求强烈
事件:近日OpenAI新发布o3系列模型双版本,其中o3旗舰版推理性能强大,o3 mini性价比高,o3算力需求强烈,利好北美AI算力链条,前期调整充分的旭创等大涨5%。
我们点评如下:
相较o1,o3具备更强大的理工、编程能力。O3在美国AIME数学竞赛中拿到96.7%的准确率,o1准确率为83.3%;并在GPQA科学问题测试中拿到87.7%,o1准确率为78%。同时,o3在SWE-Bench Verified软件工程考试中拿到71.7%准确率(o1准确率48.9%),在CodeForces编程竞赛中拿到2727 ELO分数(o1分数1891)。
突破点:利用CoT(chain of thought)的方式实现复杂任务推理;提出审议式对齐(deliberative alignment)来约束模型执行安全规范。
亮点:可以根据算力设定调整任务推理能力和所需时间(之前o1没有);在ARC-AGI测试上表现较其他模型显著提升,尤其是复杂任务推理能力的表现;
AGI进程加速:ARCAGI抽象推理任务测试中,o3分数87.5%,超过人类阈值分数85%;过去几代模型在该项测试从0%到5%花了5年,而从5%到87.5时间仅半年。o3系列模型目前只开放外部安全测试申请,预计正式发布时间为25年1月。
o3算力消耗惊人,低算力模式下单任务成本也需要17-20美元。
12月以来,海外OpenAI举办“OpenAI 12天”活动期间推出o1 pro、ChatGPT Pro会员上线、Sora、o3系列模型;Google发布Gemini 2.0 Flash Thinking模型,该模型在推理过程中能直接显示思考过程。国内火山引擎FORCE原动力大会发布豆包模型家族全面升级,其中豆包视觉理解模型价格普惠,新增视觉识别+推理+视觉描述能力,豆包通用模型日均下载量超80万。
综上,我们认为海外算力需求持续强劲;而相较海外AI产业侧重在研发端,国内更侧重应用端,字节效应有望倒逼BAT在25年加快AI布局,并推动国产AI产业进入军备竞赛元年,未来资本开支有望共振,将极大提振AI产业信心和估值:
(1)北美AI供应链调整充分,估值低业绩好,蓄势待发之中:光模块(旭创、新易盛、天孚、德科立、太辰光、源杰等),PCB(沪电、生益电子、胜宏),铜连接(沃尔核材、神宇),电源&散热(麦格米特、英维克);结构上重视博通链条以及映射: 华懋科技、盛科通信、紫光、锐捷、中兴。
(2)字节链持续发酵中:润泽科技、光迅科技/中际旭创、申菱环境/英维克、华工科技/博创科技、中兴通讯、锐捷网络、光环新网、彩讯股份等。
(3)腾讯阿里百度算力产业链周末受到关注有扩散发酵趋势:科华数据(腾讯)、润建股份(阿里)、奥飞数据(百度快手)、紫光股份、菲菱科思。。

我远方的家 发表于 2024-12-23 20:02

好好学习天天向上

王运成 发表于 2024-12-24 18:38

感谢提供信息分享。
页: [1]
查看完整版本: OpenAI o3系列模型理工编程能力较o1更强,国内外共振拉动算力需求强烈