OpenAI o3系列模型理工编程能力较o1更强，国内外共振拉动算力需求强烈

恋恋不舍不舍 · 发表于 2024-12-23 19:42

马上注册，享用更多功能，让你轻松玩转本论坛。

您需要登录才可以下载或查看，没有账号？立即注册 sms 手机登录

×

【天风通信】OpenAI o3系列模型理工编程能力较o1更强，国内外共振拉动算力需求强烈
事件：近日OpenAI新发布o3系列模型双版本，其中o3旗舰版推理性能强大，o3 mini性价比高，o3算力需求强烈，利好北美AI算力链条，前期调整充分的旭创等大涨5%。
我们点评如下：
相较o1，o3具备更强大的理工、编程能力。O3在美国AIME数学竞赛中拿到96.7%的准确率，o1准确率为83.3%；并在GPQA科学问题测试中拿到87.7%，o1准确率为78%。同时，o3在SWE-Bench Verified软件工程考试中拿到71.7%准确率（o1准确率48.9%），在CodeForces编程竞赛中拿到2727 ELO分数（o1分数1891）。
突破点：利用CoT（chain of thought）的方式实现复杂任务推理；提出审议式对齐（deliberative alignment）来约束模型执行安全规范。
亮点：可以根据算力设定调整任务推理能力和所需时间（之前o1没有）；在ARC-AGI测试上表现较其他模型显著提升，尤其是复杂任务推理能力的表现；
AGI进程加速：ARCAGI抽象推理任务测试中，o3分数87.5%，超过人类阈值分数85%；过去几代模型在该项测试从0%到5%花了5年，而从5%到87.5时间仅半年。o3系列模型目前只开放外部安全测试申请，预计正式发布时间为25年1月。
o3算力消耗惊人，低算力模式下单任务成本也需要17-20美元。
12月以来，海外OpenAI举办“OpenAI 12天”活动期间推出o1 pro、ChatGPT Pro会员上线、Sora、o3系列模型；Google发布Gemini 2.0 Flash Thinking模型，该模型在推理过程中能直接显示思考过程。国内火山引擎FORCE原动力大会发布豆包模型家族全面升级，其中豆包视觉理解模型价格普惠，新增视觉识别+推理+视觉描述能力，豆包通用模型日均下载量超80万。
综上，我们认为海外算力需求持续强劲；而相较海外AI产业侧重在研发端，国内更侧重应用端，字节效应有望倒逼BAT在25年加快AI布局，并推动国产AI产业进入军备竞赛元年，未来资本开支有望共振，将极大提振AI产业信心和估值：
（1）北美AI供应链调整充分，估值低业绩好，蓄势待发之中：光模块（旭创、新易盛、天孚、德科立、太辰光、源杰等），PCB（沪电、生益电子、胜宏），铜连接（沃尔核材、神宇），电源&散热（麦格米特、英维克）；结构上重视博通链条以及映射：华懋科技、盛科通信、紫光、锐捷、中兴。
（2）字节链持续发酵中：润泽科技、光迅科技/中际旭创、申菱环境/英维克、华工科技/博创科技、中兴通讯、锐捷网络、光环新网、彩讯股份等。
（3）腾讯阿里百度算力产业链周末受到关注有扩散发酵趋势：科华数据（腾讯）、润建股份（阿里）、奥飞数据（百度快手）、紫光股份、菲菱科思。。

我远方的家 · 发表于 2024-12-23 20:02

好好学习天天向上

王运成 · 发表于 2024-12-24 18:38

感谢提供信息分享。