找回密码
 立即注册

QQ登录

只需一步,快速开始

广告载入中...
查看: 39|回复: 2

OpenAI o3系列模型理工编程能力较o1更强,国内外共振拉动算力需求强烈

[复制链接]
发表于 2024-12-23 19:42 | 显示全部楼层 |阅读模式

马上注册,享用更多功能,让你轻松玩转本论坛。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
【天风通信】OpenAI o3系列模型理工编程能力较o1更强,国内外共振拉动算力需求强烈
事件:近日OpenAI新发布o3系列模型双版本,其中o3旗舰版推理性能强大,o3 mini性价比高,o3算力需求强烈,利好北美AI算力链条,前期调整充分的旭创等大涨5%。
我们点评如下:
相较o1,o3具备更强大的理工、编程能力。O3在美国AIME数学竞赛中拿到96.7%的准确率,o1准确率为83.3%;并在GPQA科学问题测试中拿到87.7%,o1准确率为78%。同时,o3在SWE-Bench Verified软件工程考试中拿到71.7%准确率(o1准确率48.9%),在CodeForces编程竞赛中拿到2727 ELO分数(o1分数1891)。
突破点:利用CoT(chain of thought)的方式实现复杂任务推理;提出审议式对齐(deliberative alignment)来约束模型执行安全规范。
亮点:可以根据算力设定调整任务推理能力和所需时间(之前o1没有);在ARC-AGI测试上表现较其他模型显著提升,尤其是复杂任务推理能力的表现;
AGI进程加速:ARCAGI抽象推理任务测试中,o3分数87.5%,超过人类阈值分数85%;过去几代模型在该项测试从0%到5%花了5年,而从5%到87.5时间仅半年。o3系列模型目前只开放外部安全测试申请,预计正式发布时间为25年1月。
o3算力消耗惊人,低算力模式下单任务成本也需要17-20美元。
12月以来,海外OpenAI举办“OpenAI 12天”活动期间推出o1 pro、ChatGPT Pro会员上线、Sora、o3系列模型;Google发布Gemini 2.0 Flash Thinking模型,该模型在推理过程中能直接显示思考过程。国内火山引擎FORCE原动力大会发布豆包模型家族全面升级,其中豆包视觉理解模型价格普惠,新增视觉识别+推理+视觉描述能力,豆包通用模型日均下载量超80万。
综上,我们认为海外算力需求持续强劲;而相较海外AI产业侧重在研发端,国内更侧重应用端,字节效应有望倒逼BAT在25年加快AI布局,并推动国产AI产业进入军备竞赛元年,未来资本开支有望共振,将极大提振AI产业信心和估值:
(1)北美AI供应链调整充分,估值低业绩好,蓄势待发之中:光模块(旭创、新易盛、天孚、德科立、太辰光、源杰等),PCB(沪电、生益电子、胜宏),铜连接(沃尔核材、神宇),电源&散热(麦格米特、英维克);结构上重视博通链条以及映射: 华懋科技、盛科通信、紫光、锐捷、中兴。
(2)字节链持续发酵中:润泽科技、光迅科技/中际旭创、申菱环境/英维克、华工科技/博创科技、中兴通讯、锐捷网络、光环新网、彩讯股份等。
(3)腾讯阿里百度算力产业链周末受到关注有扩散发酵趋势:科华数据(腾讯)、润建股份(阿里)、奥飞数据(百度快手)、紫光股份、菲菱科思。。

发表于 2024-12-23 20:02 | 显示全部楼层
好好学习天天向上
回复

使用道具 举报

发表于 2024-12-24 18:38 | 显示全部楼层
感谢提供信息分享。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|股海明灯官网 ( 京ICP备18020431号 )

GMT+8, 2024-12-26 02:43 , Processed in 0.098947 second(s), Total 12, Slave 11 queries , Gzip On, MemCached On.

Powered by Discuz! X3.5 Licensed

Copyright © 2001-2024 Tencent Cloud.

快速回复 返回顶部 返回列表