个人推测明年AI大概率发生的几个事情:
AI模型部分:
- llama-4 (这个几乎板上钉钉了,明年第一季度,如果推理能力不强,llama可能要跑偏)
- Gemini-2.5-flash-thinking (明年第二季度,更好的推理模型,正式下放到例如浏览器的google平台)
- Claude-4 (明年第一季度,拥有更强的推理能力,写代码上下文理解能力更强(目前这点一般般,体现在写C,CPP,Rust,对全局变量或者跨多个作用域的变量理解很垃圾))
- Qwen3 (明年第二季度,拥有推理能力)
- GPT-5 (明年第二季度,但我估计是个better推理模型这样,不会比o3强太多,但是价格会比o3下降很多,使其商业可用)
关于推理:
- 推理模式的商业模型和开源模型将全面爆发,大家开始卷性能和价格(明年第二季度之后)
- 受限于推理模式的性能限制,可能会出现新的基于推理的开源基础框架(明年第二季度)
- 推理水平接近人类的80% (明年第三季度,目前ARC-AGI测试大概是人类的65%左右,见图1)
关于性能和设备:
- 消费级显卡8卡极致算力可以达到 150token/s (明年第一季度,70b-4bit模型,假定5090显存带宽有1700GB/s+)
- 新的基于推理的MoE模型(明年第二季度,因为推理很慢所以想要本地部署只能MoE)
- Mac M4 Ultra,算力达到20token/s(明年第二季度,70b-4bit模型,假定这次内存带宽能达到1024GB/s)
- A100 租赁价格降低到0.5USD/min,(明年第二季度,现在是0.81左右,按照关机价来算,现在显卡租赁还是嗷嗷赚钱的状态,A100才300W,A100按照25000USD计算,一年回本,每小时成本是2.85USD,再假设其他成本0.1USD每分钟,加州电费是0.35USD/KWh, 总体关机价格大概是3USD每小时,即0.05USD/min, 赚到爆)
商业化部分:
- 各家都在卷RAG与推理深度融合,估计明年RAG效果会有很大的提升(明年第二季度)
- 川普会进一步限制新显卡出口,所以国内的自研卡商盈利面还是很不错的,CUDA的护城河远没有光刻先进制程和GPU架构那么高 (持续)
- 各种设备都开始尝试搭载模型或者本地小模型(明年第一季度,手机,笔记本,智能音箱)
- 端的专用AI设备昙花一现 (到明年第四季度,没错我不看好这方面的专用硬件,比如AI眼镜。我认为始终应该是AI融合进现有高频设备比较靠谱)
展望明年,各位怎么看?