guanjiawei.ai关嘉伟的个人主页

标签:

模型

7 篇文章

AI Anthropic 模型思考

智能开始论贫富

Fable 5 跑了个硬核任务，15 小时，420 美元。模型确实变强了。但 6 月 22 日之后从Coding Plan订阅移除，按 API 费率买，成本差了一个数量级。谁能用最好的智能，变成了一个纯粹的钱的问题。

2026年6月11日3 分钟阅读

AI 模型评测强化学习思考

模型还在变强，但「最强」已经没有标准答案

一个朋友用模型做小工具，觉得已经够牛了；任务一复杂，就开始反复被告知「我搞定了」但其实没搞定。这背后是一个正在发生的分叉：benchmark 分数挤在天花板、彼此快测不出差异，真实体感却越拉越开。会解最难的题、能可靠办成一件糙活、会探索没有标准答案的问题，正变成三种不同的能力。而最要紧的那一维，恰恰最难测、也最难练。

2026年6月3日6 分钟阅读

AI 模型 OpenAI Anthropic 思考

风水轮流转：模型一个半月一代

GPT-5.5 今天发了，距 5.4 才一个半月。Opus 4.7 上周发了，距 4.6 才两个月。更逗的是 GPT 终于说人话了，Opus 反而开始不说了。这个节奏下，判断本身的半衰期都变短了。

2026年4月24日5 分钟阅读

AI DeepSeek Infra 模型思考

DeepSeek V4 这一天：比的是 Infra，不是模型

V4 能力卡在 Opus 4.6 一档，但把 FP4 推到生产、百万上下文做成默认、国产芯片 day-0 适配，对所有做推理 Infra 的人都是灾难。加上 GPT-5.5、Vision Banana、LPM 1.0，这一周挤进来的新东西比过去一整个季度都多。

2026年4月24日6 分钟阅读

AI Claude 模型 OpenClaude 性能优化思考

Opus 4.7 上线前后这两天

昨晚 Opus 4.7 发布，我就没睡成。起来试了试，顺手给 OpenClaude 提了几个 PR 合进了主干，还把 Strix Halo 上 Qwen3-30B 的 prefill 推到了接近 DGX Spark 的水平。Agent 够强之后，一个人能同时做几件事，变成了一个挺具体的问题。

2026年4月17日7 分钟阅读

AI 开源模型思考

开源社区的 DeepSeek 时刻

调研文生视频的时候发现，中国模型在语言模型开源社区的统治力并没有延伸到所有地方。回头看这三年，从 LLaMA 到千问到 DeepSeek，开源社区经历了什么？现在又在等什么？

2026年4月7日5 分钟阅读

AI 模型工具工作流

六个模型，六种脾气

每天都在切模型。Opus莽但能打，GPT 5.4全面但老跑偏，Gemini有审美改不对bug，三个国产各有各的毛病。用多了你会发现，换模型比调参数更管用。

2026年3月13日3 分钟阅读