作者 | 钱德新
近期,Agnes AI(https://agnes-ai.com)旗下文本模型Agnes-2.0-Flash、图片模型 Agnes-Image-2.0-Flash 以及视频模型Agnes-Video-2.0连续进入多个国际评测榜单。在行业开始重新评估“真实AI能力”的阶段,这家公司正在试图用另一种方式进入市场:不是只强调模型参数,而是同时推进榜单能力、低成本API和真实Agent场景落地。
其中,文本模型Agnes-2.0-Flash进入了Agent评测体系 Claw-Eval 前列。与传统数学、知识问答或代码类 Benchmark不同,Claw-Eval 更关注模型在真实Agent场景中的执行能力,包括工具调用、多步骤规划、复杂任务拆解以及自动化工作流完成率等能力。这类评测也被很多开发者视为目前最接近真实AI Agent能力的一类Benchmark。
与此同时,图片模型Agnes-Image-2.0-Flash进入了 Artificial Analysis Image Editing Leaderboard前列。这个榜单最大的特点在于采用真实用户盲评机制,参与评测的用户并不知道图片对应的模型来源,只根据最终生成质量进行主观选择和打分。因此,相比传统自动化评分体系,这类榜单通常被认为更接近真实用户体验。
除了文本与图片模型外,视频模型Agnes-Video-2.0也已经进入Artificial Analysis的 Image-to-Video(With Audio)榜单。
从目前行业情况来看,能够同时覆盖文本、图片、视频三大模态,并持续在国际评测中进入前列的AI Lab并不多。Agnes目前的策略也开始逐渐清晰:通过多模态模型能力建立认知,再通过低成本API和开发者生态扩大使用规模。
相比榜单,更值得关注的是Agnes目前公布的API定价。
根据官方信息,Agnes-2.0-Flash输入价格为{随机新闻正文}.03/1M Tokens,输出价格为 {随机新闻正文}.15/1M Tokens。这一定价已经明显低于目前市场上不少主流模型(价格仅为Claude Opus4.6的0.6%)。
在过去一年,越来越多开发者开始发现,真正消耗Token的并不是简单聊天,而是Agent 工作流。尤其是在Browser Agent、Coding Agent多工具调用以及长链路任务执行场景中,一个任务往往会产生大量上下文、搜索请求和工具调用。模型能力提升的同时,Token成本也开始快速增长。
很多AI创业团队现在面临的问题已经不再只是“模型够不够强”,而是“产品是否还能负担长期调用成本”。
而Agnes这次的方向很明确:进一步降低开发者使用AI的门槛。
除了文本模型外,图片模型Agnes-Image-2.0-Flash的价格同样非常低。目前官方价格为 /1000张图片。在电商图生成、营销素材、多版本广告图以及批量图片编辑场景下,这一定价已经可以支持较大规模调用。
视频模型Agnes-Video-V2.0的定价则为{随机新闻正文}.30/分钟,同样显著低于当前行业平均水平。在AI视频生成仍然普遍面临高推理成本的背景下,这一定价已经开始具备大规模内容生产与商业化落地的可能性。
与此同时,Agnes的宣传方向也开始明显从“模型打榜”转向“真实案例”。
目前已有开发者开始基于Agnes搭建游戏Agent、网页操作Agent和自动化工作流系统。例如游戏场景中的任务执行、UI操作、多步骤策略执行,以及Browser Agent 场景中的网页导航、表单填写、信息整理和自动搜索等。
本案例基于 Agnes Harness 架构
并搭载自研文本模型 Agnes-2.0-Flash 实现
这些场景对于模型的要求并不仅仅是回答问题,而是要求模型具备更稳定的上下文记忆能力、更准确的工具调用能力以及更强的长链路执行能力。
而在图片编辑领域,Agnes-Image-2.0-Flash已经支持通过自然语言直接完成复杂编辑任务,包括背景替换、风格迁移、多图融合、字体修改以及商品图编辑等。
提取女性角色并将其放置在一个新的背景中
高密度信息图
这种方向本质上正在把传统复杂图片编辑流程,逐渐变成“自然语言 + 图片”的统一交互方式。
目前,三款模型均已正式上架官网(https://agnes-ai.com),开发者已经可以直接通过Agnes AI Platform 进行API调用。
当前行业一个越来越明显的问题是:模型能力持续提升,但 AI 的使用成本也在同步提升。尤其是在Codex、Agent Workflow、多Agent系统以及Browser Use等场景中,大规模调用已经成为很多团队最核心的成本压力。
因此,越来越多AI公司开始重新竞争“推理成本”与“开发者生态”。
从目前公开路径来看,Agnes的策略与过去一年部分头部模型公司的增长路线已经有一定相似之处:先通过国际榜单建立模型认知,再通过低价格API快速扩大开发者使用规模,最终推动Agent与多模态生态落地。