固原隔热条设备厂家告别「单科」：个Agent进化框架EEVEE发布

新闻资讯 | 2026-06-23 00:59

当年两年，AI Agent 的才能边界被不停刷新：会写代码、会调用器具、会反想失败固原隔热条设备厂家，也初始能在职求实施中积贮教学。

但个本质的问题正在披露：

要是个 Agent 真的被部署到真实宇宙，它还能陆续变强吗？

不是在个固定 benchmark 上反复刷分，也不是只针对某种任务改 prompt，而是在真实使用中同期面临代码、数学、常识问答、公式计较、复杂理等不停变化的任务输入，还能不成握续顺应、安靖擢升？

这恰是 EEVEE 想处分的问题。

来自与普林斯顿大学的参议团队发布了 EEVEE，个面向 LLM Agent 的测试时指示学习框架。它试图把 prompt learning 从 “单任务化” 向接近真实部署的场景：让智能体在多类型任务不停涌入时，仍然大略陆续学习，而不是纳屦踵决。

论文聚会：https://arxiv.org/abs/2606.11182阵势主页：https://princeton-ai2-lab.github.io/EEVEE/开源代码：https://github.com/Princeton-AI2-Lab/EEVEE单任务上的跳动，还不够

今天也曾有许多 prompt optimization 法不错让模子在个任务上变得好。

举例，在个数学题集上学会严谨的解题智力；在个代码任务上学会输出表率的函数体；在个问答任务上学会符评测体式的回话。

这很有价值，但它离真实 Agent 还差步。

真实部署中的 Agent 不会只遭受种任务。它可能上秒在写代码，下秒在作念金融公式计较，再下步又要回话科学问题。不同任务需要的手脚不同：有的要求严格输出体式，有的要求象征理，有的要修业识判断，有的要求可实施代码。

要是悉数反映皆被塞进同个 prompt，问题就会出现：

个任务上学到的教学，可能会伤害另个任务。

比如，为了公式题学到 “只输出数字”，可能会影响需要证据理流程的题；为了代码题学到 “只输出函数体”，也可能不适常识问答。任务越多，单 prompt 越容易变成个彼此突破的杂糅体。

这等于 EEVEE 要面临的中枢挑战：智能体不成只在单科变强，而要在多种任务中起进化。任务越多，差距越昭着

EEVEE 有劝服力的后果，不是单个任务上的分数，而是任务不停加多时的进展。

参议团队把多个不同类型的任务轮番加入同个学习流程，不雅察 prompt learning 法能不成握续累积收益。

后果尽头成功：

当任务越来越多时，些强基线法的收益初始罢手重迭，致使跌到负数；而 EEVEE 仍然保握正向擢升，终在职务一起加入后达到约+42 的累计擢升

换句话说固原隔热条设备厂家，EEVEE 的势不是 “单点提分”，而是任务变复杂之后还能陆续往上走。

这尽头要津。因为真实宇宙里的 Agent，面临的历久不是个干净、阻滞、单的任务环境，而是不停变化的任务组。全位擢升：不同模子上皆有

在主实验中，参议团队使用了四类代表任务：常识问答、公式计较、数学 / 象征理、代码生成。这些任务放在起，组成了个接近真实 Agent 责任负载的混环境。

在这个诞生下，EEVEE 在不同 backbone 上皆带来了昭着擢升：

在 Qwen3-4B-Instruct 上，平中分从 41.37 擢升到 51.75，相对擢升约25在 DeepSeek-V3.2 上，平中分从 39.75 擢升到 64.07，相对擢升约61比较现存 SOTA prompt-learning 法，相对擢升达到48.2

这证据 EEVEE 并不是只对某个模子、某个任务有，而是在平淡的混任务诞生中，皆能让智能体取得安靖的合座擢升。不仅仅 “多开几个 prompt”：EEVEE 怎么让智能体单干进化？

EEVEE 的想路不错用句话玄虚：

先分流，再用门 prompt 理。

它不再让悉数任务分享个 prompt，而是珍爱多个 specialized prompts。每当输入到来，EEVEE 会先判断它适哪类 prompt，再让模子带着对应 prompt 去回话。

但这不是简便的东说念主工分类。

EEVEE 不会事前王法 “数学题走数学 prompt，代码题走代码 prompt”。因为真实任务的互异经常不在名义任务称号上，而在不同 prompt 的骨子进展上。

通常是数学题，有的需要公式计较，塑料挤出设备有的需要定理理，有的需要严格输出体式。果然有效的永别，是在学习流程中迟缓酿成的。

这也带来了要津难点：router 和 prompt 不成分开学。

router 决定每个 prompt 会看到哪些样本；prompt 的才能又决定了怎么的路由是有有趣的。

因此，EEVEE 接收 router–prompt co-evolution：先化 router，再行永别任务；再化每个 prompt；随后把新后的 prompt 反映给下轮 router。这个流程不停轮回，让开由认知，prompt 门化。

终，智能体不是靠个越来越长、越来越交加的 prompt 顺应悉数任务，而是把教学组织起来，让不同任务模式插足适的学习旅途。单任务上依旧秀

个天然的问题是：要是 EEVEE 是为多任务策画的，它会不会葬送单任务才能？

实验骄横并莫得。

当每个 benchmark 单进行 prompt learning 时，EEVEE 仍然保握很强的竞争力。举例：

Formula 任务达到HumanEval 任务达到TheoremQA 从 14.73 擢升到

这证据 EEVEE 不是靠 “路由” 掩饰 prompt learning 自己的不及。违抗，它的 prompt 学习机制在单任务上通常有；当任务变多时，router 才跳动施展组织教学、避彼此搅扰的作用。不靠堆砌凹凸文

许多让 Agent 变强的法，皆有个共同作用：凹凸文越来越长。

系统不停把教学、王法、案例、playbook 追加进 prompt，短期看可能有，但任务多，老本就会赶快飞腾，prompt 也会变得冗长交加。

EEVEE 莫得走这条路。

天然它加多了个路由智力，但合座 token 老本仍然保握在较低水平。实验骄横，EEVEE 平均每个测试样本使用4.32K tokens，接近 prompt-learning 基线 GEPA 的3.47K，远低于 ACE 的21.30K

也等于说，EEVEE 的擢升并不是靠限推广凹凸文堆出来的，而是来自有的任务组织和 prompt specialization。Prompt learning 果然学到的是什么？

论文中的案例分析也揭示了个很焦虑的征象：

Prompt learning 擅长学习的，不是杜撰补充常识，而是把反映养息成可复用的作念事式。

在代码任务中，它能学会保握函数接口、输出可实施代码、处理边界条目；在公式任务中，它能学会正确套公式、保握单元范例、输出符评测要求的谜底体式。

但关于常识密集型问答，情况会复杂。Prompt learning 不错让模子理系统，却不定能补上缺失的域常识。要是模子自己贫困要津事实，单靠 prompt 不定能处分。

这证据 EEVEE 并不是在声称 prompt learning 不错处分切。它果然展示的是：当反映大略变成可复用的流程、体式和战术时，智能体不错在测试时握续招揽这些教学，并把它们组织到适的 prompt 中。

这比单纯 “改个 prompt” 接近真实 Agent 的学习式。让 Agent 从单科跳动走向全位进化

当年的 prompt optimization，像是在进修个 Agent 作念好某门课。

它不错在个固定任务上反复熟谙，迟缓摸清法例，拿到分数。

但真实宇宙要求的不是 “单科提分”，而是接近 “全科成长”：任务不停变化，反映不停变化，才能需求也不停变化。个果然有效的 self-improving Agent，须能在部署后陆续顺应这些变化，而不是只在单 benchmark 上越来越熟练。

EEVEE 的有趣就在于此。

它把 test-time prompt learning 从单任务向多类型任务共同到来的场景，让智能体初始学习怎么组织教学、区分任务模式、保留不同才能，并在复杂任务流中陆续擢升合座进展。

这还不是终形态。论文也指出，EEVEE 仍然依赖 ground-truth 或 rule-based feedback，还不是在线、自监督的自我擢升系统。

但它迈出了要津步：当智能体果然面临真实宇宙中复杂、各样、不停变化的任务时，prompt learning 仍然不错成为种有的握续顺应机制。

从单任务到全位进化，这恰是 EEVEE 想开的扇门。

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：宿州塑料挤出设备厂家 “老登”追思涨，三个被暴虐的“酬劳”板块

下一篇：没有了

新闻资讯

固原隔热条设备厂家 告别「单科」：个Agent进化框架EEVEE发布

固原隔热条设备厂家告别「单科」：个Agent进化框架EEVEE发布