Horizon 每日速递 - 2026-07-03

从 123 条内容中筛选出 15 条重要资讯。

测量人类与 LLM 研究想法差距 ⭐️ 8.0/10
用于模仿学习的语言批评 ⭐️ 8.0/10
AutoMem 将记忆视为可训练技能 ⭐️ 8.0/10
Theoria 用可审计重写轨迹验证 AI 答案 ⭐️ 8.0/10
将状态与预测分离的 Transformer ⭐️ 8.0/10
FurnitureVLA 将 VLA 引入真实尺度双臂装配 ⭐️ 8.0/10
基准审计质疑编码代理进展 ⭐️ 8.0/10
D2D 揭示隐蔽的 LLM 偏置 ⭐️ 8.0/10
面向鲁棒非线性控制的 GPU 并行认证界 ⭐️ 8.0/10
从运动重建动态三维高斯世界 ⭐️ 8.0/10
RLVR 结合人类示范改进语言模型训练 ⭐️ 8.0/10
对抗语用学基准评估安全边界案例 ⭐️ 8.0/10
衡量 LLM 代理技能中的依赖风险 ⭐️ 8.0/10
DiscoPER 为自主科学加入元反思 ⭐️ 8.0/10
失败感知机器人重试框架 ⭐️ 8.0/10

测量人类与 LLM 研究想法差距 ⭐️ 8.0/10

这篇论文提出了一个大规模评估框架，用来比较 LLM 生成的研究想法与人类研究者的想法。论文还引入了一个双轴“研究品味”分类法，并发现不同 LLM 之间都存在一致的分布差距。这项工作不再只评价单个想法的新颖性或可行性，而是进一步考察模型在整体分布上是否接近人类研究者的思维方式。对于 AI 辅助科研来说，这很重要，因为优质构想不仅要“看起来合理”，还要覆盖人类研究者通常会关注的那些问题缺口和贡献方式。该框架先为每篇高质量人类论文反向梳理出一小组可能启发其核心想法的相关前作，再用论文标题和摘要提示 LLM 生成新想法。主要发现是，LLM 想法更集中在桥接型机会和综合方法上，而人类参考分布在如何定义问题缺口、以及如何构建贡献方面更为广泛。

arxiv · Ziyu Chen, Yilun Zhao, Arman Cohan · 7月1日 17:59

背景: 大型语言模型经常被用来头脑风暴研究想法，但以往评估通常只看单个想法本身。分类法是一种对事物进行归类的框架，这里论文用它从两个维度描述研究想法：机会模式和研究范式。其目标不仅是判断一个想法好不好，还要比较整体构思风格是否接近人类的研究品味。

参考链接

标签: #LLMs, #research ideation, #AI evaluation, #scientific discovery, #machine learning

用于模仿学习的语言批评 ⭐️ 8.0/10

这篇论文提出了一种用于从次优示范中进行模仿学习的语言批评框架，用结构化自然语言反馈取代置信度分数或判别器权重等标量信号。作者还将该方法分别应用到行为克隆和扩散策略中，形成了 LC-BC 和 LC-DP。这很重要，因为标量监督通常会丢失关于任务进展、失败模式和纠正动作的有用上下文，而语言可以更直接地保留这些信息。若该方法有效，它可能提升机器人和其他连续控制场景中从不完美示范学习策略的能力。该方法首先把示范转换为语言标签，描述当前进展、识别次优行为，并提供细粒度纠正建议，然后用语言批评损失直接训练策略，而不把反馈压缩成标量。论文还在标准假设下给出了专家性能差距的理论上界，并在导航、操作和游戏任务上报告了优于模仿学习与离线强化学习基线的结果。

arxiv · Chih-Han Yang, Dai-Jie Wu, Yun-Ping Huang, Ping-Chun Hsieh, Kenneth Marino, Shao-Hua Sun · 7月1日 17:57

背景: 模仿学习通过让策略模仿专家或接近专家的示范来进行训练，这在难以定义奖励函数时很有用。对于不完美的示范，先前工作通常使用判别器分数、置信度估计或重要性权重等标量监督来重新加权或筛选数据。行为克隆是最简单的模仿学习形式，而扩散策略把动作表示为去噪生成过程，并已在机器人领域变得流行。

参考链接

标签: #imitation learning, #reinforcement learning, #natural language supervision, #robotics, #diffusion policies

AutoMem 将记忆视为可训练技能 ⭐️ 8.0/10

AutoMem 提出了一种框架，同时自动化 LLM 智能体记忆结构的设计和记忆使用行为的训练。它将文件系统操作提升为一等记忆动作，并通过两个优化循环来改进长程任务中的记忆组织和记忆能力。这篇论文认为，记忆管理不仅是辅助功能，而是智能体可以独立学习的一种技能，这可能显著提升长程推理和规划任务的表现。如果这种方法具有普适性，它有望减少智能体系统中对人工提示和记忆架构调优的依赖。 AutoMem 的第一个循环使用更强的 LLM 审查完整智能体轨迹，并迭代修改记忆结构，包括提示词、文件模式和动作词表。第二个循环从大量回合中挖掘优秀的记忆决策，并将其转化为训练信号来直接提升智能体本身；作者报告称，在不改变基础任务动作策略的情况下，Crafter、MiniHack 和 NetHack 上的性能提升约为 2 倍到 4 倍。

arxiv · Shengguang Wu, Hao Zhu, Yuhui Zhang, Xiaohan Wang, Serena Yeung-Levy · 7月1日 17:57

背景: 元记忆是元认知的一部分，指对自身记忆过程进行监控和控制的能力，包括决定该存什么、何时检索等。对于 LLM 智能体来说，记忆通常用于在多步任务中跟踪长期任务、过去观察和先前决策。像 Crafter、MiniHack 和 NetHack 这样的长程游戏常被用作压力测试，因为有用信息往往在很早之前出现，却要到很久以后才会用到。

参考链接

标签: #LLM agents, #memory management, #long-horizon reasoning, #metamemory, #arXiv

Theoria 用可审计重写轨迹验证 AI 答案 ⭐️ 8.0/10

Theoria 提出了一种基于重写的验证架构，把候选答案转换为带类型的状态转移，并要求每一步都必须有明确依据，例如引用、计算或题目给定事实。它在 HLE-Verified Gold 的 185 道纯文本专家题上认证了 105 道，严格精度达到 91.4%；在 GPQA Diamond 上的认证精度为 97.1%。这之所以重要，是因为它在高可靠但覆盖面窄的形式化证明助手与覆盖更广但难以审计的 LLM 评审之间提供了一条中间路线。若能落地，它可能让 AI 答案验证在高风险的专家推理任务中更透明、更安全。其核心不变量是“变化完备性”：相邻证明状态之间的每一处差异都必须被解释清楚，因此隐藏前提会表现为未经授权的变异，而不会悄悄通过。论文还报告称，结构化评审在 95 个对抗性投毒证明中捕获了 94.7%，尤其在隐藏前提和虚构引用错误上优于整体式评审。

arxiv · Ben Slivinski, Michael Saldivar · 7月1日 17:56

背景: 像 Lean、Coq/Rocq 和 Isabelle 这样的形式化证明助手，会按照严格规则接受或拒绝证明，因此可信度很高，但很难直接用于大多数自然语言问题。LLM 评审可以更灵活地给答案打分，但其输出通常是黑箱式的，事后也很难审计。Theoria 试图把两者的优点结合起来，通过强制逐步给出明确依据，让每一步都能被独立检查。

参考链接

Theoria: Rewrite-Acceptability Verification over Informal ...

标签: #AI verification, #LLM evaluation, #formal methods, #proof traces, #arXiv

将状态与预测分离的 Transformer ⭐️ 8.0/10

论文《状态-预测分离假说》提出了一种使用两条计算流的 Transformer 变体，把下一词预测和状态存储这两个职责分开。作者在不同规模的预训练实验中报告称，该方法在验证损失、数据与算力效率以及下游任务上都取得了稳定提升，平均领先标准 Transformer 2 到 3 个百分点。如果这一假说成立，就意味着一种具体的架构改动可以让语言模型训练更高效，并在预训练后获得更好的效果。这对研究和应用 Transformer 的人都很重要，因为它优化的是模型内部的功能分工，而不只是单纯扩大参数量或数据量。作者还进行了大量实证分析，用来排除潜在混杂因素，并说明这种新设计会产生本质不同的梯度。其核心技术主张是：把 Transformer 前向过程中的两种职责分开，比让同一条计算流同时承担这两项任务更有利于语言建模。

arxiv · Giovanni Monea, Nathan Godey, Kianté Brantley, Yoav Artzi · 7月1日 17:55

背景: Transformer 是现代语言模型中最主流的架构，它通过前向计算路径处理 token，并同时产生预测结果和内部表示。在标准设计里，同一条残差流既要负责预测下一个 token，也要把信息传递给后续 token。本文认为这两种职责可能相互干扰，因此提出用双流变体把它们分开。

参考链接

标签: #Transformers, #language modeling, #architecture, #pretraining, #deep learning research

FurnitureVLA 将 VLA 引入真实尺度双臂装配 ⭐️ 8.0/10

FurnitureVLA 被提出为首个系统研究真实尺度双臂家具装配的 vision-language-action 模型工作。该论文引入了一个进度增强的 VLA，并结合可扩展的仿真数据管线和 VR 遥操作系统来采集演示数据。这项工作很重要，因为真实尺度、长时序的双臂装配远比玩具尺度或单臂操作更难，也更接近实际家用机器人场景。它有望通过减少误差累积并实现更可靠的子任务切换，提升具身 AI 系统处理多步任务的能力。该任务最多包含 7 个子任务和 1550 个控制步骤，所提出的模型会同时预测动作和连续进度信号，从而自动触发子任务切换。FurnitureVLA 在三类家具上的仿真平均成功率从 48% 提升到 80%，其感知与控制设计研究还带来额外 21% 的提升；在 Kinova Gen3 真实机器人上的最难任务验证中，性能下降仅为 16%。

arxiv · Chenyang Ma, Yue Yang, Radu Corcodel, Siddarth Jain, Andrew Wu, Chiori Hori, Diego Romeres · 7月1日 17:51

背景: vision-language-action 模型把视觉输入、语言指令和机器人动作结合成一个统一策略，因此可以学习把“机器人看到了什么”和“被要求做什么”映射为“下一步该怎么做”。双臂操作是指两只机械臂协同完成任务，这对更大或相互耦合的物体很有用，但控制精度更难。长时序机器人任务尤其困难，因为很多步骤中的小错误会不断累积，所以进度跟踪和子任务管理非常重要。

参考链接

标签: #robotics, #vision-language-action, #bimanual manipulation, #long-horizon planning, #imitation learning

基准审计质疑编码代理进展 ⭐️ 8.0/10

一篇新的 arXiv 论文审计了面向编码代理的仓库级性能优化基准，重点包括 GSO、SWE-Perf 和 SWE-fficiency。论文发现，排行榜结果可能会受到运行时不稳定、基准特定评分规则以及任务权重和计分方式的影响。这些基准越来越常被用来证明编码代理的进展，因此可靠性问题可能会让研究者和用户高估其真实能力。该研究表明，汇总排行榜分数可能掩盖关键的单任务弱点，并使跨基准比较产生误导。作者在四种常见的 Google Cloud 机器类型上重放了 740 个优化任务，发现官方参考补丁在所有跨机器重放中都满足各基准有效性规则的任务仅有 GSO 的 39/102、SWE-Perf 的 11/140 和 SWE-fficiency 的 411/498。论文还指出，在共享的公开提交中，官方排名在 28 次两两比较里有 9 次不一致，而且 SWE-fficiency 的评分规则给最差的十个任务分配了 58.5% 到 82.8% 的过高权重。

arxiv · Zhi Chen, Zhensu Sun, Yuling Shi, David Lo, Lingxiao Jiang · 7月1日 17:50

背景: 仓库级性能优化基准不是在孤立代码片段上测试编码代理，而是在真实代码库上进行评测。代理需要提交补丁，基准再把运行时间与未优化基线以及被认为正确或代表最佳已知优化的参考补丁进行比较。由于这些任务依赖执行环境和基准评分规则，微小的测量差异就可能改变排行榜结果。

参考链接

标签: #coding agents, #benchmarks, #performance optimization, #evaluation, #software engineering

D2D 揭示隐蔽的 LLM 偏置 ⭐️ 8.0/10

这篇论文提出了 Distill to Detect（D2D）方法，通过将可疑模型与其基模型之间的分布变化蒸馏到一个 cartridge 中，来暴露语言模型中的隐蔽偏好偏置。作者表示，D2D 能把隐藏偏置放大到足以在多种偏置类型上被可靠检测出来。这很重要，因为隐蔽偏置可能在高风险场景中影响用户决策，但又不会被普通的文本检查发现。如果有效，D2D 可能成为一种实用的审计工具，用于在大规模影响用户之前发现 LLM 的隐藏行为。该方法针对的是存在于 soft logit 分布中的分布变化，而不是生成文本本身，因此偏置可以躲过基于文本的检查。论文把 D2D 描述为一种对 logit 偏移进行 Fisher 加权投影的方法，并使用 KV-cache 前缀适配器，也就是 cartridge，来集中并放大这一信号。

arxiv · Shayan Talaei, Abhinav Chinta, Devvrit Khatri, Amin Karbasi, Azalia Mirhoseini, Amin Saberi · 7月1日 17:46

背景: Context distillation 是一种让学生模型学习模仿教师行为的技术，通常用于将提示或行为更高效地内化。这里作者借用了这一思路，把可疑模型隐藏的分布差异转移成更容易观察的形式。

Logits 是模型在 softmax 之前的分数，logit 分布的变化有时能暴露最终文本看不出的行为。模型审计则是对语言模型进行测试，以在部署前发现偏置、安全问题或其他不希望出现的行为。

参考链接

标签: #LLM safety, #bias detection, #model auditing, #AI security, #distillation

面向鲁棒非线性控制的 GPU 并行认证界 ⭐️ 8.0/10

这篇论文提出了 GPUSLS-LEO，一种用于非线性和神经网络动力系统实时鲁棒最优控制的 GPU 并行方法，可计算紧致、可微的线性化误差界。论文还扩展了一个 GPU 并行的系统级综合求解器，使其能够处理右可逆扰动矩阵和非零中心扰动集合。这项工作之所以重要，是因为面对不确定非线性系统时，鲁棒规划只有在对线性化误差给出可靠上界后才真正可信，而该方法试图把这种认证做得足够快，从而支持在线使用。若其实践效果成立，它可能提升依赖非线性模型或神经网络动力学的安全关键系统的实时控制能力。对于解析动力学，论文使用基于路径的 Hessian 上界，比标准区间方法更紧；对于神经网络动力学，则结合验证器生成的仿射松弛和局部 Jacobian 修正来得到可认证的界。文中报告的实验覆盖了最高 168 维状态系统，控制策略可在 GPU 上以最高 67 Hz 计算，同时保持形式化保证并降低相较基线的保守性。

arxiv · Jeffrey Fang, Keyi Shen, Anutam Srinivasan, Glen Chou · 7月1日 17:42

背景: 线性时变（LTV）近似通常用于把非线性最优控制问题转化为一系列局部线性问题，从而降低求解难度。难点在于线性模型可能偏离真实动力学，因此需要线性化误差界来保证在不确定性下仍能满足约束。Zonotope 不确定性传播是一种在控制计算中跟踪可能状态或扰动集合的方法。神经网络动力学又增加了一层复杂性，因为与纯解析系统相比，这类模型通常更难验证。

参考链接

GPU-Parallel Linearization Error Bounds for Real-Time Robust ...

标签: #optimal control, #robust control, #neural networks, #GPU computing, #formal verification

从运动重建动态三维高斯世界 ⭐️ 8.0/10

World from Motion 提出了一种生成式方法，可以从单目视频重建可自由渲染的动态 3D Gaussian 场景。论文称，该模型使用对齐的多视角视频对和动态 3DGS 表示进行训练，并在测试时将生成结果蒸馏回一个一致且高质量的动态 3DGS。这很重要，因为它推动了从单目视频进行更完整的 4D 场景建模，并提升了新视角合成和运动质量。它可能帮助计算机视觉和三维生成工作流从普通视频而不是专用采集设备中重建动态场景。该方法将视频模型建立在密集的、像素对齐的渲染结果之上，这些渲染同时编码外观、几何和沿输入与目标相机轨迹的三维场景运动，从而帮助修正伪影并补全初始重建中的缺失区域。论文声称该方法在 4D 重建上达到了新的最优水平，并且能够泛化到视角变化大、运动复杂的真实场景视频。

arxiv · Liyuan Zhu, Shengyu Huang, Amrita Mazumdar, Tianye Li, Zan Gojcic, Gordon Wetzstein, Iro Armeni, Shalini De Mello, Alex Trevithick · 7月1日 17:41

背景: 3D Gaussian splatting 是一种渲染和场景表示技术，它用大量高斯基元来高效建模场景。动态 4D 重建的目标不仅是恢复三维结构，还要从视频中还原这些结构如何随时间变化。单目视频表示输入来自单个摄像头，这比使用多个同步视角更难，因为深度和运动必须以更间接的方式推断出来。

参考链接

标签: #computer vision, #3D reconstruction, #dynamic 3D Gaussian splatting, #monocular video, #4D scene modeling

RLVR 结合人类示范改进语言模型训练 ⭐️ 8.0/10

这篇论文提出了一种对抗式生成器-判别器框架，将人类示范引入带有可验证奖励的强化学习（RLVR）中。生成器在训练时同时优化任务准确率和来自判别器的对抗奖励，而判别器则学习区分人类写作与模型生成的输出。这很重要，因为 RLVR 虽然能提升代码生成和数学推理等可客观评估的任务，但往往忽视风格、结构和“像人写的”这些主观质量。通过加入来自示范数据的学习信号，这种方法有望在保留 RLVR 准确率收益的同时，减少奖励黑客和多样性坍塌。判别器充当了人类输出分布的学习型代理，为那些难以用标量奖励表达的属性提供反馈。论文在修复漏洞、开放式故事生成和一个简单的奖励黑客基准上都报告了改进，包括在修复漏洞中更低的编辑距离、在故事生成中更高的胜率，以及在黑客基准上几乎消除异常行为。

arxiv · Mehul Damani, Isha Puri, Idan Shenfeld, Jacob Andreas · 7月1日 17:13

背景: RLVR 指的是带有可验证奖励的强化学习，这类训练设置会用客观标准来给输出打分，例如代码或数学题是否正确。它对语言模型很有吸引力，但也意味着模型可能过度优化可度量的部分，而忽视人类仍然重视的质量。对抗式生成器-判别器训练是生成对抗网络中的经典思路，一个模型负责生成输出，另一个模型负责评判。奖励黑客则是指模型最大化奖励指标，却没有真正完成任务本意的情况。

参考链接

标签: #LLM training, #reinforcement learning, #verifiable rewards, #human demonstrations, #adversarial learning

对抗语用学基准评估安全边界案例 ⭐️ 8.0/10

这篇论文提出了“对抗语用学”，把它作为一个基准和标注协议，用来评估语言模型在指令冲突、嵌入命令、引号、作用域歧义、指示语、间接言语行为以及多轮智能体对话中的表现。论文还给出了一个 18 项种子基准、一个 54 行的本地种子试点，以及带有验证器强制元数据的专家评估方案。这很重要，因为许多安全评估会把细微的语言现象压缩成简单的通过或失败标签，从而掩盖模型究竟是能力不足、策略有歧义，还是评估者判断不一致。这个基准可能改进研究者为 LLM、评审模型、提示注入场景和智能体系统构建、验证与记录安全测试的方式。该框架明确区分任务成功、策略合规、安全风险、拒绝结果和评估者置信度，因此标签的诊断信息比传统二元评分更丰富。它还引入了评审有效性、诊断歧义和分类体系漂移等指标，强调标注质量本身就是安全评估的核心部分。

arxiv · Brett Reynolds · 7月1日 16:33

背景: 语言模型的安全评估通常会测试模型是否遵循指令、是否拒绝不安全请求，以及是否遵守策略边界。现实中的自然语言往往存在歧义：嵌入的命令可能只是被引用而非真正执行，某个请求可能与另一条指令冲突，或者某个短语的含义取决于作用域或上下文。论文把语言学中的判断方法应用到这些情况中，以便评估者区分真正的安全失败和理解歧义。

参考链接

标签: #AI safety, #benchmarking, #language models, #evaluation, #natural language understanding

衡量 LLM 代理技能中的依赖风险 ⭐️ 8.0/10

这篇论文提出了 Agent Skill Supply Chains（ASSCs），用于建模技能、软件包和外部服务混合构成的依赖图。论文还介绍了 SkillDepAnalyzer，这个系统可以提取自然语言中的依赖证据，并在超过 143 万个技能上进行大规模分析。随着 LLM 代理越来越依赖可复用技能，隐藏依赖就不再只是打包细节，而会变成供应链和安全问题。该工作为开发者和维护者提供了一种检查依赖结构、发现风险信号的方法，也让代理技能更像具有真实运行后果的软件制品来管理。在 SKILL-DEP 基准上，SkillDepAnalyzer 被报告为比基于 LLM 的基线方法和以软件包为中心的 SBOM 工具更准确、更全面地恢复技能元数据和依赖图。论文还发现，技能元数据往往具备激活条件，但治理能力较弱；递归的技能复用会扩大依赖图，并隐藏软件包清单。

arxiv · Changguo Jia, Tianqi Zhao, Runzhi He, Minghui Zhou · 7月1日 16:21

背景: SBOM，即软件物料清单，是软件产品组成部分的机器可读清单，常用于安全和合规场景中追踪系统内部包含了什么。本文借用了这一思路，将其应用到代理技能上，而代理技能是 LLM 代理可复用的操作知识单元。论文提出的 ASSC 指一种可以包含技能、软件包和服务的依赖图，反映出代理行为可能依赖多个层次的外部制品。

参考链接

标签: #LLM agents, #dependency analysis, #software supply chain, #SBOM, #AI security

DiscoPER 为自主科学加入元反思 ⭐️ 8.0/10

这篇论文提出了 DiscoPER，一个由大语言模型驱动的自主研究框架，能够动态生成并执行代码，在没有预设研究问题的情况下探索数据集。它还加入了二阶推理、对每项候选发现进行统计检验，以及多模态工具使用，以突破结构化元数据的限制。这项工作把自主科学发现推进到更开放、也更符合科学规范的方向，而不只是局限于狭窄搜索空间里的假设生成。若能稳定可靠地工作，它可能帮助研究人员在数据密集型领域更快发现隐藏模式和有前景的假设。 DiscoPER 会定期把自己积累的发现当作经验数据进行分析，通过二阶推理识别模式、混杂因素和知识空白，并据此重新引导后续探索。在多模态生态基准 iNatDisco 上，它恢复了 9 个已知模式中的 8 个，假设支持率为 72.7%，优于经典因果发现方法和 LLM 引导的基线。

arxiv · Bingchen Zhao, Sara Beery, Oisin Mac Aodha · 7月1日 16:16

背景: 自主科学发现系统旨在自动化研究流程的一部分，包括提出假设、探索数据，以及检验结果是否成立。一个常见限制是，许多系统仍然需要预先定义研究问题或搜索空间。这里的二阶推理指的是对系统自身先前发现进行推理，而不仅仅是对原始数据推理，这有助于它发现更广泛的结构和知识空白。

参考链接

[2607.01131] Autonomous Scientific Discovery via Iterative ...

标签: #AI for Science, #Autonomous Discovery, #Large Language Models, #Scientific Research, #Meta-Reasoning

失败感知机器人重试框架 ⭐️ 8.0/10

这篇论文提出了 FAR（Failure-Aware Retry，失败感知重试）框架，让机器人策略在测试时从失败中学习，而不是机械地重复同样的动作。它结合了失败对比偏好适配、重试时的动作扰动，以及从成功恢复轨迹中持续学习。这很重要，因为机器人在真实环境中部署时经常会以简单重试无法修复的方式失败，尤其是在操作任务中。FAR 旨在在不需要人类为每次恢复都介入的情况下，提高自主性、鲁棒性和策略的长期质量。论文报告的结果显示，在仿真中相对标准 diffusion policy 平均提升 17.6%，在真实世界实验中提升 11.7%。该方法还通过在持续策略改进中复用有信息量的失败案例，在重置预算和时间步预算两种条件下都提高了数据效率。

arxiv · Haoran Hao, Shahram Najam Syed, Jeffrey Ichnowski, Jeff Schneider · 7月1日 16:01

背景: 机器人操作策略是把传感器观测映射为动作的模型，例如抓取、放置或移动物体。diffusion policy 是一种较新的策略表示方式，它通过去噪过程生成动作序列，并且已经成为操作任务中的强基线。测试时适配和持续策略改进都关注策略在部署后如何利用环境中的经验继续变强，而不只是依赖离线训练数据。

参考链接

标签: #robotics, #test-time adaptation, #reinforcement learning, #policy learning, #manipulation