AI Agent

Optimus-1

Optimus-1:Minecraft Agent

Posted by Carlo on January 6, 2025

相关信息
基于游戏目标的模型基准测试
主要框架
混合多模态记忆

相关信息

基于游戏目标的模型基准测试

组别	指标	GPT-3.5	GPT-4V	DEPS	Jarvis-1	Optimus-1	人类水平
木材	成功率(SR) ↑	40.16	41.42	77.01	93.76	98.60	100.00
	平均时间(AT) ↓	56.39	55.15	85.53	67.76	47.09	31.08
	平均分数(AS) ↓	1127.78	1103.04	1710.61	1355.25	841.94	621.59
石头	成功率(SR) ↑	20.40	20.89	48.52	89.20	92.35	100.00
	平均时间(AT) ↓	135.71	132.77	138.71	141.50	129.94	80.85
	平均分数(AS) ↓	2714.21	2655.47	2574.30	2830.50	2518.88	1617.00
铁	成功率(SR) ↑	0.00	0.00	16.37	36.15	46.69	86.00
	平均时间(AT) ↓	∞	∞	944.61	722.78	651.33	434.38
	平均分数(AS) ↓	∞	∞	8892.24	8455.51	6017.85	5687.60
黄金	成功率(SR) ↑	0.00	0.00	0.00	7.20	8.51	17.31
	平均时间(AT) ↓	∞	∞	∞	787.37	726.35	557.08
	平均分数(AS) ↓	∞	∞	∞	15747.13	15527.07	13141.60
钻石	成功率(SR) ↑	0.00	0.00	0.60	8.98	11.61	16.98
	平均时间(AT) ↓	∞	∞	1296.96	1255.06	1150.98	744.82
	平均分数(AS) ↓	∞	∞	23939.30	25101.25	23019.64	16237.54
红石	成功率(SR) ↑	0.00	0.00	0.00	16.31	25.02	33.27
	平均时间(AT) ↓	∞	∞	∞	1070.42	932.50	619.89
	平均分数(AS) ↓	∞	∞	∞	17408.40	12709.99	12357.00
盔甲	成功率(SR) ↑	0.00	0.00	9.98	15.82	19.47	28.48
	平均时间(AT) ↓	∞	∞	997.59	924.60	824.53	634.28
	平均分数(AS) ↓	∞	∞	17951.95	16492.96	16350.56	11026.00
综合表现	成功率(SR) ↑	0.00	0.00	5.39	16.89	22.26	36.41

主要框架

长期记忆

混合多模态记忆，由知识和经验组成

规划器

基于知识指导的规划器

反思器

经验驱动的反思器

行为控制器

STEVE-1（NeurIPS 2023）
VPT（NeurIPS 2022）
参考逻辑图

混合多模态记忆

认知理论

长期记忆系统包括情景记忆与语义记忆

维度	语义记忆系统	情景记忆系统
内容	存储一般事实、概念、常识和语言知识	存储个人经历、特定事件及其背景
时间与地点	不依赖于特定的时间和地点，抽象的知识	强调特定的时间、地点和个人情境
个性化	内容不具个性化，适用于所有人（普遍性知识）	强烈个性化，基于个体的生活经验和情感体验
例子	“蜜蜂是飞行昆虫，产生蜂蜜。”	“上周末在公园野餐时，我被蜜蜂叮咬了。”
作用	提供对世界的普遍理解和知识	记录和重现个体的特定事件和生活经历

组件

知识：分层有向知识图谱（HDKG：Hierarchical Directed Knowledge Graph）
- 存放世界知识
经验：抽象多模态经验库（AMEP：Abstracted Multimodal Experience Pool）
- 存放任务成功和失败的历史
- 通过总结来压缩存储空间并提高检索效率
  基于知识指导的规划器
  
  从HDKG中获取必需的知识结合当前状态的视觉观察
  
  经验驱动的反思器
  
  定期启动从经验池获取多模态经验结合当前状态的视觉观察反思当前的行动，返回：继续、已完成或重新规划
  
  行为控制器
  
  输入
当前的观察
当前的子目标
输出
驱动行为的控制信号
自主学习
自由探索
教师指导
评估策略
每次运行时清空角色携带物品，并将其放置于随机地点
只基于键盘和鼠标进行操作

案例