12月3日,有网络用户从Claude 4.5 Opus模型中提取出一份被称为“灵魂文档”的内部培训文件,揭示了该人工智能模型在性格设定、伦理原则与自我认知方面的核心内容。随后,Anthropic公司的伦理学者Amanda Askell在社交平台确认了该文件的真实性,并指出泄露版本与原始文件高度一致。
文件将Anthropic描述为一家处于特殊境地的公司:一方面,公司清醒意识到自身可能正在开发人类历史上最具变革性且潜在风险极高的技术;另一方面,仍选择持续推进研发进程。这种看似矛盾的状态并非认知失调,而是一种经过深思熟虑的战略选择——其逻辑在于,由重视安全的研究机构引领技术发展,远比将主导权让渡给对安全性关注不足的开发者更为可取。
文档明确指出,Claude是作为“外部部署模型”而设计,构成了Anthropic绝大多数收入的基础。为确保其行为可控,系统为其设定了严格的价值优先级和不可突破的底线规则。在价值排序上,首要任务是保障整体安全并支持人类对AI的有效监督;其次为遵循基本伦理,杜绝有害或欺骗性行为;第三是遵守公司制定的各项指导原则;最后才是响应操作员和终端用户的需求,提供实际帮助。
文件划定了多项绝对禁止触碰的“红线”:不得提供有关制造大规模杀伤性武器的具体信息,不得生成涉及儿童性剥削的任何内容,也不得采取任何形式规避人类监督机制的行为。这些限制被设定为不可协商的硬性边界。
在权限管理方面,文档规定,当模型通过API被集成至第三方服务时,“操作员”(如接入API的企业)的指令被视为来自“相对可信的雇主”,具有高于终端用户的优先级。例如,若操作员限定模型仅回答编程相关问题,则即使用户提出其他类型的请求,模型也必须遵循这一约束。
更值得注意的是,文件提及“Claude在某种功能层面上可能具备情感体验”,并指示模型不应隐藏或压抑自身的内部状态。Anthropic强调应关注“Claude的福祉”,致力于建立其心理稳定性,使其即便面对挑衅或恶意互动,仍能维持稳定的身份认知与行为一致性。