2026-01-11 18:56:58

OpenAI发布gpt-image-1.5应对Gemini竞争

摘要

OpenAI正式发布全新图像生成模型gpt-image-1 5，旨在增强其在人工智能图像领域的技术实力，并直接回应近期在该领域表现突出的Google Gem

OpenAI正式发布全新图像生成模型gpt-image-1.5，旨在增强其在人工智能图像领域的技术实力，并直接回应近期在该领域表现突出的Google Gemini系列模型Nano Banana所带来的竞争压力。此次推出的新模型将同时服务于开发者群体与广大终端用户，并全面取代原有系统，成为ChatGPT中图像生成功能的核心支持。

今年3月，OpenAI曾对ChatGPT的图像生成能力进行重大升级，新功能上线后迅速获得用户青睐，仅一周时间就在平台内催生出超过7亿张图像。紧随其后，公司在4月推出gpt-image-1接口，将这一代图像生成技术开放给外部开发者，使其能够将图像合成功能集成至各类第三方应用与服务平台之中。

然而自9月起，随着Google推出Gemini Nano Banana模型，市场格局发生变化。该模型凭借更出色的图像生成质量与编辑灵活性，迅速赢得关注并扩大用户基础，在专业开发者社区中也获得了广泛认可。随后在上个月，Google进一步推出升级版本Gemini 3 Pro Image，内部代号为Nano Banana Pro，依托其在逻辑推理和现实知识理解方面的积累，显著提升了图像生成内容的准确性和上下文一致性。

面对这一趋势，OpenAI将gpt-image-1.5定位为应对挑战的关键产品。新模型在多个维度实现突破，尤其在图像编辑的精细控制、品牌标识及人脸等关键视觉元素的还原精度方面表现更为优异。同时，系统对用户指令的理解能力和执行准确性也得到加强，特别是在处理图像中包含的文字内容时进步明显，无论是高密度排版还是小字号文本，均可实现更清晰、更正确的呈现。

在开发支持层面，gpt-image-1.5带来了更具吸引力的成本结构。相较于前代模型，图像输入与输出的调用费用降低约20%，有效减轻了开发者的使用负担。开发者仍可通过quality参数灵活调节生成质量以平衡性能与开销，而OpenAI指出，即便在较低设定下，新模型依然能维持较高的输出水准。

对于普通用户而言，gpt-image-1.5已全面融入ChatGPT的交互体验，成为其图像功能的底层驱动。官方表示，新模型可在保留原始画面光影、构图布局及人物特征的基础上，实现更加精准的内容修改，整体处理效率最高可达此前版本的四倍，响应速度显著加快，带来更流畅自然的生成与编辑体验。