
OpenAI正式发布全新图像生成模型gpt-image-1.5,旨在增强其在人工智能图像领域的技术实力,并直接回应近期在该领域表现突出的Google Gemini系列模型Nano Banana所带来的竞争压力。此次推出的新模型将同时服务于开发者群体与广大终端用户,并全面取代原有系统,成为ChatGPT中图像生成功能的核心支持。
今年3月,OpenAI曾对ChatGPT的图像生成能力进行重大升级,新功能上线后迅速获得用户青睐,仅一周时间就在平台内催生出超过7亿张图像。紧随其后,公司在4月推出gpt-image-1接口,将这一代图像生成技术开放给外部开发者,使其能够将图像合成功能集成至各类第三方应用与服务平台之中。
然而自9月起,随着Google推出Gemini Nano Banana模型,市场格局发生变化。该模型凭借更出色的图像生成质量与编辑灵活性,迅速赢得关注并扩大用户基础,在专业开发者社区中也获得了广泛认可。随后在上个月,Google进一步推出升级版本Gemini 3 Pro Image,内部代号为Nano Banana Pro,依托其在逻辑推理和现实知识理解方面的积累,显著提升了图像生成内容的准确性和上下文一致性。
面对这一趋势,OpenAI将gpt-image-1.5定位为应对挑战的关键产品。新模型在多个维度实现突破,尤其在图像编辑的精细控制、品牌标识及人脸等关键视觉元素的还原精度方面表现更为优异。同时,系统对用户指令的理解能力和执行准确性也得到加强,特别是在处理图像中包含的文字内容时进步明显,无论是高密度排版还是小字号文本,均可实现更清晰、更正确的呈现。
在开发支持层面,gpt-image-1.5带来了更具吸引力的成本结构。相较于前代模型,图像输入与输出的调用费用降低约20%,有效减轻了开发者的使用负担。开发者仍可通过quality参数灵活调节生成质量以平衡性能与开销,而OpenAI指出,即便在较低设定下,新模型依然能维持较高的输出水准。
对于普通用户而言,gpt-image-1.5已全面融入ChatGPT的交互体验,成为其图像功能的底层驱动。官方表示,新模型可在保留原始画面光影、构图布局及人物特征的基础上,实现更加精准的内容修改,整体处理效率最高可达此前版本的四倍,响应速度显著加快,带来更流畅自然的生成与编辑体验。