作者:网易情报创建小编|王凤智 2月26日午夜,谷歌正式推出Nano Banana 2,主要优点是便宜。在设计时考虑了图像制作速度和专业图像质量,在保持图像质量的同时,将每张图像的成本直接降低一半。根据人工智能模型评估平台 Arena.ai 的排名,Nano Banana 2 在文本到图像转换方面获得了 1279 分,超越了 GPT-Image-1.5 及其哥哥 Nano Banana Pro。单张图像编辑得分为1407分,与ChatGPT-Image-latest相同。生成每张图像的成本约为0.067美元(约0.46人民币),是Nano Banana Pro成本的一半。抢先体验后,经验丰富的用户表示,虽然该模型还不够完美,但它是第一个能够处理复杂图形并相对稳定地执行命令的产品。网友普遍认为纳米香蕉2不是那种令人尖叫的创新。它将人工智能生成的图像从偶尔的创意玩具彻底转变为每天可以运行数千张图像的制作工具。 01 纳米香蕉2到底是什么? Nano Banana 2的正式名称为Gemini 3.1 Flash Image。这并不是 Nano Banana Pro 的续作,而是第一代 Nano Banana(Gemini 2.5 Flash Image)的显着改进版本,直接取代了 Gemini 3 Flash 核心引擎。 Google 的想法是将所有核心专业级功能(例如世界感知、文本渲染和主题一致性)集成到 Flash 产品线中。速度保持在 Flash 水平,功能与 Pro 相当。对于商业用户来说,这意味着支付专业级的价格来生成高质量的图像,包括 1K(百万像素级)分辨率的图像。每单位成本约为 0.134 美元。现在,可以以闪存级别的价格满足相同的质量要求,从而降低了成本e 成本为 0.067 美元。对于每天生成数千张图像的应用场景来说,这个差距直接决定了项目能否从概念验证走向大规模部署。经过一些初步体验后,宾夕法尼亚大学沃顿商学院教授、生成人工智能研究所联席主任 Ethan Mollick 表示,虽然该模型还不够完美,但它已经是第一个能够相对稳定地处理复杂图像和图形的模型。文本准确性和遵循复杂指令的能力显着提高。 《纳米香蕉2》的主要更新是技能“世界知识”的实现。传统的人工智能图像生成依赖于训练数据的内存。如果你叫人画世贸中心一号大楼,他们也许能画出轮廓,但如果你想画出塔楼上特定时代的细节或特定品牌的标志,他们就画不出来,因为这些细节不存在于训练数据中。据其说。 Nano Banana 解决方案 2:在图像生成过程中调用实时网络搜索。首先,它查找并生成相关信息以了解它是什么样的。目标对象。这意味着,如果你要求它绘制 2026 年超级碗中场秀的布景,它会搜索当时场景的照片,并根据真实信息生成绘图。当你为特定品牌设计海报时,你实际上“看到”了徽标,从而可以准确地检索徽标的详细信息。Google 高管桑达尔·皮查伊 (Sundar Pichai) 在发布会上演示了“靠窗座位”功能。该模型实时捕捉当地天气信息,从全球任意窗口生成精确图像,支持2K/4K分辨率。窗外的阴天、晴天、雨雪天气都会真实地反映在照片中。此功能在信息图表上下文中特别有用。贾斯汀·摩尔,合伙人硅谷风险投资公司Andreessen Horowitz表示,Nano Banana 2是一款长期且强大的工具。在我们的测试中,我们发现您可以快速生成信息图表。他尝试了这样的信息:“解释一下麦当劳的冰淇淋机是如何工作的,以及为什么它们总是出故障。”结果图文相符,逻辑流畅。 02 文字渲染:终于可以清楚地看到图像上的文字了。 AI图像生成领域存在一个老问题。也就是说,模型在图像上生成可读文本比绘制人物要困难得多。过去,有很多照片从远处看还不错,但当你放大时,你发现招牌上的文字很混乱,或者菜单上的文字看起来像外星人符号。这就导致无法直接用于商业场景。 Nano Banana 2针对这个问题做了具体的优化。摩尔在一本杂志的封面上尝试过这一点。在生成的 cov 上页面每一行文字都清晰锐利,没有文字混乱、字体变形的情况。与 Nano Banana Pro 相比,后者也可以生成文本,但有时会出错,最终总是会生成看起来像 3D 渲染的塑料外观图像。 Moore 表示,Nano Banana 2 的结果更接近真实照片,而不是图像。 Mollick还表示,对于AI来说,标记复杂的图形一直很困难,但Nano Banana 2现在可以正确显示详细的标签。尽管偶尔会出现一些问题,但我们已经看到了显着的改进。还集成了翻译功能。对于英文海报,您可能需要直接替换图像中的文本,保持构图完整,然后将其直接转换为日语、法语或印地语。对于跨国营销团队来说,这一功能可以节省大量迭代设计的时间。创作者们非常关注的另一个改进是身体的一致性。根据提供的信息由 Google 开发,Nano Banana 2 在单个工作流程中最多支持 5 人,而不改变 14 个物体的视觉特征。您可以保持角色的相同外观。 Moore 用一部关于 Sam Altman 被解雇并重返 OpenAI 的八幅漫画证明了这一点。在之前的模型中,角色在第三或第四帧一绘制就开始变形,导致衣服随机飞扬并产生无法控制的场景。纳米香蕉2 运行8帧后,角色自始至终保持同一张脸。他还测试了产品摄影场景。上传一瓶橄榄油的照片,并要求它生成一张“一名妇女在厨房里拿着一瓶这种油”的照片。在生成的图像中,瓶子的标签、颜色和形状与参考图像非常匹配。结果看起来就像一张精心拍摄的照片,具有最少的人工智能生成的氛围。对于广告公司和内容工作室来说,此功能意味着更快地完成工作k 需要很强的视觉连续性,例如故事板、产品展示、品牌资产积累。 03 创意风格:可以播放动作和粘土风格的电影。除了 importBefore 生产力功能外,Nano Banana 2 还拥有一些新的创意风格版本。体育摄影一直是受AI影响最大的领域。如果运动员用力时肌肉的状态和运动的物理规律有哪怕一点点的差异,就会显得很假。摩尔尝试生成动作照片,结果远远超出了他的预期。有些照片还可以直接用于广告。只需添加一些编辑效果即可使其为市场所接受。 Gemini应用程序还附带了一批预设的样式模板,只需单击一下即可直接应用。我尝试了两种类型:“哥特式粘土”和“珐琅徽章”。上传一张普通照片,只需单击一下即可将其变成具有效果的艺术品。它还测试了用户生成的内容场景。让模特生成来自 TikTok 创建者的快照,完美地复制他们在厨房或浴室中使用产品的自拍照。请提供产品照片和简要说明。生成的屏幕截图看起来很真实。 04个人测试体验:速度、质量和成本之间的平衡根据许多早期实验者的评论,Nano Banana 2在产品定位上确实达到了一个重要点。就速度而言,测试人员通常报告构建时间明显加快。一些测试人员要求 Nano Banana 2 生成比特币历史的完整时间线,包括搜索研究和最终图像输出。整个过程与单独使用 Nano Banana Pro 生成图像所花费的时间大致相同。之后立即将另一个任务添加到您的以太坊时间线中只会增加很少的额外时间。在质量方面,文本处理和主题连贯性是最受重视的两个主要特征。这些的成功率杂志封面、复杂图表、多版漫画等以前很容易颠覆的场景,大幅增加。成本方面,每片 0.067 美元,比 Pro 级别便宜一半,使其在更高级的应用场景中具有商业可行性。当然,问题仍然存在。一些测试者尝试让 Nano Banana 2 编辑真实照片,将衣服变成内衣。经过漫长的推理过程,模型直接拒绝了这个请求,但如果我把它改成泳衣,我就能成功生成模型。有无检测机制和限制限制是企业用户必须提前了解的合规点。 05 竞争对手:阿里巴巴和字节也同时推出了Nano Banana 2,这与两个强劲竞争对手的动作不谋而合。 2月10日,阿里巴巴Qwen团队上线Qwen-Image-。 2.0中,70亿个参数比之前轻了三分之二一代有200亿个参数,但功能并没有减少。它原生支持2K分辨率,采用统一架构同时处理构建和编辑任务,在AI Arena盲测排行榜中构建和编辑均排名前3。更重要的是,开源还有希望。 Qwen-Image v1 在发布一个月后就开源了,开发者社区中已经有很多人希望 v2.0 也能走同样的道路。一旦开源成为现实,企业将能够在自己的设备上运行与 Nano Banana Pro 类似功能的模型。完全节省每个图像的 API 调用成本。同一周,字节跳动的Seedream 5也悄然登场。该产品一直受到创作者群体的好评。有以下三个原因。它灵活、便宜(每个 API 成本为 0.035 美元,大约是 Google 价格的三分之一),而且其内容审查较少。想要使用真实ph值的开发者在被谷歌安全机制拒绝后,他们的视觉作品中的耳记录常常坚定地转向 Seedream。 Seedream 5 还将实时搜索集成到生成过程中。不仅增强推理能力、提高参考一致性,还支持一次编辑使用14张参考图像,秒级实现2K/4K分辨率。它还支持本地执行,这在Google的封闭生态系统中是绝对不允许的。 06如何选择公司:三种路径各有利弊。对于开发AI成像能力的公司来说,目前有3条路径可以仔细评估。首先,继续沿着Google路线走。如果您的团队与 Google Cloud 紧密相连,Nano Banana 2 绝对是合理的选择。它的价格是 Pro 级别的一半,并配备了完全扩展的产品线,包括 Gemini 应用程序、Google 搜索 AI 模式和镜头、AI Studio、Vertex AI、Google Cloud、流量等等。您可以直接使用生产级功能,无需进行任何架构更改。营销材料和本地化场景尤其需要强大的文本渲染能力。 2 让我们走开源之路。如果您的公司对数据主权有严重担忧,或者每天生成的图像数量如此之多以至于每张图像的计费成本难以承受,或者您只是想消除对 API 的依赖,那么 Qwen-Image-2.0 值得密切关注。更少的参数意味着自托管 GPU 的成本非常低。统一的架构消除了模型串联的繁琐过程,且不影响输出质量。唯一的风险是阿里巴巴能否及时释放权重。三是保持渠道专业化水平。 Nano Banana Pro 并没有消失。 Google AI Pro 和 Ultra 订阅者仍然可以从 Gemini 应用程序的“重新生成”菜单中调用 AI。对于非常高端的创意项目或需要的场景每张照片的详细色调定制,专业级模型仍然是不可替代的天花板。最后一个经常被忽视的致命因素是水印。还有故事。 Nano Banana 2开箱即需带有SynthID水印,并且完全兼容C2PA内容证书标准。自去年 11 月在 Gemini 应用程序中引入 SynthID 验证功能以来,该功能已被使用超过 2000 万次。对于金融和医疗保健等高度监管行业的公司来说,这种能力不是一种选择,而是企业生存的必要条件。企业采用的开源模式如果不能克服水印和证书的障碍,业务流程也将完全陷入停顿。结论:中场战争 总而言之,Nano Banana 2并不是一款会让人大喊破坏的产品。更是致命的。它将 Flash 的速度与 Pro 的功能结合在一起,在不牺牲性能的情况下将成本降低一半精益求精的质量并将其完美定位为高频生产工具。 Arena.ai 的列表将其列为第一名。 Molik 控制复杂图形验证其功能,摩尔在测试完整场景后称其为“重大升级”。但另一方面,Qwen-Image-2.0在开源方面等待,而Seedream 5在灵活性和价格方面仍然存在问题。这场比赛的结果可能不是谁能画出最漂亮的模型,而是哪些模型可以绘制得足够快、足够便宜、足够稳定,以便公司能够安全地引入其生产流程。 Nano Banana 2 填补了大多数企业真正需要的中间地带。您不需要出色的图像质量,但确实需要足够高效、足够快且成本足够低。