谷歌新的人工智能工具使用图像提示而不是文本提示。_1，谷歌新AI工具，图像提示取代文本，谷歌推出新AI工具，图像提示功能，谷歌新AI技术，图像提示创作，谷歌新AI应用，图像提示设计，谷歌新AI方法，图像提示开发

facai369 音韵和谐 2024-12-24 4 0

谷歌新的人工智能工具使用图像提示而不是文本提示。

最新的Google人工智能工具"Whisk"让用户可以上传照片来生成一个由人工智能合成的图片，即使用户没有输入任何文字来解释他们想要什么。用户可以在上传图片后输入描述主题、场景和风格的内容，然后由Whisk将所有内容合并为一张图片。Google在博客中表示，Whisk是一种“创意工具”，用于快速启发灵感，而不是传统的图像编辑工具。本质上，Whisk被设计为一种有趣的AI功能，而不是需要精雕细琢的专业工作。

像Google和OpenAI这样的大型科技公司正在竞相发布可以展示这种新技术的用途的消费产品，尽管怀疑论者警告说，人工智能的开发缺乏护栏对人类构成了危险。自从OpenAI最初在2021年推出其文本到图像创建工具Dall-E以来，AI生成的图片的概念已经充斥在社交媒体上并成为消费产品的焦点。Google的Whisk是一个图像到图像生成器，建立在文本到图像生成器的流行概念之上。

谷歌新的人工智能工具使用图像提示而不是文本提示。_1

使用Whisk的人可以通过编辑输入并混合类别来“混搭”最终图像，以制作像毛绒玩具、搪胶徽章或贴纸这样的不同图像。如果用户想要添加文字以指示某些细节，则可以这样做，但创建图像并不需要文字。Google实验室产品管理总监Thomas Iljic在声明中表示，Whisk旨在允许用户以新的、创造性的方式混搭主题、场景和风格，提供快速的视觉探索而不是像素完美的编辑。

Google的Whisk基于DeepMind开发的生成式AI，DeepMind是谷歌在2014年收购的AI实验室。Whisk通过使用谷歌的核心AI产品Gemini来实现，Gemini在2023年12月首次亮相，并与DeepMind在同年发布的最新文本到图像生成器Imagen3相结合。当用户上传图片时，Gemini会生成一个标题，并将其输入到Imagen3中。这个过程捕捉主题的“精髓”，而不是一个精确的复制品，这使得最终图像可以进行混搭，但也可能导致最终产品偏离提示内容。

例如，生成的图片可能会与提示图片的高度、发型或肤色不同。Google在博客中表示。当Google在今年2月首次推出Gemini的文本到图像创建工具时，该公司面临了最初的反弹，因为该工具产生的图片存在历史不准确性。

目前Whisk仅在美国的GoogleLabs网站上作为一项实验性功能供用户使用，处于早期开发阶段。公司表示，OpenAI最近还发布了一个名为Sora的文本到视频生成器。

Wedbush Securities公司董事总经理兼资深股票分析师Dan Ives告诉CNN，对于Google来说，Whisk是它在AI和科技竞赛中的另一个“展示肌肉”时刻。伊夫斯指出，DeepMind是谷歌的关键资产之一，AI产品是谷歌为2025年准备的“宝库”中的一部分，其中包括与三星和Qualcomm合作开发的新Android操作系统。