谷歌大幅更新生成式AI，推出视频模型VEO 2和最新版Imagen3

专题：科技早报　　作者：赵雨荷　　来源：硬AI 　　谷歌的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具，推出了Veo 2视频生成模型和增强版Imagen 3图像模型，挑战OpenAI在AI图像和视频生成的领先地位。谷歌表示，这些更新有望彻底改变创意工作流程，为视频和图像创作者提供更高的真实感和定制化体验。　　谷歌介绍，Veo 2是谷歌的视频生成工具，能够生成多样化主题和风格的高质量视频。谷歌在博客中表示，这款模型在真实感方面表现卓越，能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容，包括跟踪镜头和广角构图等。　　例如，Veo 2熟悉电影拍摄语言，用户可以要求某种类型的风格，指定镜头，建议电影效果，Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如，要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头，Veo 2都能实现。提示“18mm镜头”，Veo 2知道生成广角镜头；要求“浅景深”，它会模糊背景，突出主体。　　值得注意的是，这一分辨率是OpenAI Sora模型的4倍，视频时长更是其6倍以上。　　不过，目前这些优势仍是理论上的。在谷歌的实验性视频创作工具VideoFX中，Veo 2生成的视频被限制为720p分辨率、8秒的长度。（相比之下，Sora的最大输出为1080p、20秒的短片。）　　谷歌表示，虽然视频生成模型往往会“幻象化”出不需要的细节，例如多余的手指或意外的物体，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记它们为AI生成的内容，从而减少误用或错误归属的风险。　　DeepMind产品副总裁Eli Collins对媒体表示，随着模型逐渐具备规模化使用的准备，谷歌将通过其Vertex AI开发者平台提供Veo 2。　　开发者和创作者目前可以通过谷歌实验室（Google Labs）访问该工具，预计到2025年，它将广泛集成至诸如YouTube Shorts等平台。　　同时，Imagen 3模型在图像构图和细节准确性方面得到了增强，支持从写实到抽象的各种风格，能够生成更丰富的纹理，并更加忠实地回应用户提示。　　目前，Imagen 3已经通过谷歌实验室的ImageFX工具在100多个国家上线，全球用户可以试验其尖端功能。　　此外，谷歌还推出了Whisk，这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。用户可以输入图像，生成详细的文字描述、重新混合风格，或设计个性化作品，如数字玩偶或搪瓷徽章。　　谷歌介绍，Whisk结合了Imagen 3模型和Gemini的视觉理解与描述能力。Gemini模型会自动为用户的图像生成详细的文字描述，并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。　　本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

发表评论取消回复

15533人参与，42条评论

表甲申
2024-12-17 09:50:13回复
型在真实感方面表现卓越，能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容，包括跟踪镜头和广角构图等。　　例如，Veo 2熟悉电影拍摄语言，用户可以要求某种类型的风格，指定镜头，建议电影

宾雨荷
2024-12-17 08:46:36回复
细的文字描述，并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。　　本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

伟玄黓
2024-12-17 14:28:30回复
望彻底改变创意工作流程，为视频和图像创作者提供更高的真实感和定制化体验。　　谷歌介绍，Veo 2是谷歌的视频生成工具，能够生成多样化主题和风格的高质量视频。谷歌在博客中表示，这款模型在真实感方面表现卓越，能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能

闾沛文
2024-12-17 13:26:42回复
析能力的创意工具。用户可以输入图像，生成详细的文字描述、重新混合风格，或设计个性化作品，如数字玩偶或搪瓷徽章。　　谷歌介绍，Whisk结合了Imagen 3模型和Gemini的视觉理解与描述能力。Gemini模型会

福访儿
2024-12-17 11:19:06回复
80p、20秒的短片。）　　谷歌表示，虽然视频生成模型往往会“幻象化”出不需要的细节，例如多余的手指或意外的物体，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记它们为AI生成的内容，从而减少误用或错误归属的风险。　　D

代丁卯
2024-12-17 14:47:04回复
节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容，包括跟踪镜头和广角构图等。　　例如，Veo 2熟悉电影拍摄语言，用户可以要求某种类型的风格，指定镜头，建议电影效果，Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如，要求“低角

娄醉薇
2024-12-17 15:16:56回复
文字描述，并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。　　本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

甘沛柔
2024-12-17 14:30:42回复
为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记它们为AI生成的内容，从而减少误用或错误归属的风险。　　DeepMin

桓翠梅
2024-12-17 08:53:25回复
现卓越，能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容，包括跟踪镜头和广角构图等。　　例如，Veo 2熟悉电影拍摄语言，用户可以要求某种类型的风格，指定镜头，建议电影效果，Veo 2都会以高

斐屠维
2024-12-17 16:50:53回复
如YouTube Shorts等平台。　　同时，Imagen 3模型在图像构图和细节准确性方面得到了增强，支持从写实到抽象的各种风格，能够生成更丰富的纹理，并更加忠实地回应用户提示。　　目前，Imagen 3已经通过谷歌

扬又容
2024-12-17 13:32:50回复
，虽然视频生成模型往往会“幻象化”出不需要的细节，例如多余的手指或意外的物体，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记

理醉柳
2024-12-17 16:19:23回复
专题：科技早报　　作者：赵雨荷　　来源：硬AI　　谷歌的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具，推出了Veo 2视频生成模型和增强版Imagen 3图像模型，挑战OpenAI在AI图像和视频生成的领先地位

贝辛未
2024-12-17 10:39:00回复
n 3已经通过谷歌实验室的ImageFX工具在100多个国家上线，全球用户可以试验其尖端功能。　　此外，谷歌还推出了Whisk，这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。用户可以输入图像，生成

勇雨竹
2024-12-17 06:57:33回复
专题：科技早报　　作者：赵雨荷　　来源：硬AI　　谷歌的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具，推出了Veo 2视频生成模型和增

赵从凝
2024-12-17 13:53:34回复
构图等。　　例如，Veo 2熟悉电影拍摄语言，用户可以要求某种类型的风格，指定镜头，建议电影效果，Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如，要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头，Veo 2都能实现。提示“18mm镜头”，Veo 2知道生

从壬辰
2024-12-17 17:48:14回复
80p、20秒的短片。）　　谷歌表示，虽然视频生成模型往往会“幻象化”出不需要的细节，例如多余的手指或意外的物体，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记它们为AI生成的内容，从而减少误用或错误归属的风险。　　D

剑水凡
2024-12-17 08:23:03回复
模型往往会“幻象化”出不需要的细节，例如多余的手指或意外的物体，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。　　此外，Veo 2生成的视频包括不可见的SynthID水印，用于标记它们为AI生成的内容，从而减少误用或错误归属的风险。　　D