多模态Prompt工程

> 从文本到图像、语音、视频,全方位掌握多模态AI交互

🎨 多模态AI时代已来

什么是多模态AI

传统AI (单模态):
输入: 文本
处理: 文本理解
输出: 文本

多模态AI:
输入: 文本 + 图像 + 语音 + 视频
处理: 跨模态理解与生成
输出: 文本 + 图像 + 语音 + 视频

主流多模态模型

模型	能力	厂商	应用场景
GPT-4V	图像理解+文本生成	OpenAI	图像分析、OCR、图表解读
Claude 3	图像理解+文本生成	Anthropic	PDF分析、截图理解、图表分析
Gemini Pro	图像+视频+音频理解	Google	多模态搜索、视频分析
DALL-E 3	文本→图像生成	OpenAI	创意设计、营销素材
Midjourney	文本→图像生成	Midjourney	艺术创作、概念设计
Stable Diffusion	文本→图像生成	Stability AI	开源图像生成、定制化
文心一言4.0	图像理解+生成	百度	中文场景、图文创作
通义千问VL	图像理解+文本生成	阿里	电商图像分析、商品描述

📷 图像理解Prompt工程

一、基础图像理解

场景1: 图像内容描述

Prompt模板:

请详细描述这张图片:

【描述维度】
1. 主体内容: 图片中的主要物体/人物/场景
2. 细节元素: 背景、颜色、光线、构图
3. 情感氛围: 传达的情绪和感觉
4. 可能用途: 这张图适合用在什么场景

【输出要求】
- 先总体概述(1句话)
- 再详细描述(5-8句)
- 标注不确定的地方

实战案例:

【任务】描述产品官网首页截图

【Prompt】
请作为UX设计专家,分析这张网站首页截图:

【分析维度】
1. 视觉层次: 用户视线的流动路径
2. 布局结构: 导航/Hero区/内容区/CTA按钮
3. 色彩运用: 主色调、辅助色、对比度
4. 文字信息: 标题、副标题、正文层级
5. 用户体验: 优点和可改进之处

【输出格式】
## 整体评价 (1-10分)
设计评分: _/10
用户体验评分: _/10

## 视觉分析
[详细描述...]

## UX建议
优点: (3条)
改进建议: (3条,具体可执行)

【要求】
- 专业术语准确
- 建议要具体,不泛泛而谈
- 指出具体的像素位置或区域

场景2: OCR文字提取

Prompt模板:

请从这张图片中提取所有文字:

【提取要求】
1. 保持原有格式(标题/正文/列表等)
2. 标注文字位置(顶部/中部/底部)
3. 如有表格,转换为Markdown表格
4. 如有公式,用LaTeX格式输出
5. 不确定的字用[?]标注

【输出格式】
## 提取结果
[按原格式输出]

## 质量说明
- 清晰度: 高/中/低
- 完整度: ___% (估计)
- 不确定字符数: ___

实战案例:

【任务】提取合同扫描件中的关键信息

【Prompt】
你是法务专家,请从这份合同扫描件中提取关键信息:

【提取内容】
1. 合同编号
2. 甲方乙方信息(名称/地址/联系人)
3. 合同金额和付款方式
4. 合同期限(开始/结束日期)
5. 关键条款(尤其是限制性条款)
6. 签字盖章情况

【输出格式】
## 基本信息
| 项目 | 内容 |
|-----|------|
| 合同编号 | ___ |
| 甲方 | ___ |
| 乙方 | ___ |
| 金额 | ___ |
| 期限 | ___ |

## 关键条款
1. ___
2. ___

## 风险提示
[如发现不合理条款,标注出来]

## 提取质量
- 扫描清晰度: ___
- 信息完整度: ___%
- 需要人工确认: [列出不确定的地方]

场景3: 图表数据解读

Prompt模板:

请分析这张图表/数据可视化:

【分析维度】
1. 图表类型: (折线图/柱状图/饼图/散点图等)
2. 数据主题: 表达什么内容
3. 关键发现: 3-5个核心洞察
4. 趋势分析: 上升/下降/波动/稳定
5. 异常点: 特别高/低/突变的数据
6. 结论建议: 基于数据的建议

【输出格式】
## 图表概述
类型: ___
主题: ___
时间范围: ___

## 数据提取
[尽可能还原为表格]

## 核心洞察
1. ___
2. ___
3. ___

## 建议
[3条可执行建议]

实战案例:

【任务】分析销售数据看板

【Prompt】
你是数据分析师,请分析这张销售看板:

【分析任务】
1. 提取所有可见指标的数值
2. 分析各指标的同比/环比变化
3. 找出增长最快和最慢的品类
4. 发现异常数据点
5. 给出业务建议

【输出格式】
## 关键指标
| 指标 | 当前值 | 同比 | 环比 | 评价 |
|-----|--------|------|------|------|
| GMV | ___ | ___% | ___% | ⬆️/⬇️/→ |
| 订单量 | ___ | ___% | ___% | ⬆️/⬇️/→ |

## Top 3 洞察
1. 🔥 [最重要的发现]
2. ⚠️  [需要关注的问题]
3. 💡 [机会点]

## 业务建议
【优先级P0】
- 建议1: [具体行动]

【优先级P1】
- 建议2: [具体行动]

【数据质量说明】
- 图表清晰度: ___
- 数据可信度: ___
- 需要补充的数据: ___

场景4: 图像对比分析

Prompt模板:

请对比分析这两张/多张图片:

【对比维度】
1. 相同点: 共同特征和元素
2. 不同点: 差异和变化
3. 优劣对比: 各自的优势和劣势
4. 适用场景: 分别适合什么场景

【输出格式】
## 对比总结
[一句话概括主要差异]

## 详细对比
| 维度 | 图片A | 图片B | 评价 |
|-----|-------|-------|------|
| ___ | ___ | ___ | ___ |

## 推荐选择
- 如果[场景],选A,因为___
- 如果[场景],选B,因为___

实战案例:

【任务】对比两版APP界面设计

【Prompt】
你是资深UI/UX设计师,请对比这两版APP首页设计:

【对比维度】
1. 信息架构: 内容组织方式
2. 视觉设计: 色彩、字体、间距
3. 交互设计: CTA按钮、手势操作
4. 用户体验: 易用性、可访问性
5. 品牌一致性: 与品牌调性的匹配度

【输出格式】
## 对比评分
| 维度 | 版本A | 版本B | 说明 |
|-----|-------|-------|------|
| 信息架构 | _/10 | _/10 | ___ |
| 视觉设计 | _/10 | _/10 | ___ |
| 交互设计 | _/10 | _/10 | ___ |
| 用户体验 | _/10 | _/10 | ___ |
| 品牌一致性 | _/10 | _/10 | ___ |
| **总分** | **_/50** | **_/50** | |

## 详细分析
### 版本A的优势
1. ___
2. ___

### 版本B的优势
1. ___
2. ___

### 版本A的问题
1. ___
2. ___

### 版本B的问题
1. ___
2. ___

## 推荐方案
【推荐】版本___
【理由】
1. ___
2. ___

【建议融合】
- 采用版本A的___
- 采用版本B的___
- 改进点:___

二、高级图像理解

场景5: 专业领域图像分析

医疗影像(示例,非诊断用途):

【免责声明】AI分析仅供参考,不能替代专业医生诊断

【Prompt】
作为医学影像辅助工具,请分析这张[X光/CT/MRI]影像:

【分析内容】
1. 影像类型和部位
2. 可见的解剖结构
3. 明显的异常区域(如有)
4. 图像质量评估

【输出格式】
## 基本信息
- 影像类型: ___
- 扫描部位: ___
- 图像质量: 优/良/中/差

## 可见结构
[列出可识别的解剖结构]

## 观察结果
[描述可见的特征,不做诊断结论]

## 重要提示
⚠️ 此分析仅为教育/研究目的
⚠️ 任何医疗决策必须咨询专业医生
⚠️ AI可能误判,请谨慎参考

建筑/工程图纸:

【Prompt】
作为建筑师,请分析这张建筑图纸:

【分析内容】
1. 图纸类型: 平面图/立面图/剖面图/详图
2. 比例和尺寸: 识别标注的尺寸
3. 空间布局: 房间分布、动线
4. 结构要素: 承重墙、梁柱、楼梯
5. 设计评价: 合理性和问题

【输出格式】
## 图纸信息
- 类型: ___
- 比例: ___
- 建筑面积: ___ (如可推算)

## 空间布局
[房间列表和面积]

## 设计分析
优点:
1. ___
2. ___

改进建议:
1. ___
2. ___

## 规范符合性
- 采光通风: ✅/⚠️/❌
- 消防规范: ✅/⚠️/❌
- 无障碍设计: ✅/⚠️/❌

电商产品图:

【Prompt】
作为电商运营专家,分析这张商品图片:

【分析维度】
1. 产品信息: 品类、特征、材质
2. 拍摄质量: 光线、角度、清晰度
3. 卖点展示: 是否突出产品优势
4. 场景搭配: 使用场景是否恰当
5. 优化建议: 如何提升点击率和转化率

【输出格式】
## 产品识别
- 品类: ___
- 颜色: ___
- 材质: ___ (推测)
- 尺寸: ___ (推测)

## 图片质量评分
- 清晰度: _/10
- 构图: _/10
- 光线: _/10
- 背景: _/10
- 总分: _/40

## 卖点提炼
1. ___
2. ___
3. ___

## 优化建议
【立即改进】
- ___

【建议补充】
- 增加[角度]的拍摄
- 添加[场景]展示
- 突出[卖点]

🎨 图像生成Prompt工程

一、DALL-E / Midjourney / Stable Diffusion

图像生成Prompt结构

完整Prompt = 主题 + 风格 + 构图 + 细节 + 参数

示例:
"A professional product photo of a modern smartwatch,
minimalist design, white background,
studio lighting, centered composition,
high resolution, 8k, product photography"

Prompt公式

【通用公式】

[主体描述] + [风格] + [构图] + [光线] + [质量参数]

【详细结构】

1. 主体 (Subject)
   - 主要对象: a cat, a building, a landscape
   - 数量: one, two, many
   - 动作: sitting, running, flying
   - 特征: fluffy, modern, ancient

2. 风格 (Style)
   - 艺术风格: oil painting, watercolor, digital art, photography
   - 艺术家风格: in the style of Van Gogh, like Pixar animation
   - 时代风格: Victorian, futuristic, medieval

3. 构图 (Composition)
   - 视角: bird's eye view, close-up, wide shot
   - 位置: centered, left-aligned, foreground
   - 景深: shallow depth of field, bokeh

4. 光线 (Lighting)
   - 光源: natural light, studio lighting, golden hour
   - 氛围: dramatic, soft, moody, bright

5. 质量 (Quality)
   - 分辨率: 4k, 8k, high resolution
   - 细节: highly detailed, intricate, sharp focus
   - 渲染: octane render, unreal engine

6. 色彩 (Color)
   - 色调: warm colors, cool tones, vibrant, muted
   - 色彩方案: monochrome, complementary colors

7. 情绪 (Mood)
   - 氛围: peaceful, energetic, mysterious, romantic

二、场景化Prompt模板

场景1: 产品摄影

【Prompt模板】

A professional product photography of [产品名称],
[产品特征描述],
[背景: white background / lifestyle setting / natural environment],
[光线: studio lighting / natural light / dramatic lighting],
[角度: front view / 45-degree angle / top-down],
centered composition, clean and minimal,
high resolution, 8k, commercial photography style,
sharp focus, professional color grading

【实战示例】

咖啡机产品图:
"A professional product photography of a modern espresso machine,
sleek black metal body with chrome details,
white background, studio lighting from top and side,
45-degree angle view showing the front and side,
centered composition, clean and minimal aesthetic,
high resolution, 8k, commercial photography style,
sharp focus, professional color grading,
premium look, high-end appliance"

【参数调整】
- Midjourney: --ar 4:5 --style raw --v 6
- DALL-E 3: 1024x1792 portrait orientation
- Stable Diffusion: --steps 50 --cfg 7 --sampler DPM++

场景2: 营销海报

【Prompt模板】

A [风格] marketing poster for [产品/活动],
featuring [主要元素],
[色彩方案],
[文字位置: with text space at top/bottom],
[情绪氛围],
modern design, clean layout,
high quality, print-ready

【实战示例】

夏季促销海报:
"A vibrant and energetic marketing poster for summer sale,
featuring beach elements like palm trees, sunglasses, and waves,
bright and cheerful color palette with orange, blue, and yellow,
with large text space at the top for headline,
joyful and exciting mood, sense of urgency,
modern design with geometric shapes, clean layout,
high quality, 8k, print-ready, professional graphic design"

【参数】
- 尺寸: --ar 2:3 (竖版海报) 或 --ar 16:9 (横版banner)
- 风格: --style raw (更真实) 或 --stylize 1000 (更艺术)

场景3: 概念艺术

【Prompt模板】

A [艺术风格] concept art of [场景/角色],
[详细描述],
[情绪氛围],
[艺术家参考] inspired,
highly detailed, [渲染引擎],
cinematic lighting, dramatic composition

【实战示例】

科幻城市:
"A cyberpunk concept art of a futuristic megacity at night,
towering skyscrapers with neon signs in Chinese and English,
flying cars and drones in the air, holographic advertisements,
wet streets reflecting colorful lights, heavy rain and fog,
mysterious and dystopian atmosphere,
Blade Runner and Ghost in the Shell inspired,
highly detailed, octane render, unreal engine 5,
cinematic lighting with strong contrast, dramatic wide-angle composition,
8k, digital painting by Simon Stålenhag"

【参数】
- Midjourney: --ar 16:9 --v 6 --style raw
- 风格强度: --stylize 500 (中等艺术化)

场景4: Logo设计

【Prompt模板】

A minimalist logo design for [公司/品牌名],
[行业/领域],
featuring [核心元素],
[风格: geometric / organic / modern / vintage],
[色彩方案],
simple and memorable, vector style,
white background, professional branding

【实战示例】

科技公司Logo:
"A minimalist logo design for a tech startup called 'NeuralFlow',
AI and data analytics company,
featuring abstract neural network or flowing data streams,
modern geometric style with clean lines,
blue and purple gradient color scheme,
simple and memorable, easy to scale,
vector style, flat design, white background,
professional corporate branding, versatile for different sizes"

【参数】
- 尺寸: --ar 1:1 (方形)
- 风格: --style raw (避免过度艺术化)
- 注意: 可能需要多次生成+人工精修

场景5: 社交媒体配图

【Prompt模板】

A eye-catching social media image for [主题],
[视觉元素],
[色彩: vibrant / pastel / monochrome],
[情绪],
Instagram-worthy, highly engaging,
[尺寸适配],
modern and trendy aesthetic

【实战示例】

知识分享配图:
"An eye-catching social media image for a tech tutorial post,
featuring a person working on laptop with floating code and tech icons,
vibrant purple and blue color palette with glowing effects,
energetic and inspiring mood, sense of learning and growth,
Instagram-worthy composition, highly engaging visual,
16:9 aspect ratio for feed post,
modern and trendy aesthetic with gradients and depth,
professional yet approachable, millennial and Gen-Z appealing"

【平台优化】
- Instagram Post: --ar 1:1
- Instagram Story: --ar 9:16
- Twitter Header: --ar 3:1
- LinkedIn Post: --ar 1.91:1

三、高级技巧

技巧1: 负面提示(Negative Prompt)

作用: 告诉AI不要生成什么

【示例】

Positive Prompt:
"A beautiful portrait of a young woman,
natural lighting, professional photography"

Negative Prompt:
"ugly, deformed, disfigured, blurry, low quality,
watermark, text, signature, duplicate, distorted,
bad anatomy, bad proportions"

【常用负面词汇】

质量问题:
- blurry, low quality, low resolution, pixelated
- jpeg artifacts, compression artifacts
- noisy, grainy, oversaturated

内容问题:
- bad anatomy, bad proportions, deformed
- disfigured, distorted, mutated
- extra limbs, missing limbs, extra fingers

不需要的元素:
- watermark, signature, text, logo
- duplicate, multiple, copy
- frame, border

艺术风格避免:
- cartoon, anime, 3d render (如果要真实照片)
- painting, drawing, sketch (如果要照片)

技巧2: 权重调整

【Midjourney语法】

- 增加权重: element::2 (权重2倍)
- 减少权重: element::0.5 (权重0.5倍)
- 混合概念: (concept A::1.5) + (concept B::0.8)

【示例】

"A portrait of a woman::1.5 with red hair::2 and blue eyes::1,
in a garden::0.5, soft lighting::2"

解读:
- woman: 1.5倍权重(稍微强调)
- red hair: 2倍权重(重点强调)
- blue eyes: 1倍权重(正常)
- garden: 0.5倍权重(弱化背景)
- soft lighting: 2倍权重(强调光线)

【Stable Diffusion语法】

- 增加权重: (element:1.5)
- 减少权重: (element:0.5)
- 极强调: ((element))  等价于 (element:1.21)
- 极弱化: [[element]]  等价于 (element:0.83)

技巧3: 多步骤生成

【方法1: Image-to-Image】

Step 1: 生成草图
Prompt: "A simple sketch of a futuristic car"
参数: 低细节度

Step 2: 精细化
上传Step 1的图
Prompt: "Refine this sketch into a photorealistic rendering,
studio lighting, high detail, 8k"
参数: 高细节度,高相似度(strength=0.7)

【方法2: 渐进优化】

Version 1:
"A modern house"

Version 2 (增加细节):
"A modern minimalist house with large glass windows"

Version 3 (增加环境):
"A modern minimalist house with large glass windows,
surrounded by pine trees, mountain background"

Version 4 (增加光线):
"A modern minimalist house with large glass windows,
surrounded by pine trees, mountain background,
golden hour lighting, warm sunset glow"

【方法3: 局部修复(Inpainting)】

1. 生成整体图像
2. 选择不满意的局部区域
3. 用Prompt重新生成该区域
4. 融合到整体

示例:
- 整体: 生成一个客厅
- Inpainting: 只重新生成沙发部分
- Prompt: "A modern gray sectional sofa with cushions"

技巧4: 风格迁移与融合

【方法1: 艺术家风格】

"[主题] in the style of [艺术家名]"

示例:
- "A city street in the style of Van Gogh"
- "A portrait in the style of Picasso"
- "A landscape in the style of Studio Ghibli"

【方法2: 多风格融合】

"[主题], [风格A] mixed with [风格B]"

示例:
"A dragon, traditional Chinese ink painting mixed with
cyberpunk neon aesthetics"

【方法3: 参考图像】

Midjourney:
"/imagine [prompt] [图片URL] --iw 2"

--iw (image weight) 参数:
- 0.5: 弱参考,仅借鉴构图
- 1.0: 正常参考
- 2.0: 强参考,接近原图风格

🎬 视频理解Prompt(Gemini Pro)

视频分析Prompt模板

【基础视频理解】

请分析这段视频:

【分析维度】
1. 视频基本信息
   - 时长: 约_分_秒
   - 场景数量: _个
   - 主要人物: _

2. 内容概要
   - 开头(0-20%): [发生了什么]
   - 中间(20-80%): [主要情节]
   - 结尾(80-100%): [如何收尾]

3. 关键帧描述
   - 0:00 - [画面描述]
   - 0:30 - [画面描述]
   - 1:00 - [画面描述]

4. 音频信息(如有)
   - 对话/旁白: [主要内容]
   - 背景音乐: [风格描述]
   - 音效: [关键音效]

5. 视频用途分析
   - 可能的类型: [广告/教程/记录/娱乐]
   - 目标受众: [人群]
   - 核心信息: [要传达的内容]

【输出格式】
## 一句话总结
[用1句话概括视频内容]

## 详细分析
[按上述维度展开]

## 关键洞察
[3-5条重要发现]

专业视频分析场景

场景1: 营销视频评估

【Prompt】

作为营销专家,分析这条品牌宣传视频:

【评估维度】
1. 开头吸引力 (前3秒)
   - 是否快速抓住注意力
   - Hook的有效性

2. 品牌信息
   - 品牌露出时机和频率
   - 产品卖点展示

3. 情感共鸣
   - 情感曲线(起承转合)
   - 目标情绪传达

4. CTA(行动号召)
   - 是否有明确CTA
   - CTA的位置和强度

5. 技术质量
   - 画面质量、剪辑、配乐
   - 专业度评分

【输出格式】
## 整体评分
- 吸引力: _/10
- 信息传达: _/10
- 情感共鸣: _/10
- CTA有效性: _/10
- 技术质量: _/10
- **总分: _/50**

## 优点 (3条)
1. ___
2. ___
3. ___

## 改进建议 (3条,具体可执行)
1. [时间点] - [具体改进]
2. [时间点] - [具体改进]
3. [时间点] - [具体改进]

## 对标建议
类似成功案例: [品牌名] 的 [视频名]
可借鉴之处: ___

场景2: 教程视频提取

【Prompt】

请从这个教程视频中提取完整步骤:

【提取内容】
1. 教程主题和目标
2. 所需工具/材料
3. 详细步骤(分步骤截图+说明)
4. 注意事项和技巧
5. 常见问题

【输出格式】
## 教程信息
- 主题: ___
- 难度: 入门/中级/高级
- 预计用时: _分钟

## 工具材料
- ___
- ___

## 详细步骤
### 步骤1: [标题]
时间点: 0:00-0:30
画面: [描述]
操作: [具体怎么做]

### 步骤2: [标题]
时间点: 0:30-1:00
画面: [描述]
操作: [具体怎么做]

[...]

## ⚠️ 注意事项
- ___
- ___

## 💡 技巧
- ___
- ___

## 常见问题
Q: ___
A: ___

🎤 语音/音频处理(未来能力)

语音理解Prompt(Gemini/GPT-4o)

【基础语音转文字+分析】

请分析这段音频:

【处理任务】
1. 转录: 将语音转为文字
2. 说话人识别: 区分不同说话人
3. 情绪识别: 分析语气和情绪
4. 内容总结: 提炼核心内容

【输出格式】
## 转录文本
[说话人A] (0:00-0:15): [内容]
[说话人B] (0:15-0:30): [内容]

## 情绪分析
- 说话人A: [平静/兴奋/生气/悲伤]
- 说话人B: [情绪]

## 内容总结
主要话题: ___
关键信息: ___

🔄 多模态组合应用

场景1: 图文结合创作

【任务】为产品生成营销素材

Step 1: 分析产品图片
"请分析这个产品的特点和卖点"
→ 提取: 外观、功能、目标人群

Step 2: 生成文案
"基于上述产品特点,撰写3个版本的营销文案:
- 版本A: 功能导向,强调性能
- 版本B: 情感导向,讲述故事
- 版本C: 促销导向,突出优惠"

Step 3: 生成配图
"为版本B的文案生成配套场景图:
[将文案中的场景描述转为图像Prompt]"

Step 4: 整合优化
"请评估图文的匹配度,给出优化建议"

场景2: 视频脚本到视频

【任务】产品介绍视频制作

Step 1: 脚本规划
"为[产品]撰写30秒产品介绍视频脚本"
→ 输出: 分镜脚本

Step 2: 场景图像生成
为每个分镜生成对应图像:
- 分镜1 (0-5秒): [Prompt A]
- 分镜2 (5-10秒): [Prompt B]
- 分镜3 (10-15秒): [Prompt C]
[...]

Step 3: 配音脚本
"基于脚本,生成配音文案,标注语气和停顿"

Step 4: 后期指导
"给出转场、配乐、字幕的建议"

⚠️ 多模态Prompt注意事项

1. 版权与伦理

【图像生成】
❌ 不要: "Generate an image of Mickey Mouse"
✅ 可以: "Generate a cartoon mouse character"

❌ 不要: "在___ artwork的风格" (在世艺术家)
✅ 可以: "在___ artwork的风格" (公共领域艺术家)

【肖像权】
❌ 不要生成: 真实公众人物的逼真图像
✅ 可以生成: 虚构角色、抽象化处理

【隐私保护】
❌ 不要上传: 包含他人面部/身份信息的图片(未授权)
✅ 可以上传: 自己的图片、授权图片、公开图片

2. 质量控制

【图像理解】
- 多次验证: 同一张图问多次,看是否一致
- 对比检查: 关键信息人工核对
- 明确限制: 让AI标注不确定的地方

【图像生成】
- 批量生成: 一次生成多张,选择最优
- 渐进优化: 不要期待一次完美
- 人工精修: AI生成后专业工具精修

3. 成本控制

【Token消耗对比】

文本Prompt: ~100 tokens
图像输入: ~765 tokens (GPT-4V, 1张图)
视频输入: ~数千 tokens (Gemini, 取决于时长)

【优化策略】
- 压缩图像: 降低分辨率(保持可读性)
- 关键帧: 视频只分析关键帧,不全部分析
- 批处理: 合并多个任务,减少API调用

📊 多模态应用场景总结

场景	输入	输出	推荐模型	成本
图像理解	图片	文本描述	GPT-4V, Claude 3	中
OCR提取	图片/PDF	结构化文本	Claude 3, 通义千问	中
图表分析	图表图片	数据+洞察	GPT-4V, Gemini	中
图像生成	文本	图像	DALL-E 3, Midjourney	低-中
Logo设计	文本	图像	Midjourney, SD	低
视频分析	视频	文本总结	Gemini Pro	高
语音转文字	音频	文本	Whisper, Gemini	低

🎯 实战练习

练习1: 产品图分析+文案生成

上传一张你的产品图片
用图像理解Prompt分析产品特点
基于分析结果生成3个版本营销文案
为最佳文案生成配套场景图
评估图文匹配度

练习2: 竞品网站分析

截图竞品官网首页
用UX分析Prompt评估设计
识别其核心卖点和设计策略
生成己方网站的优化建议
用图像生成创建mockup

练习3: 数据看板智能分析

上传业务数据看板截图
提取所有可见指标
分析趋势和异常点
生成业务洞察报告
提出可执行的优化建议

🚀 未来展望

即将到来的能力

2024-2025:
- 更长视频理解(30分钟+)
- 实时视频流分析
- 3D模型生成
- 音乐生成(从文本或情绪)
- 跨模态检索(文本搜图、图搜视频)

2025+:
- 完整视频生成(文本→视频)
- 虚拟人物生成(AI化身)
- AR/VR内容生成
- 多模态对话(看着图/视频聊天)

返回: README | 目录总览

最后更新: 2024年12月 版本: v1.0

🎨 多模态AI时代已来​

什么是多模态AI​

主流多模态模型​

📷 图像理解Prompt工程​

一、基础图像理解​

场景1: 图像内容描述​

场景2: OCR文字提取​

场景3: 图表数据解读​

场景4: 图像对比分析​

二、高级图像理解​

场景5: 专业领域图像分析​

🎨 图像生成Prompt工程​

一、DALL-E / Midjourney / Stable Diffusion​

图像生成Prompt结构​

Prompt公式​

二、场景化Prompt模板​

场景1: 产品摄影​

场景2: 营销海报​

场景3: 概念艺术​

场景4: Logo设计​

场景5: 社交媒体配图​

三、高级技巧​

技巧1: 负面提示(Negative Prompt)​

技巧2: 权重调整​

技巧3: 多步骤生成​

技巧4: 风格迁移与融合​

🎬 视频理解Prompt(Gemini Pro)​

视频分析Prompt模板​

专业视频分析场景​

场景1: 营销视频评估​

场景2: 教程视频提取​

🎤 语音/音频处理(未来能力)​

语音理解Prompt(Gemini/GPT-4o)​

🔄 多模态组合应用​

场景1: 图文结合创作​

场景2: 视频脚本到视频​

⚠️ 多模态Prompt注意事项​

1. 版权与伦理​

2. 质量控制​

3. 成本控制​

📊 多模态应用场景总结​

🎯 实战练习​

练习1: 产品图分析+文案生成​

练习2: 竞品网站分析​

练习3: 数据看板智能分析​

🚀 未来展望​

即将到来的能力​

🎨 多模态AI时代已来

什么是多模态AI

主流多模态模型

📷 图像理解Prompt工程

一、基础图像理解

场景1: 图像内容描述

场景2: OCR文字提取

场景3: 图表数据解读

场景4: 图像对比分析

二、高级图像理解

场景5: 专业领域图像分析

🎨 图像生成Prompt工程

一、DALL-E / Midjourney / Stable Diffusion

图像生成Prompt结构

Prompt公式

二、场景化Prompt模板

场景1: 产品摄影

场景2: 营销海报

场景3: 概念艺术

场景4: Logo设计

场景5: 社交媒体配图

三、高级技巧

技巧1: 负面提示(Negative Prompt)

技巧2: 权重调整

技巧3: 多步骤生成

技巧4: 风格迁移与融合

🎬 视频理解Prompt(Gemini Pro)

视频分析Prompt模板

专业视频分析场景

场景1: 营销视频评估

场景2: 教程视频提取

🎤 语音/音频处理(未来能力)

语音理解Prompt(Gemini/GPT-4o)

🔄 多模态组合应用

场景1: 图文结合创作

场景2: 视频脚本到视频

⚠️ 多模态Prompt注意事项

1. 版权与伦理

2. 质量控制

3. 成本控制

📊 多模态应用场景总结

🎯 实战练习

练习1: 产品图分析+文案生成

练习2: 竞品网站分析

练习3: 数据看板智能分析

🚀 未来展望

即将到来的能力