Prompt版本管理与迭代
> 系统化管理Prompt,让优化有迹可循
📋 为什么需要版本管理
痛点场景
【场景1:无法追溯】
问题: "上周那个效果很好的Prompt是怎么写的来着?"
结果: 找不到了,只能重写,浪费时间
【场景2:改坏了无法回退】
问题: 改了几个字,效果反而变差了
结果: 不记得原来是什么,无法恢复
【场景3:团队协作混乱】
问题: 多人维护同一个Prompt,互相覆盖
结果: 不知道谁改了什么,为什么改
【场景4:无法量化优化效果】
问题: 改了10个版本,不知道哪个最好
结果: 凭感觉选择,不够科学
🏗️ Prompt版本管理体系
一、版本命名规范
1. 语义化版本号(推荐)
格式: v[主版本].[次版本].[修订版本]
v1.0.0 - 初始版本
v1.1.0 - 新增功能/场景
v1.1.1 - 小优化/修bug
v2.0.0 - 重大重构
示例:
v1.0.0 - PRD撰写初始模板
v1.1.0 - 增加竞品分析部分
v1.1.1 - 优化输出格式
v2.0.0 - 全面重构为RICIC框架
2. 日期版本号(简单)
格式: YYYYMMDD_描述
20241201_initial - 初始版本
20241205_add_context - 增加上下文
20241210_optimize_format - 优化格式
适合: 个人使用,快速迭代
3. 功能版本号(清晰)
格式: [场景]_[功能]_v[版本号]
prd_basic_v1 - PRD基础版
prd_with_data_v2 - PRD含数据版
prd_complete_v3 - PRD完整版
适合: 多场景管理
二、版本管理工具
1. Git管理(专业)
# 初始化Prompt仓库
mkdir my-prompts && cd my-prompts
git init
# 创建第一个Prompt
cat > prd-template.md << 'EOF'
# PRD撰写Prompt v1.0.0
你是资深产品经理,10年经验...
EOF
git add prd-template.md
git commit -m "feat: 初始PRD模板 v1.0.0"
# 创建分支测试新版本
git checkout -b feature/add-data-analysis
# 修改文件...
git add .
git commit -m "feat: 增加数据分析部分 v1.1.0"
# 如果效果好,合并到主分支
git checkout main
git merge feature/add-data-analysis
# 如果效果不好,直接删除分支
git branch -D feature/add-data-analysis
优点:
- ✅ 完整的版本历史
- ✅ 支持分支测试
- ✅ 团队协作友好
- ✅ 可以精确回退
缺点:
- ❌ 需要学习Git
- ❌ 有一定学习成本
2. Notion管理(直观)
数据库结构:
| Prompt名称 | 版本 | 创建日期 | 修改说明 | 效果评分 | 状态 | 标签 |
|---|---|---|---|---|---|---|
| PRD撰写模板 | v1.2.0 | 2024-12-01 | 优化输出格式 | 8.5/10 | 使用中 | 产品,PRD |
| 竞品分析 | v2.0.0 | 2024-11-28 | 重构框架 | 9.0/10 | 使用中 | 产品,分析 |
| 商业计划书 | v1.0.0 | 2024-11-20 | 初始版本 | 7.0/10 | 归档 | 商业 |
Prompt详情页面:
# Prompt名称: PRD撰写模板
## 基本信息
- 版本: v1.2.0
- 创建日期: 2024-12-01
- 适用场景: B2B SaaS产品PRD撰写
- 预期用时: 30分钟
- 效果评分: 8.5/10
## 版本历史
### v1.2.0 (2024-12-01)
- 修改: 优化输出格式,增加Markdown表格
- 测试: 3次,平均8.5分
- 决策: 采用
### v1.1.0 (2024-11-25)
- 修改: 增加竞品分析部分
- 测试: 5次,平均8.0分
- 决策: 采用
### v1.0.0 (2024-11-20)
- 初始版本
- 测试: 10次,平均7.0分
## Prompt内容
[具体Prompt内容...]
## 使用示例
[实际使用案例...]
## 效果记录
- 2024-12-03: 用于XX项目PRD,效果9分
- 2024-12-02: 用于YY项目PRD,效果8分
优点:
- ✅ 可视化好,直观易用
- ✅ 支持丰富格式
- ✅ 团队协作方便
- ✅ 移动端友好
缺点:
- ❌ 版本回退不如Git精确
- ❌ 需要手动维护版本号
3. 飞书文档管理(协作)
目录结构:
我的Prompt库/
├── 📁 产品场景/
│ ├── PRD撰写/
│ │ ├── v1.0.0_初始版本.md
│ │ ├── v1.1.0_增加数据.md
│ │ └── v1.2.0_优化格式.md (当前使用)
│ ├── 竞品分析/
│ │ └── v2.0.0_重构版.md
│ └── ...
├── 📁 技术场景/
├── 📁 运营场景/
└── 📊 效果跟踪表.sheet
效果跟踪表:
| Prompt | 版本 | 使用日期 | 任务 | 效果评分 | 耗时 | 备注 |
|---|---|---|---|---|---|---|
| PRD撰写 | v1.2.0 | 2024-12-03 | XX项目PRD | 9/10 | 25min | 非常好 |
| PRD撰写 | v1.2.0 | 2024-12-02 | YY项目PRD | 8/10 | 30min | 良好 |
优点:
- ✅ 团队协作最方便
- ✅ 权限管理清晰
- ✅ 通知及时
- ✅ 国内访问快
缺点:
- ❌ 版本管理功能弱
- ❌ 依赖网络
4. 简单文件夹管理(入门)
my-prompts/
├── prd/
│ ├── v1.0.0_初始版本.txt
│ ├── v1.1.0_增加数据.txt
│ ├── v1.2.0_优化格式.txt
│ └── CURRENT.txt -> v1.2.0_优化格式.txt (软链接)
├── analysis/
└── changelog.md (记录所有变更)
changelog.md示例:
# Prompt变更日志
## 2024-12-01
### PRD撰写 v1.2.0
- 变更: 优化输出格式
- 原因: 之前格式不够清晰
- 测试: 3次,平均8.5分
- 决策: 采用
## 2024-11-25
### PRD撰写 v1.1.0
- 变更: 增加竞品分析部分
- 原因: 缺少竞品对比
- 测试: 5次,平均8.0分
- 决策: 采用
优点:
- ✅ 最简单,零学习成本
- ✅ 本地化,不依赖网络
缺点:
- ❌ 手动管理,容易出错
- ❌ 团队协作困难
🔄 迭代优化流程
科学迭代五步法
1. 基线测试 → 2. 假设改进 → 3. A/B对比 → 4. 数据决策 → 5. 版本归档
Step 1: 建立基线
目标: 量化当前版本效果
【基线测试模板】
Prompt: PRD撰写 v1.0.0
测试任务:
1. XX SaaS产品PRD
2. YY工具类产品PRD
3. ZZ平台类产品PRD
评估维度(每项10分):
- 完整性: ___/10 (是否包含所有必要部分)
- 准确性: ___/10 (信息是否准确)
- 可用性: ___/10 (是否可直接使用)
- 专业性: ___/10 (是否符合行业标准)
- 效率: ___/10 (生成速度和修改次数)
总分: ___/50
平均分: ___/50
标准差: ___
问题记录:
- 问题1: 缺少竞品分析
- 问题2: 技术方案太简略
- 问题3: 数据支撑不足
实战示例:
基线测试结果:
任务1: 38/50 (缺少数据支撑)
任务2: 35/50 (技术方案太简单)
任务3: 40/50 (竞品分析不足)
平均分: 37.7/50
主要问题:
1. 缺少数据分析部分 (出现3次)
2. 技术方案不够详细 (出现2次)
3. 竞品分析缺失 (出现1次)
Step 2: 假设改进
原则: 一次只改一个变量
【改进假设模板】
基于问题: 缺少数据分析部分
假设: 如果在Context中补充数据分析要求,输出质量会提升
改进点:
变更前:
"【上下文】请根据以下需求撰写PRD..."
变更后:
"【上下文】请根据以下需求撰写PRD...
【数据要求】
- 市场规模数据(TAM/SAM/SOM)
- 用户画像数据(年龄/职业/痛点)
- 竞品数据(功能/定价/市场份额)"
预期效果: 完整性提升2-3分
测试计划: 用相同的3个任务测试
常见改进点:
| 问题 | 改进假设 | 改进位置 |
|---|---|---|
| 输出太泛泛 | 增加分析维度 | Criteria |
| 格式混乱 | 明确输出模板 | Criteria |
| 理解偏差 | 补充背景信息 | Context |
| 数据缺失 | 明确数据要求 | Input |
| 风格不对 | 增加参考示例 | Input |
Step 3: A/B对比测试
测试设计:
【A/B测试模板】
版本A: v1.0.0 (基线版本)
版本B: v1.1.0 (改进版本)
测试任务: 相同的3个任务
测试环境:
- 模型: Claude 3.5 Sonnet
- 温度: 0.7
- 时间: 同一天内完成(避免模型更新影响)
测试方法:
- 盲测: 不告诉评估者哪个是新版本
- 交叉测试: 任务1用A→B,任务2用B→A
- 3人评分: 取平均值
评分表:
| 任务 | 版本 | 完整性 | 准确性 | 可用性 | 专业性 | 效率 | 总分 |
|-----|------|--------|--------|--------|--------|------|------|
| 任务1 | A | 7 | 8 | 7 | 8 | 8 | 38 |
| 任务1 | B | 9 | 8 | 8 | 8 | 7 | 40 |
| 任务2 | A | 6 | 7 | 7 | 7 | 9 | 36 |
| 任务2 | B | 8 | 8 | 8 | 7 | 8 | 39 |
| 任务3 | A | 8 | 8 | 8 | 8 | 8 | 40 |
| 任务3 | B | 9 | 9 | 8 | 8 | 7 | 41 |
结论:
- A平均分: 38.0
- B平均分: 40.0
- 提升: +2.0分 (+5.3%)
- 显著性: ✅ (p<0.05)
在线A/B测试(生产环境):
方案: 灰度发布
Week 1: 10%流量用B版本,90%用A版本
→ 收集数据,观察异常
Week 2: 50%流量用B版本
→ 持续监控
Week 3: 100%切换到B版本
→ A版本归档
Step 4: 数据驱动决策
决策矩阵:
│ 效果提升 > 5% │ 效果提升 1-5% │ 效果无变化/下降
─────────┼───────────────┼──────────────┼─────────────────
复杂度低 │ ✅ 立即采用 │ ✅ 采用 │ ❌ 放弃
复杂度中 │ ✅ 采用 │ ⚠️ 酌情考虑 │ ❌ 放弃
复杂度高 │ ⚠️ 酌情考虑 │ ❌ 放弃 │ ❌ 放弃
决策案例:
【案例1】
改进: 增加数据分析部分
效果提升: +5.3%
复杂度: 低(仅增加3行提示)
决策: ✅ 立即采用,升级为v1.1.0
【案例2】
改进: 重构为树状思维(ToT)框架
效果提升: +2.0%
复杂度: 高(需要多轮对话,token消耗增加3倍)
决策: ❌ 暂不采用,保持v1.1.0
【案例3】
改进: 优化输出格式(Markdown表格)
效果提升: +3.5%
复杂度: 低(仅修改输出要求)
决策: ✅ 采用,升级为v1.2.0
长期跟踪:
【Prompt性能看板】
PRD撰写模板:
v1.0.0 (2024-11-20) → 37.7分 [基线]
v1.1.0 (2024-11-25) → 40.0分 [+6.1%]
v1.2.0 (2024-12-01) → 41.4分 [+3.5%]
v1.3.0 (2024-12-08) → 试验中...
累计提升: +9.8%
迭代次数: 3次
平均周期: 7天/次
Step 5: 版本归档
归档检查清单:
□ 版本号已更新
□ 变更说明已记录
□ 测试数据已保存
□ 使用文档已更新
□ 旧版本已归档
□ 团队已通知
归档模板:
# Prompt归档记录
## 版本信息
- Prompt名称: PRD撰写模板
- 版本号: v1.2.0
- 归档日期: 2024-12-01
- 归档原因: 正式发布新版本
## 变更说明
### 新增
- 增加数据分析部分(v1.1.0)
- 优化输出格式为Markdown表格(v1.2.0)
### 修改
- Context部分增加数据要求说明
- Criteria部分明确表格格式
### 删除
- 无
## 测试数据
- 基线分数: 37.7/50
- 当前分数: 41.4/50
- 提升幅度: +9.8%
- 测试次数: 9次
- 平均耗时: 28分钟
## 使用统计
- 使用次数: 23次
- 成功率: 91%
- 用户反馈: 8.5/10
## 已知问题
- 对于复杂产品(10+功能模块)时,输出略显冗长
- 技术方案部分需要多轮补充
## 后续计划
- v1.3.0: 针对复杂产品优化结构
- v2.0.0: 考虑引入思维链框架
📊 效果评估体系
一、评估指标体系
1. 质量指标(主要)
【5维质量评分】(每项10分)
1. 准确性 (Accuracy)
- 信息是否正确
- 逻辑是否严密
- 数据是否可靠
2. 完整性 (Completeness)
- 是否覆盖所有要求
- 是否遗漏关键信息
- 结构是否完整
3. 可用性 (Usability)
- 是否可直接使用
- 是否需要大量修改
- 格式是否规范
4. 专业性 (Professionalism)
- 是否符合行业标准
- 深度是否足够
- 术语使用是否准确
5. 创新性 (Innovation) - 可选
- 是否有独特洞察
- 是否超出预期
- 是否有新的角度
总分: ___/50 (或 ___/40,如果不考虑创新性)
评级:
- 45-50分: 优秀 ⭐⭐⭐⭐⭐
- 40-44分: 良好 ⭐⭐⭐⭐
- 35-39分: 合格 ⭐⭐⭐
- 30-34分: 需改进 ⭐⭐
- <30分: 不合格 ⭐
2. 效率指标(辅助)
【效率评估】
时间维度:
- 首次生成时间: ___ 分钟
- 修改迭代次数: ___ 次
- 总耗时: ___ 分钟
- 对比人工: ___ 分钟 (节省 ___%)
成本维度:
- Token消耗: ___ tokens
- 费用: $___
- 对比人工成本: $___ (节省 ___%)
稳定性:
- 测试次数: ___ 次
- 成功次数: ___ 次
- 成功率: ___% (目标: >80%)
3. 业务指标(最终)
【业务价值评估】
直接价值:
- 任务完成时间: 节省 ___ 小时/周
- 质量提升: ___% (错误率下降,返工减少)
- 人员效能: 每人多产出 ___%
间接价值:
- 知识沉淀: 建立标准化流程
- 团队赋能: 新人上手更快
- 创新空间: 有更多时间思考战略
ROI计算:
投入 = 学习成本 + 维护成本
产出 = 时间节省 × 人力成本
ROI = (产出 - 投入) / 投入 × 100%
示例:
投入: 10小时学习 + 2小时/月维护 = 12小时
产出: 节省10小时/周 × 4周 = 40小时/月
ROI = (40 - 12) / 12 × 100% = 233%
二、评估方法
方法1: 人工评分(小规模)
【人工评分流程】
1. 准备阶段
- 确定评估者(3-5人)
- 准备测试任务(3-5个)
- 设计评分表
2. 执行阶段
- 盲测: 不告知版本信息
- 独立评分: 每人独立打分
- 记录问题: 详细记录问题点
3. 汇总阶段
- 计算平均分
- 分析离散度(标准差)
- 讨论分歧点
4. 决策阶段
- 根据分数决策
- 记录决策理由
- 制定改进计划
评分表模板:
评估者: ___
Prompt: PRD撰写 v1.2.0
任务: XX SaaS产品PRD
【评分】
准确性: ___/10
完整性: ___/10
可用性: ___/10
专业性: ___/10
总分: ___/40
【优点】
1. ___
2. ___
3. ___
【缺点】
1. ___
2. ___
3. ___
【建议】
___
方法2: 自动化评估(大规模)
使用AI评估AI:
【评估Prompt】
你是一位资深的产品经理审核专家,拥有15年经验。
【任务】请评估以下PRD文档的质量
【评估维度】
1. 准确性 (10分): 信息准确、逻辑严密、数据可靠
2. 完整性 (10分): 覆盖所有必要部分、无遗漏
3. 可用性 (10分): 可直接使用、无需大量修改
4. 专业性 (10分): 符合行业标准、术语准确
【PRD文档】
[插入待评估的PRD内容]
【输出格式】
## 评分
- 准确性: X/10 (理由: ___)
- 完整性: X/10 (理由: ___)
- 可用性: X/10 (理由: ___)
- 专业性: X/10 (理由: ___)
- **总分: XX/40**
## 优点 (3-5条)
1. ___
2. ___
## 缺点 (3-5条)
1. ___
2. ___
## 改进建议 (3条,具体可执行)
1. ___
2. ___
3. ___
【要求】
- 评分要客观,给出具体理由
- 不要过于宽容或严格,正常PRD应在28-35分
- 优缺点要具体,不要泛泛而谈
自动化评估流程:
# 伪代码示例
def evaluate_prompt_output(prompt_version, test_tasks):
"""
自动化评估Prompt输出质量
"""
results = []
for task in test_tasks:
# 1. 用待测Prompt生成输出
output = generate_with_prompt(prompt_version, task)
# 2. 用评估Prompt给打分
evaluation = evaluate_output(output)
# 3. 记录结果
results.append({
'task': task,
'output': output,
'scores': evaluation['scores'],
'total_score': evaluation['total'],
'feedback': evaluation['feedback']
})
# 4. 汇总统计
avg_score = calculate_average(results)
std_dev = calculate_std_dev(results)
return {
'avg_score': avg_score,
'std_dev': std_dev,
'details': results
}
# 使用示例
result = evaluate_prompt_output(
prompt_version='v1.2.0',
test_tasks=[task1, task2, task3]
)
print(f"平均分: {result['avg_score']}/40")
print(f"标准差: {result['std_dev']}")
优点:
- ✅ 快速,可大规模测试
- ✅ 可重复,消除人为偏差
- ✅ 成本低
缺点:
- ❌ AI评估可能有偏差
- ❌ 复杂场景判断不准
- ❌ 需要定期人工校准
最佳实践: 自动化评估 + 人工抽检
方法3: 用户反馈(真实场景)
收集反馈表:
【Prompt使用反馈】
基本信息:
- 使用者: ___
- Prompt: PRD撰写 v1.2.0
- 任务: ___
- 使用日期: ___
快速评分 (1-5星):
总体满意度: ⭐⭐⭐⭐⭐
输出质量: ⭐⭐⭐⭐⭐
节省时间: ⭐⭐⭐⭐⭐
易用性: ⭐⭐⭐⭐⭐
具体反馈:
Q1: 哪些方面最满意?
A: ___
Q2: 哪些方面需要改进?
A: ___
Q3: 实际使用中遇到什么问题?
A: ___
Q4: 对比之前的方法,改进多少?
A: 节省时间 ___%, 质量提升 ___%
Q5: 是否愿意推荐给同事?
A: □ 非常愿意 □ 愿意 □ 一般 □ 不愿意
Q6: 其他建议
A: ___
反馈分析:
【反馈汇总 - v1.2.0】
收集周期: 2024-12-01 ~ 2024-12-08
反馈数量: 15份
总体满意度: 4.2/5 ⭐⭐⭐⭐
高频正面反馈:
1. "输出格式很清晰,表格很规范" (8次)
2. "数据分析部分很实用" (7次)
3. "节省了大量时间" (6次)
高频负面反馈:
1. "复杂产品的PRD略显冗长" (5次)
2. "技术方案需要多次补充" (4次)
3. "对新兴行业适应性差" (2次)
改进优先级:
P0: 优化复杂产品的输出结构
P1: 增强技术方案的深度
P2: 补充新兴行业的知识
下版本计划: v1.3.0
目标: 解决P0问题,提升至4.5/5星
🎯 实战案例
案例:PRD模板从v1.0到v3.0的演进
版本演进时间线
v1.0.0 (2024-11-20) - 基础版
├─ 问题: 输出太泛泛,缺乏深度
├─ 测试: 10次,平均37.7/50分
└─ 用户反馈: 3.5/5星
↓ 迭代1: 增加数据分析
v1.1.0 (2024-11-25) - 数据增强版
├─ 改进: Context增加数据要求
├─ 测试: 5次,平均40.0/50分 (+6.1%)
├─ 用户反馈: 3.9/5星
└─ 问题: 格式不够清晰
↓ 迭代2: 优化输出格式
v1.2.0 (2024-12-01) - 格式优化版
├─ 改进: Criteria明确Markdown表格格式
├─ 测试: 5次,平均41.4/50分 (+3.5%)
├─ 用户反馈: 4.2/5星
└─ 问题: 复杂产品输出冗长
↓ 迭代3: 分层输出
v2.0.0 (2024-12-10) - 分层版
├─ 改进: 引入"简版-详版"两阶段输出
├─ 测试: 5次,平均44.8/50分 (+8.2%)
├─ 用户反馈: 4.6/5星
└─ 问题: 技术方案深度不足
↓ 迭代4: 技术增强
v2.1.0 (2024-12-18) - 技术增强版
├─ 改进: 技术方案增加架构图、时序图要求
├─ 测试: 5次,平均46.2/50分 (+3.1%)
└─ 用户反馈: 4.8/5星
总提升: 37.7 → 46.2 (+22.5%)
迭代周期: 28天,4个版本
平均每版本提升: +5.6%
详细变更记录
v1.0.0 → v1.1.0
变更点:
【Context部分】
+ 增加:
"【数据要求】
- 市场规模数据(TAM/SAM/SOM)
- 用户画像数据(年龄/职业/痛点/使用场景)
- 竞品数据(功能对比/定价策略/市场份额)"
测试结果:
- 完整性: 7.5 → 9.0 (+1.5分)
- 准确性: 7.8 → 8.0 (+0.2分)
- 总分: 37.7 → 40.0 (+2.3分)
用户反馈:
✅ "数据部分很实用,有理有据"
✅ "市场分析更专业了"
⚠️ "但格式还是有点乱"
v1.1.0 → v1.2.0
变更点:
【Criteria部分】
+ 增加:
"【输出格式】
- 使用Markdown格式
- 关键数据用表格呈现
- 流程用mermaid图表示(可选)
- 总字数控制在3000-5000字"
测试结果:
- 可用性: 7.8 → 8.2 (+0.4分)
- 专业性: 7.8 → 8.4 (+0.6分)
- 总分: 40.0 → 41.4 (+1.4分)
用户反馈:
✅ "格式清晰多了,表格很直观"
✅ "可以直接复制到文档使用"
⚠️ "复杂产品的PRD太长了,10页+"
v1.2.0 → v2.0.0(重构)
变更点:
【结构重构】
- 引入两阶段输出:
第一阶段:简版PRD (1000字)
- 核心需求
- 关键功能
- 主要数据
第二阶段:详版PRD (3000-5000字)
- 完整需求分析
- 详细功能设计
- 全面数据支撑
- 技术方案
- 上线计划
用户自主选择是否需要详版
测试结果:
- 效率: 7.8 → 9.2 (+1.4分,简版仅需10分钟)
- 可用性: 8.2 → 9.0 (+0.8分,更灵活)
- 总分: 41.4 → 44.8 (+3.4分)
用户反馈:
✅ "太棒了!简单需求用简版,复杂需求用详版"
✅ "大大节省了时间"
✅ "输出更精准了"
⚠️ "技术方案部分还可以更深入"
v2.0.0 → v2.1.0
变更点:
【技术方案增强】
+ 增加:
"【技术方案要求】(详版PRD专用)
- 系统架构图(用mermaid或文字描述)
- 关键接口设计(至少3个核心接口)
- 数据库设计(核心表结构)
- 技术栈选型(含理由)
- 性能指标(QPS/延迟/并发等)
- 安全方案(认证/授权/数据安全)"
测试结果:
- 专业性: 8.4 → 9.4 (+1.0分)
- 完整性: 9.0 → 9.6 (+0.6分)
- 总分: 44.8 → 46.2 (+1.4分)
用户反馈:
✅ "技术方案终于够深了,开发直接能用"
✅ "架构图很清晰"
✅ "接近完美了"
🔧 团队协作场景
一、团队Prompt库建设
组织结构:
团队Prompt库/
├── 📁 公共模板/ (所有人可用)
│ ├── PRD撰写/
│ ├── 竞品分析/
│ ├── 技术方案/
│ └── ...
├── 📁 团队定制/ (本团队专用)
│ ├── 产品团队/
│ ├── 技术团队/
│ ├── 运营团队/
│ └── ...
├── 📁 实验版本/ (测试中)
│ ├── PRD_v2.0_beta/
│ └── ...
└── 📊 使用统计.sheet
权限设计:
| 角色 | 查看 | 使用 | 编辑 | 发布 |
|---|---|---|---|---|
| 普通成员 | ✅ 公共+本团队 | ✅ 公共+本团队 | ❌ | ❌ |
| 团队管理员 | ✅ 公共+本团队 | ✅ 公共+本团队 | ✅ 本团队 | ✅ 本团队 |
| 超级管理员 | ✅ 全部 | ✅ 全部 | ✅ 全部 | ✅ 全部 |
二、协作流程
流程1:新建Prompt
1. 提出需求
- 填写《Prompt需求表》
- 说明使用场景、预期效果
- 提交给团队管理员
2. 设计初版
- 管理员或指定负责人设计v1.0
- 基于RICIC框架
- 参考现有模板
3. 内测
- 邀请3-5人测试
- 收集反馈
- 优化到v1.1或v1.2
4. 发布
- 通过审核后发布到团队库
- 编写使用文档
- 通知团队成员
5. 持续优化
- 收集使用反馈
- 定期迭代(每月1次)
流程2:优化现有Prompt
1. 发现问题
- 使用中发现问题
- 填写《Prompt优化建议表》
2. 评估优先级
- 团队管理员评估
- P0: 严重问题,立即修复
- P1: 重要改进,下周迭代
- P2: 一般优化,下月考虑
3. 设计改进方案
- 明确改进点
- 设计新版本
- A/B对比测试
4. 测试验证
- 小范围灰度测试
- 收集数据
- 对比基线
5. 发布更新
- 通过后发布新版本
- 旧版本归档
- 更新文档和通知
流程3:废弃Prompt
废弃条件:
- 使用频率<1次/月,持续3个月
- 被新版本完全替代
- 技术栈已废弃
废弃流程:
1. 标记为"计划废弃"
2. 通知所有使用者(至少提前1个月)
3. 推荐替代方案
4. 移到"归档"文件夹
5. 保留6个月后删除(保留备份)
三、团队协作工具矩阵
| 场景 | 推荐工具 | 理由 |
|---|---|---|
| Prompt存储 | Notion / 飞书文档 | 结构化、搜索方便 |
| 版本管理 | Git + GitHub/GitLab | 专业、可追溯 |
| 效果跟踪 | 飞书多维表格 / Airtable | 统计分析方便 |
| 团队沟通 | 飞书/钉钉/Slack | 实时通知 |
| 反馈收集 | 腾讯问卷 / Google Forms | 标准化收集 |
📌 最佳实践清单
✅ 个人使用
□ 建立个人Prompt文件夹(本地或云端)
□ 采用语义化版本号(v1.0.0)
□ 每个Prompt记录版本历史
□ 记录测试数据(至少3次测试)
□ 每月回顾和优化1次
□ 建立个人changelog
✅ 团队使用
□ 建立团队Prompt库(Notion/飞书)
□ 明确权限和协作流程
□ 采用Git管理版本(推荐)
□ 建立效果跟踪看板
□ 定期团队分享会(每月1次)
□ 新人入职培训包含Prompt使用
✅ 迭代优化
□ 建立基线(至少3次测试)
□ 一次只改一个变量
□ A/B对比测试(盲测)
□ 数据驱动决策(不凭感觉)
□ 小步快跑(不求一次完美)
□ 记录每次变更理由
✅ 效果评估
□ 建立评估指标体系
□ 定期评估(每周/每月)
□ 收集用户反馈
□ 计算ROI
□ 对比基线和目标
□ 可视化展示趋势
🎯 总结
核心要点:
-
版本管理是必需的,不是可选的
- 工具可以简单(文件夹),也可以专业(Git)
- 关键是养成习惯,每次都记录
-
迭代优化要科学,不要凭感觉
- 建立基线 → 假设改进 → A/B测试 → 数据决策
- 一次只改一个变量
- 小步快跑,持续优化
-
效果评估要系统,不要片面
- 质量指标(准确性、完整性、可用性、专业性)
- 效率指标(时间、成本、稳定性)
- 业务指标(ROI、满意度)
-
团队协作要规范,不要混乱
- 明确权限和流程
- 统一工具和标准
- 定期分享和培训
行动建议:
今天就开始:
1. 建立第一个Prompt文件夹
2. 给现有Prompt标记版本号
3. 记录一次测试数据
本周完成:
1. 建立个人Prompt库(至少5个)
2. 选1个Prompt做A/B测试
3. 建立changelog
本月完成:
1. 个人Prompt库达到20个
2. 优化3个高频Prompt
3. 总结个人方法论
长期坚持:
1. 每周记录1个新Prompt
2. 每月优化1次高频Prompt
3. 每季度复盘和分享
最后更新: 2024年12月 版本: v1.0