password
Created time
Dec 14, 2025 03:41 PM
type
status
date
slug
summary
tags
category
icon
✍️ 引言 (Hook)
"我的模型回答总是差点意思,是不是该跑个 Fine-tuning 了?"
常用这样的疑问。然而,OpenAI 的官方文档给出的答案可能会让你意外:对大多数应用来说,Fine-tuning 应该是你最后考虑的手段,而不是第一步。
实际上,提升 LLM 准确率不仅是技术问题,更是成本与收益的博弈。OpenAI 发布的优化指南为我们提供了一套严密的"作战地图"。今天,我们就来深度拆解这套方法论,帮你省下不必要的算力成本,找到最短的优化路径。
🎯 核心要点
- 评估先行:没有 Evals (评测集),所有的优化都是盲人摸象。
- 上下文 > 记忆:RAG (检索增强生成) 解决的是知识问题,Fine-tuning 解决的是形式和行为问题。
- 优化阶梯:遵循 "Prompt Engineering -> RAG -> Fine-tuning" 的路径,性价比最高。
📖 文章正文
一、 优化的基石:建立度量衡 (Evaluation)
在动手改代码之前,OpenAI 强调了一个常被忽视的步骤:建立评估体系 (Evals)。
如果你无法量化模型的"不好",你就无法证明优化的"有效"。
- Case 1:很难确定的主观任务(如写诗) -> 需要人工评估或模型级评分(Model-graded evals)。
- Case 2:有标准答案的客观任务(如提取 JSON) -> 可以用脚本自动对比准确率。
专家建议:不要试图建立完美的测试集。先从 20-50 个典型的真实 User Case 开始,这比盲目优化 Prompt 有效得多。
二、 核心决策矩阵:你需要的是"知识"还是"行为"?
这是该文档最精华的部分。OpenAI 将优化方向拆解为两个维度:
- 上下文优化 (Context Optimization):解决"模型不知道"的问题。
- 模型优化 (LLM Optimization):解决"模型不听话"的问题。
- 如果模型在"胡说八道"(幻觉)或缺乏最新数据:你需要的是 RAG(给它看参考资料)。
- 如果模型在"格式错误"、"语气不对"或"逻辑不一致":你需要的是 Fine-tuning(纠正它的行为习惯)。
三、 循序渐进的优化四步法
基于这两个维度,OpenAI 推荐了一条性价比最高的路径:

1. Prompt Engineering (提示词工程)
- 成本:极低
- 动作:
- 把指令写清楚。
- Few-shot (少样本提示):给它几个示例,效果往往立竿见影。
- Chain of Thought (思维链):让模型 "Let's think step by step",在推理任务中能显著提升准确率。
- 判定:如果 Prompt 写出花儿来了,准确率还是卡瓶颈,再往下走。
2. Retrieval-Augmented Generation (RAG)
- 成本:中等(需要向量数据库、检索系统)
- 动作:
- 将私有数据、文档切片存入数据库。
- 提问时先检索相关片段,塞入 Prompt。
- 判定:这是解决领域知识不足的最佳方案。不要试图通过 Fine-tuning 让模型"背诵"知识,RAG 才是"开卷考试"。
3. Fine-tuning (微调)
- 成本:高(需要算力、高质量数据集维护)
- 动作:
- 使用成百上千的高质量
(Prompt, Completion)对进行训练。
- 判定:当你需要极高的格式遵循度、特定的语气风格,或者 Prompt 实在是太长导致成本过高时,使用 Fine-tuning 将这些指令"内化"到模型权重中。
4. 终极形态:RAG + Fine-tuning
- 场景:你需要一个既懂公司内部黑话(知识),又能完美遵循复杂 JSON 输出格式(行为)的专家。
- 策略:用 RAG 提供信息,用 Fine-tuning 规范动作。这是目前企业级应用的最强组合。
🔗 类比建议 (Analogy & Visualization)
建议类比:培养一名实习生
- Prompt Engineering:你给实习生发了一封详细的邮件,告诉他任务该怎么做,并附上了两个做好的样本。
- RAG (检索增强):你给了实习生这本任务相关的《操作手册》和《公司档案》,告诉他:"遇到不懂的,先查手册再回答,不要瞎编。"
- Fine-tuning (微调):你送实习生去参加了为期一个月的"职业技能特训营"。他大脑的结构(权重)发生了改变,变成了一个熟练工,不需要你每次都嘱咐细节,他也能形成肌肉记忆。
💡 关键洞察
- Fine-tuning 不是为了学习知识:这是一个巨大的误区。Fine-tuning 适合学习"模式"(Pattern),而非"事实"(Fact)。让模型背诵事实,它很容易遗忘或产生幻觉;RAG 才是外挂硬盘。
- Prompt 是 Fine-tuning 的原型:在决定 Fine-tuning 之前,先尝试把 Prompt 做得极其复杂(甚至包含几十个 Few-shot)。如果这样能跑通,说明任务是可行的,这时再通过 Fine-tuning 来降低 Token 消耗和延迟。
- 短板理论:模型的最终准确率,往往取决于检索(Retrieval)的质量,而不是生成(Generation)的质量。如果在 RAG 架构中,检索出的内容是垃圾,GPT-4 也救不回来(Garbage In, Garbage Out)。
🚀 行动建议
- 建立测试集:今天就去收集 20 个你的应用中最常出错的真实 Case,作为你的 "Golden Dataset"。
- 先加 Few-shot:在你的 Prompt 中加入 3-5 个完美的问答示例,这通常能解决 80% 的格式和逻辑问题。
- 审视架构:如果你正在用 Fine-tuning 试图让模型记住公司文档,请立即停止,转向 RAG 方案。
来源:
Optimizing LLM Accuracy | OpenAI API

Optimizing LLM Accuracy | OpenAI API
Learn strategies to enhance the accuracy of large language models using techniques like prompt engineering, retrieval-augmented generation, and fine-tuning.