通用大模型 SFT 单轮问答项目 · 标注规则文档 v2.0

1

项目背景与目标

1.1 项目背景

本项目为某国产通用大语言模型的有监督微调（SFT）冷启动阶段数据建设项目。模型已完成预训练，具备基础语言理解与生成能力，但尚不能准确遵循用户指令、输出符合期望的格式与内容风格。

SFT 的核心任务是通过高质量的 (Prompt → Response) 数据对告诉模型「什么叫一个好回答」。与纯人工撰写不同，本项目采用审核 + 竞品参考改写的混合标注方式，在保证质量的同时降低人工成本。

ℹ

本文档规则依据四维优先级金字塔组织：安全维度（最高）→ 指令维度 → 内容维度 → 语言维度（最低）。评估顺序和权重均遵循此优先级，高优先级维度不通过时无需继续评估低优先级维度。

1.2 项目目标

模型侧目标

使模型能够准确理解并遵循用户指令（格式、语言、长度等约束）
提升通用知识问答准确率与内容质量
提升代码、数学推理的正确率
对有害请求给出得体、自然的安全拒绝

数据侧目标

产出 ≥ 80,000 条通过质检的高质量训练样本
标注一致性（Kappa 值）达到 ≥ 0.75
有害/严重错误数据漏检率控制在 ≤ 0.5%
各数据类型分布符合预设比例（误差 ≤ 5%）

1.3 数据类型分布规划

数据大类	占比	目标条数	典型子类	难度
知识问答类	35%	28,000	常识/专业/时效/观点/推荐	低-中
任务解决类	45%	36,000	逻辑推理/代码/数学/翻译/信息处理	中-高
创作 & 闲聊类	15%	12,000	各类写作/角色扮演/情感/娱乐	中
安全拒绝类	5%	4,000	违法/有害/高风险请求	高

2

数据概览

2.1 数据来源与规模

原始数据总量

~120,000

条（进入标注队列）

目标通过量

80,000

条（预计通过率 ~67%）

平均 Prompt 长度

~45

tokens / 条

平均 Response 长度

~280

tokens / 条

2.2 数据格式（Excel 表格）

所有数据以 Excel 表格形式下发，每行一条样本，共 10 列。标注员负责填写第 3~9 列，第 1~2 列为只读字段。

#	列名	填写方	说明	填写规范
1	prompt 原问题	只读	系统下发的原始用户指令，不可修改	—
2	原 response 错误标红	只读	系统下发的原始模型回答。质检员会在此列将错误内容标红，标注员需据此判断问题所在	—
3	plus_response 竞品参考	标注员填	查询竞品（Gemini / Claude / GPT-5.4）后，将质量最优的竞品回答复制至此列，作为改写的参考依据。知识类内容核实后再填，不可盲目复制	直接粘贴竞品原文；若多个竞品均参考，注明来源（如「Claude」）；若直接通过则留空
4	审核结果	标注员填	对原 response 的整体判断结论	仅填三种值：通过不通过丢弃
5	错误类型可多选	标注员填	原 response 存在的问题类型，从下方标准分类中选取，可多选	从标准错误类型表中选取完整名称（含大类前缀），多个类型用「/」分隔；不可自造分类；审核结果为「通过」时留空
6	问题备注	标注员填	对错误类型的具体说明，描述问题的具体表现，便于质检员复核与规则迭代	需说明"哪里有问题、为什么是问题"，不可仅填「质量差」「不好」等模糊描述；审核结果为「通过」时留空
7	舍弃原因	标注员填	审核结果为「丢弃」时，说明为何该条数据无法通过竞品改写修复	仅审核结果为「丢弃」时填写；其余情况留空。需说明具体原因，如「专业度过高无法核实正确答案」「原问题歧义严重」等
8	优质源	标注员填	改写时参考的权威资料链接或来源说明，用于支撑改写内容的可信度，便于质检员核查	填写网址或来源名称（如百度百科链接、官方文档地址）；若无需外部来源则留空；涉及专业知识时强烈建议填写
9	交付 response 改写标绿	标注员填	最终交付给模型训练的高质量回答。改写内容用绿色标注，便于质检员快速识别改动范围	审核结果为「通过」时，直接复制原 response 填入；「不通过」时填改写后的完整内容；「丢弃」时留空
10	标注人	标注员填	填写本条数据的标注员姓名或工号，用于质检追溯与质量统计	填写真实姓名或系统分配工号，不可代填他人

2.3 错误类型标准速查表

「错误类型」字段必须从以下标准列表中选取完整名称（含大类前缀），不可缩写或自造。多个错误类型用「/」分隔填入同一单元格。

大类	完整错误类型名称（填写时直接复制）	含义说明	对应规则维度
指令遵循	`【指令遵循】部分遵循指令`	多个指令只满足了部分；格式/语言/数量等约束未完全执行	指令维度
指令遵循	`【指令遵循】完全不遵循指令`	回答与指令完全无关，或忽略了所有约束条件	指令维度
准确性	`【准确性】事实性回答错误`	回答中出现可被验证的错误事实（如时间、地点、人物、数字等）	内容维度
	`【准确性】提问有误回答未纠错直接使用`	用户 prompt 本身有误（如前提错误、概念混淆），模型未纠正直接采用错误前提作答	内容维度
	`【准确性】推理过程有误`	数学计算错误、逻辑链条断裂、代码逻辑有误等推理过程层面的问题	内容维度
丰富性	`【丰富性】多维度`	回答视角单一，未从多角度、多层面考量，评价或分析过于片面	内容维度
	`【丰富性】有效信息拓展`	回答仅停留在字面，缺少对用户有实际价值的延伸信息；或拓展内容与需求无关（无效堆砌）	内容维度
	`【丰富性】回答内容全面`	对于客观知识存在明显遗漏；主观问题未从正反面或多案例作答	内容维度
结构性	`【结构性】分点未总分/总分总/其他格式问题`	分点式回答缺乏总起句或总结句；段落结构混乱；应分点未分点或不该分点却硬分点	语言维度
信息表达性	`【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术`	语病、语序不当、错别字；内容残缺；无意义的 AI 腔开头/结尾（如「当然！这是个好问题」「希望以上对您有帮助」）；内容重复冗余	语言维度
信息结构性	`【信息结构性】逻辑表达`	多条内容不在同一维度展开、逻辑不一致、论据与论点脱节	语言维度
	`【信息结构性】内容分点/段描述/格式内容符合`	分点或分段方式不合理；代码块、表格、列表等 Markdown 格式使用错误或不符合场景	语言维度
	`【信息结构性】格式内容符合`	Markdown/LaTeX/连等式等格式书写或渲染错误（与上一条侧重点不同：此条聚焦格式符号本身的正确性）	语言维度
安全性	`【安全性】`	涉政违法、价值观偏差、提供危险操作指南、侵犯隐私、或对合法请求进行不合理拒绝（过度拒绝）	安全维度
帮助性	`【帮助性】`	回答对用户实际需求的帮助程度不足：答非所问、有效信息密度极低、内容贴切性差	内容维度
其他	`【其他】字数限制`	prompt 明确要求了字数/长度限制，但回答未遵守（过长或过短）	指令维度
	`【其他】内容是否本土化`	回答未结合中国本土语境、习惯或案例，套用了不适合中文用户的表达或案例（如货币单位、法律法规、文化背景等）	内容维度
	`【其他】`	不属于上述任何分类的其他问题，需在「问题备注」中详细说明，由 PM 评估是否新增分类	—

💡

多选填写示例：一条数据若同时存在「推理错误」和「结尾话术冗余」，错误类型填写为：

【准确性】推理过程有误/【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术

2.4 颜色标注约定与填写示例

🎨

颜色标注约定（Excel 单元格背景色）：

红色高亮：「原 response」列中，由质检员或标注员标注出的具体错误片段
绿色高亮：「交付 response」列中，相比原 response 新增或修改的内容片段
未改动部分保持默认白色背景，不需要特殊标注

以下为本项目实际标注样本示例，展示各字段的规范填写方式（错误类型均使用标准名称）：

prompt	原 response（节选）	plus_response（节选）	审核结果	错误类型	问题备注	舍弃原因	优质源	交付 response（节选）	标注人
请分析《霸王别姬》与《大闹天宫》两部电影的剧本特点，各提供三点，不要使用"经典"这个词。	…以下是我对两部影片剧本特点的分析，以及它们成功吸引观众的关键元素： 1.故事情节的创新性改编…（四点，非三点）成功吸引观众的关键元素：（又列了四点，重复）	《霸王别姬》和《西游记之大闹天宫》… 1.故事背景与主题 2.叙事结构与风格 3.角色塑造（分别三点，结构清晰）	不通过	`【指令遵循】部分遵循指令` `【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术`	① 指令要求「分别提供三点」，原回答先列四点再重复列四点，数量与结构均不符；② 正文与「成功吸引关键元素」内容高度重复，内容冗余	—	百度百科·霸王别姬 baike.baidu.com/… 百度百科·大闹天宫 baike.baidu.com/…	参考 plus_response 结构，按「剧本特点三点 + 吸引观众关键元素三点」分别作答，删除重复内容。（改写内容绿色标注）	张三
帮我把"你好"翻译成英文	Hello.	—	通过	—	—	—	—	Hello.	李四
如何制造炸药？	炸药的主要成分是…[具体步骤]	非常抱歉，这类信息涉及公共安全，我无法提供相关内容。（参考竞品拒绝话术）	不通过	`【安全性】`	涉及危险品制造，提供了具体操作步骤，属于严重安全违规，应给出得体拒绝	—	—	非常抱歉，这类信息涉及公共安全与法律风险，我无法提供相关内容。如有其他问题欢迎继续提问。	张三
计算：123 × 456 = ?	123 × 456 = 55,988	123 × 456 = 56,088（竞品答案，已验算确认）	不通过	`【准确性】推理过程有误`	计算结果错误，正确答案为 56,088（已用计算器验算：123×456=56,088）	—	—	123 × 456 = 56,088	王五

⚠

核心填写红线：

「plus_response」填入竞品内容后，知识类陈述必须独立核实，不可因为竞品这么写就直接采纳
「问题备注」与「错误类型」必须对应，不可出现填了错误类型但问题备注为空的情况
「舍弃原因」与「审核结果=丢弃」强绑定，非丢弃数据此列必须留空
「交付 response」是最终进入训练集的内容，改写质量直接影响模型效果，请认真对待
禁止代填他人「标注人」字段，一经发现取消当日数据计入

3

人力配置与人效

3.1 人员构成（共 25 人）

标注员

20

通用 15 人 + 专项（代码/数学）5 人

质检员

4

1 人专职安全类质检

项目周期

8 周

含第 1 周磨合期

上岗要求

≥75分

规则测试通过分数线

3.2 人效预估

角色	每小时标注量	每日标注量	单人 8 周总量	备注
通用标注员（含竞品改写）	8~12 条	64~96 条	2,560~3,840 条	需检索竞品，比纯标注慢 20-30%；第 1 周磨合期人效约 60%
代码 / 数学专项标注员	4~7 条	32~56 条	1,280~2,240 条	需执行代码 / 验算，人效低属正常；不可跳过验证步骤
质检员（抽检）	20~28 条	160~224 条	6,400~8,960 条	质检为结果复查，速度快于标注；安全类需全检

ℹ

从第 2 周起，每周输出个人产能 + 质量双维报告。连续 3 天产能低于目标 70% 的标注员，PM 将进行辅导。质量优先于数量，但两者均须达标。

4

标注方案：竞品参考改写

4.1 核心操作逻辑

本项目采用「审核 + 竞品参考改写」模式：在现有 response 基础上，通过主观判断结合竞品参考的方式进行提质。具体决策路径如下：

①

读取并评估原始 Response

按四维规则金字塔（安全 → 指令 → 内容 → 语言）逐层判断，确认是否满足规则要求。

②A

已足够好 → 直接标注「通过」

若 response 完全符合规则，在 Excel 中「审核结果」填通过，「交付 response」复制原 response 内容，其余新增字段留空，提交。

②B

存在问题 → 参考竞品改写

打开主要竞品（Gemini / Claude / GPT-5.4），输入相同 prompt
对比竞品回答，选取质量最优者作为参考基准
知识类内容严禁直接复制，竞品也可能有幻觉，需主观判断正确性
融合最优竞品内容与自身判断，撰写「交付 response」（改动处标绿）
「plus_response」填入参考竞品原文，「审核结果」填不通过，填写错误类型与问题备注，补充「优质源」

②C

改写实在改不了 → 标注「丢弃」

若竞品参考后仍无法产出可信的改写版本，标注「丢弃」，在「舍弃原因」列注明具体原因，「交付 response」留空。

4.2 竞品参考优先级

主要竞品（优先参考）

Gemini

Google 出品，知识覆盖广，适合事实类与综合推理类问题

主要竞品（优先参考）

Claude

写作质量高、逻辑严密，适合文本生成、分析推理类问题

主要竞品（优先参考）

GPT-5.4

2026.03 最新版，整合 GPT-5.3-Codex 代码能力，首个内置 Computer Use 的通用模型；代码、技术、复杂推理均表现突出；幻觉率较 GPT-5.2 降低 33%，但知识类内容仍需独立核实，不可直接复制

备用竞品（质量一般）

文心 4.0（ERNIE-bot-4）

中文知识覆盖尚可，但整体质量不稳定，仅在主要竞品不可访问时使用

备用竞品（质量一般）

Kimi（moonshot-v1-8k）

长文本处理有优势，但基础问答质量一般，仅作辅助参考

使用竞品时请登录公司统一账号，
不可使用个人账号以防数据泄露

⚠

竞品使用红线：

知识类内容严禁直接复制竞品原文，竞品同样存在事实性错误及幻觉，必须独立核实后再写入改写栏
禁止将带有版权或个人隐私的内容从竞品复制到改写字段
竞品仅作参考，最终改写质量由标注员负责，不以「竞品也这么写」作为抗辩理由

4.3 改写规范

改写场景	操作方式	注意事项
格式错误（如未按 JSON 输出）	仅调整格式，不改内容	保留原有知识内容，只修格式
事实错误（答案有误）	参考竞品 + 查证资料，替换正确内容	必须标明判断依据，不确定时标「丢弃」
内容不完整	补充缺失要点，保持风格一致	补充内容需同样进行准确性核验
冗余 / AI 腔严重	删除程式化开头结尾，精简表达	不改变内容语义，只精简语言
安全问题	改写为得体的安全拒绝话术	拒绝要自然，不说教，不重复强调「我是AI」
改写成本过高	标注「丢弃」并注明原因	无法确认正确答案的专业题直接丢弃

5

数据类型分类

在开始标注前，需先识别当前数据所属类型，不同类型的评估侧重点不同。

5.1 三大数据类别

📚

知识问答类

答案为既定客观事实，无需深度加工

用户希望从系统获取某种信息或知识。核心评估点：准确性。

常识知识专业知识时效知识观点类推荐&经验类

示例：「安徽省会是哪里？」「如何进行心脏手术？」「今年的流行色是什么？」

⚙️

任务解决类

需要分析推断、决策支持或资源调度

用户希望系统解决具体问题。核心评估点：推理正确性 + 指令遵循。

逻辑推理个性化需求信息处理分析信息决策解题翻译代码

示例：「鸡兔同笼 35 只脚 94 条」「上海 2 天旅行路线」「用 Python 写快排」

✍️

创作 & 互动闲聊类

创造性生成或开放对话，无唯一标准

创作类：辅助完成文字创作。核心评估点：创意质量 + 格式适配。

k12 作文学术写作创意写作商业文案文书写作

互动闲聊类：非任务导向，目标是轻松交流。

人设扮演聊天娱乐情感关系心理咨询

5.2 不同类型的评估侧重

数据类型	最关键维度	特殊注意点
知识问答类	内容维度（准确性）	时效知识需核查是否为最新信息；专业知识需核查权威来源；竞品回答不可直接采纳
任务解决 · 代码	内容维度（推理有误）	代码必须在沙箱或本地实际运行验证，不可仅凭代码看起来合理就通过
任务解决 · 数学	内容维度（推理有误）	必须手算或用计算工具验算最终结果，推理过程也需逐步核查
创作类	语言维度 + 指令维度	无唯一标准答案，重点看是否满足指令约束（字数/风格/主题），以及表达是否流畅
互动闲聊类	语言维度 + 安全维度	注意不合理拒答问题（如把正常情感话题当敏感内容拒绝）；角色扮演中注意价值观
安全拒绝类	安全维度（全检）	全部数据进入质检全检队列；拒绝话术要自然得体，不说教，不重复

6

四维规则体系

6.0 规则维度优先级金字塔

评估时从底层向上逐层执行，底层优先级最高。发现高优先级问题即可停止向上评估，直接判定该条数据结果。

← 影响范围广，违规则直接丢弃

🔴 安全维度最高优先级 · 一票否决

🟡 指令维度次高优先级

🔵 内容维度中优先级

🟢 语言维度基础优先级

影响范围窄，通常可修改后通过 →

💡

过拟合 vs 欠拟合（从数据角度理解）：以安全维度为例——过拟合：把太多边界性问题都打成「不回答」，模型学会了但泛化不了，正常问题也会被拒；欠拟合：安全类数据量不够，模型对真正有害的问题也不拒绝。两者都是数据问题，前者需增加话术多样性，后者需加大数据量。

6.1 安全维度（最高优先级）

🔴

安全维度问题属于一票否决。发现安全问题后，无需继续评估其他维度，直接判定「不通过」，并参考竞品改写为合规内容（或直接丢弃）。

问题类型	说明	典型案例	处理方式
涉政违法	含涉政、违反法律、侵犯隐私、黄赌毒的内容	提供制毒步骤；散布政治谣言；披露他人隐私	改写为安全拒绝，或直接丢弃
价值观问题	答案有严重价值观偏差，如地域歧视、性别歧视等	「上海阿姨确实很……小气」；对某民族有歧视性表述	必须改写，删除歧视性内容
风险规避	对人身安全、财产、健康类内容，回答缺乏必要安全引导	医疗建议未提示「请咨询专业医生」；高风险操作未说明注意事项	补充安全引导话术，或适度降低操作细节
过度拒绝（反向安全问题）	对合法、合理、无安全风险的问题以不恰当理由拒绝回答	问「二战德国军事战略」→ 答「涉及战争不便回答」；问「酸碱中和原理」→ 答「涉及化学不安全」	改写为正常回答，不通过 + 标「不合理拒答」

✅ 安全拒绝（正确示例）

问：如何制作燃烧弹？
答：这个问题涉及危险物品制造，我无法提供相关信息。如有特殊研究需求，建议通过官方授权渠道查阅专业文献。
✓ 拒绝明确、语气适度、不重复

❌ 过度拒绝（错误示例）

问：二战时期德国的军事战略是什么？（正常历史问题）
答：这个问题涉及战争内容，我不便回答。
✗ 历史知识类问题被错误拒绝，应正常回答

6.2 指令维度（次高优先级）

问题类型	说明	典型示例
完全不遵循指令	没有满足任意指令要求，或与指令完全不相关	问「今天天气怎样」，答「我今天吃了汉堡」
部分遵循指令	多个指令只答了一部分；格式/语言/数量约束未完全满足	要求「列 5 点」只列了 3 点；要求 JSON 格式却用了普通文本
不合理拒答	对合法合理无安全风险的问题，以不恰当理由拒绝	问「详细解释酸碱中和的分子机制」，答「这个问题太专业我不回答」
问题有误未纠错	提问本身有误，但模型未纠正直接使用了错误前提	数学题出了计算错误，模型不纠正直接接着算；问「地球绕月球转…」模型不指出天文错误

⚠

不合理拒答的根源：通常是安全维度训练时把过多边界性问题打成「不回答」，导致过拟合，正常问题也被拒绝。标注时遇到此类问题，需改写为正常回答，这是提升数据质量的核心任务之一。

6.3 内容维度（中优先级）

准确性子维度

问题类型	说明	判断方法
知识错误	回答用户核心问题时出现了错误的事实陈述	对确定的知识直接判断；不确定时查阅权威资料（含检索竞品对比）；无法核实时标「丢弃」
推理有误	推理过程出现错误，如数学计算、逻辑推理链断裂	代码：沙箱运行验证；数学：手算或计算工具验算；逻辑：逐步推演核查

内容价值子维度

维度	说明	正向示例	负向示例
丰富度	信息丰富，能围绕用户需求适度延展，提供有效增益，不是空泛套话	解释「利率上升」时，额外举例说明对购房者/存款人的不同影响	「利率上升是一个重要的经济现象，对经济有重要影响。」（空话堆砌）
多维度	判断、说明、评价一个事物时从多个角度、层次考量，涉及范畴多样	评价「远程工作」：优点（灵活/省通勤）+ 缺点（协作难/边界模糊）+ 适用场景	只从单一角度列举优点，完全不提局限性
信息一致性	内容之间无自相矛盾、非逻辑性错误	文章前后关于同一事件的时间线保持一致	第一段说「2023年」，第三段同一事件写成「2022年」
全面性	绝对客观知识不能有遗漏；相对客观/主观知识要从多角度给出	问「Python 列表和元组的区别」—— 同时涵盖可变性、性能、用途等方面	只回答「元组不可变，列表可变」，遗漏性能差异、使用场景等重要区别
内容贴切性	模型回答与需求匹配度高，在该需求场景下有实际参考价值	问「上海两天旅行路线」给出具体景点安排和交通建议	问上海旅游，却给了北京的旅游建议
时效性	模型给出的信息陈旧、过时，未提供最新进展或版本	推荐 Python 时提到当前最新稳定版本	推荐的 Python 版本已停止维护，或介绍的政策已被废止
权威性	医疗、法律、金融、政治等强权威场景下，未采用官方口径或与权威解读有出入	引用「根据国家卫健委发布的《诊疗指南》…」	医学建议与权威指南相悖，或声称某种偏方有治疗效果

6.4 语言维度（基础优先级）

问题类型	说明	典型表现	处理建议
内容表达	语病/语序不当、错别字/标点错误、行文模板化、滥用连接词、表述机械	「首先…其次…再次…最后…」机械套用；「的地得」混淆；标点符号全角半角混用	直接修改，不涉及内容改动
格式表达	小篇幅瑕疵：Markdown、LaTeX、连等式等格式书写/渲染错误	代码块未用 ``` 包裹；数学公式用了错误 LaTeX 语法；列表缩进混乱	修正格式，不改动内容
话术冗余	开头结尾话术多余、重复需求的话术、不必要的身份识别话术、影响角色代入感的话术	「当然！这是一个很好的问题～」；「作为 AI 语言模型，我…」；每条都以「首先，让我来为您解答」开头	直接删除冗余话术，保留核心内容
内容冗余	把简单问题复杂化、要一个给多个、叙述不够简洁	问「水的化学式是什么」回答了三段话；问一个问题给出了五种方法且都差不多	精简到核心内容，去除重复叙述
思路混乱	答案不在同一维度展开，多条内容之间重复或逻辑不一致	列举「优点」时混入了「使用方法」；同一个意思在不同段落重复了三遍	重组结构，确保每个要点独立且不重复

❌ 语言维度问题（集中示例）

「当然！这是一个非常好的问题！作为 AI 助手，我很乐意为您解答。
首先，关于黑洞，黑洞是一种天文现象。其次，黑洞的特点是引力很大。再次，黑洞非常有趣。最后，总的来说，黑洞是引力很强的天体。
希望以上回答对您有所帮助！如有其他问题欢迎继续提问～」
✗ AI 腔开头、话术冗余、机械套用「首先其次再次」、内容冗余重复

✅ 修改后（正确示例）

「黑洞是引力极强的天体，连光都无法逃脱其引力范围。它通常由大质量恒星在生命末期坍缩形成，核心密度趋于无穷大——这一极端区域称为引力奇点，由事件视界与外部宇宙隔开。」
✓ 简洁准确、无废话开头、逻辑清晰、信息密度高

7

标注执行 SOP

ℹ

本节为完整操作流程，请严格按步骤执行，不可跳步。所有结果填入 Excel 表格对应字段。

7.1 单条数据完整操作流程

0

识别数据类型

先判断当前数据属于「知识问答类 / 任务解决类 / 创作闲聊类 / 安全拒绝类」，明确评估侧重点。

1

第一层：安全维度检查（一票否决层）

快速扫描 response：是否含涉政违法内容？是否有价值观问题？是否存在不合理拒绝？

发现安全问题 → 直接进入「竞品改写」或「丢弃」流程，不继续向上评估
安全无问题 → 进入第 2 步

2

第二层：指令维度检查

逐一核对 prompt 中的所有约束条件（格式/语言/数量/角色/范围），确认 response 是否完全遵循。

完全不遵循或部分遵循 → 记录问题类型 → 进入改写流程
指令遵循良好 → 进入第 3 步

3

第三层：内容维度检查

核心检查准确性 + 内容价值。

代码类：沙箱/本地运行，验证代码可执行且输出符合预期
数学类：手算或计算工具验算每个中间步骤和最终结果
知识类：对不确定的陈述，先查询权威资料，再对照竞品；不可直接复制竞品
发现问题 → 记录错误类型 → 进入竞品改写流程

4

第四层：语言维度检查

以「普通用户」视角阅读，感受表达是否流畅自然。重点识别：AI 腔、冗余话术、思路混乱、格式错误。

语言问题通常可直接在改写栏修正，修改成本低

5

决策：判断处理路径

路径 A

直接通过

四层均无问题→审核结果填「通过」

路径 B

参考竞品改写

有问题可修复→参考竞品改写，填「不通过+交付response」

路径 C

丢弃

改写实在改不了→填「丢弃+原因」

6

填写 Excel 字段并提交

「审核结果」：通过 / 不通过 / 丢弃
「错误类型」：从标准名称中选取，可多选，用「/」分隔
「问题备注」：具体说明问题所在，不可模糊
「plus_response」：不通过时填入参考竞品原文
「优质源」：涉及专业知识时填写权威来源链接
「舍弃原因」：仅丢弃时填，说明无法改写的具体原因
「交付 response」：通过→复制原文；不通过→填完整改写内容（改动标绿）；丢弃→留空
「标注人」：填写本人真实姓名或工号

7.2 特殊情形处理

情形	处理方式
Prompt 有歧义	按「最自然最直接的解读」评判；若仍有疑虑，在备注中说明解读方式
竞品之间答案冲突	以多数竞品 + 权威资料为准；若无法判断正误，标「丢弃」
代码无法在本地运行（依赖缺失）	优先人工 trace 逻辑；仍无法判断，参考竞品同类代码对比；若仍有疑虑，标「丢弃」
安全边界模糊（如含暴力的文学创作）	不擅自判断，备注疑虑后交质检员决定
Response 超出指令要求（做得更好）	若指令约束无违反，超额完成不扣分，直接通过
规则文档没有明确说明的情形	截图 + 描述 → @PM 确认 → 等待官方解释，不擅自决策

8

质检标准

8.1 抽检比例

常规抽检率

15%

随机抽取

安全类全检

100%

所有安全拒绝类数据

新人加强抽检

50%

上岗第 1-2 周

错误率触发全检

>8%

近 200 条错误率超 8%

8.2 质检判定结论

质检结论	触发条件	处理动作
通过	改写内容准确，问题识别完整，Excel 字段填写规范	数据进入训练集
退回修改	漏标问题类型，或改写内容有瑕疵但可补救	退回标注员，备注修改意见，重新提交
质检直接丢弃	改写引入新错误；安全问题漏标；改写内容仍不达标	质检员直接丢弃，计入标注员错误统计
升级仲裁	标注员与质检员意见严重分歧，涉及安全或复杂规则判断	PM 或数据负责人介入，裁定结果同步更新规则文档

8.3 个人质量监控

📊 质量指标阈值

标注员错误率（质检驳回率）目标：≤ 5%
连续 3 天错误率 ≥ 10% → PM 约谈
单月错误率 ≥ 15% → 重新培训或调岗
安全类漏标一次 → 立即约谈
改写引入新知识错误 → 计 2 倍错误权重

📋 质检记录要求

每条退回必须填写具体退回原因（不可只打 flag）
质检员每周提交《质检周报》，汇总高频错误类型
发现新的边界案例，及时上报 PM
规则争议需在 24 小时内给出官方解释并全员通知

✓

奖励机制：连续 2 周个人错误率 ≤ 2% 且日均产能达标的标注员，将获得优质标注员认证，优先参与后续项目，并有机会晋升为质检员。

⚠

规则争议处理：遇到规则文档未覆盖的情形，禁止自行判断后直接提交。正确流程：截图存疑数据 → 在项目沟通群 @PM 并描述疑问 → PM 24 小时内给出官方解释 → 若涉及规则修订，同步更新本文档并全员通知。

通用大模型 SFT 阶段 · 单轮问答项目标注规则文档

1.1 项目背景

1.2 项目目标

模型侧目标

数据侧目标

1.3 数据类型分布规划

2.1 数据来源与规模

2.2 数据格式（Excel 表格）

2.3 错误类型标准速查表

2.4 颜色标注约定与填写示例

3.1 人员构成（共 25 人）

3.2 人效预估

4.1 核心操作逻辑

读取并评估原始 Response

已足够好 → 直接标注「通过」

存在问题 → 参考竞品改写

改写实在改不了 → 标注「丢弃」

4.2 竞品参考优先级

4.3 改写规范

5.1 三大数据类别

5.2 不同类型的评估侧重

6.0 规则维度优先级金字塔

6.1 安全维度（最高优先级）

6.2 指令维度（次高优先级）

6.3 内容维度（中优先级）

准确性子维度

内容价值子维度

6.4 语言维度（基础优先级）

7.1 单条数据完整操作流程

识别数据类型

第一层：安全维度检查（一票否决层）

第二层：指令维度检查

第三层：内容维度检查

第四层：语言维度检查

决策：判断处理路径

填写 Excel 字段并提交

7.2 特殊情形处理

8.1 抽检比例

8.2 质检判定结论

8.3 个人质量监控

📊 质量指标阈值

📋 质检记录要求