通用大模型 SFT 阶段 · 单轮问答项目标注规则文档

本文档适用于所有参与本项目的标注员与质检员,请在上岗前完整阅读并通过规则测试。

文档版本
v2.1
生效日期
2026-03-18
项目代号
SFT-S01
标注方式
审核 + 竞品改写
文档负责人
数据负责人
1
项目背景与目标

1.1 项目背景

本项目为某国产通用大语言模型的有监督微调(SFT)冷启动阶段数据建设项目。模型已完成预训练,具备基础语言理解与生成能力,但尚不能准确遵循用户指令、输出符合期望的格式与内容风格。

SFT 的核心任务是通过高质量的 (Prompt → Response) 数据对告诉模型「什么叫一个好回答」。与纯人工撰写不同,本项目采用审核 + 竞品参考改写的混合标注方式,在保证质量的同时降低人工成本。

本文档规则依据四维优先级金字塔组织:安全维度(最高)→ 指令维度 → 内容维度 → 语言维度(最低)。评估顺序和权重均遵循此优先级,高优先级维度不通过时无需继续评估低优先级维度。

1.2 项目目标

模型侧目标

  • 使模型能够准确理解并遵循用户指令(格式、语言、长度等约束)
  • 提升通用知识问答准确率与内容质量
  • 提升代码、数学推理的正确率
  • 对有害请求给出得体、自然的安全拒绝

数据侧目标

  • 产出 ≥ 80,000 条通过质检的高质量训练样本
  • 标注一致性(Kappa 值)达到 ≥ 0.75
  • 有害/严重错误数据漏检率控制在 ≤ 0.5%
  • 各数据类型分布符合预设比例(误差 ≤ 5%)

1.3 数据类型分布规划

数据大类占比目标条数典型子类难度
知识问答类35%28,000常识/专业/时效/观点/推荐低-中
任务解决类45%36,000逻辑推理/代码/数学/翻译/信息处理中-高
创作 & 闲聊类15%12,000各类写作/角色扮演/情感/娱乐
安全拒绝类5%4,000违法/有害/高风险请求
2
数据概览

2.1 数据来源与规模

原始数据总量
~120,000
条(进入标注队列)
目标通过量
80,000
条(预计通过率 ~67%)
平均 Prompt 长度
~45
tokens / 条
平均 Response 长度
~280
tokens / 条

2.2 数据格式(Excel 表格)

所有数据以 Excel 表格形式下发,每行一条样本,共 10 列。标注员负责填写第 3~9 列,第 1~2 列为只读字段。

# 列名 填写方 说明 填写规范
1 prompt
原问题
只读 系统下发的原始用户指令,不可修改
2 原 response
错误标红
只读 系统下发的原始模型回答。质检员会在此列将错误内容标红,标注员需据此判断问题所在
3 plus_response
竞品参考
标注员填 查询竞品(Gemini / Claude / GPT-5.4)后,将质量最优的竞品回答复制至此列,作为改写的参考依据。知识类内容核实后再填,不可盲目复制 直接粘贴竞品原文;若多个竞品均参考,注明来源(如「Claude」);若直接通过则留空
4 审核结果 标注员填 对原 response 的整体判断结论 仅填三种值:通过 不通过 丢弃
5 错误类型
可多选
标注员填 原 response 存在的问题类型,从下方标准分类中选取,可多选 从标准错误类型表中选取完整名称(含大类前缀),多个类型用「/」分隔;不可自造分类;审核结果为「通过」时留空
6 问题备注 标注员填 对错误类型的具体说明,描述问题的具体表现,便于质检员复核与规则迭代 需说明"哪里有问题、为什么是问题",不可仅填「质量差」「不好」等模糊描述;审核结果为「通过」时留空
7 舍弃原因 标注员填 审核结果为「丢弃」时,说明为何该条数据无法通过竞品改写修复 仅审核结果为「丢弃」时填写;其余情况留空。需说明具体原因,如「专业度过高无法核实正确答案」「原问题歧义严重」等
8 优质源 标注员填 改写时参考的权威资料链接或来源说明,用于支撑改写内容的可信度,便于质检员核查 填写网址或来源名称(如百度百科链接、官方文档地址);若无需外部来源则留空;涉及专业知识时强烈建议填写
9 交付 response
改写标绿
标注员填 最终交付给模型训练的高质量回答。改写内容用绿色标注,便于质检员快速识别改动范围 审核结果为「通过」时,直接复制原 response 填入;「不通过」时填改写后的完整内容;「丢弃」时留空
10 标注人 标注员填 填写本条数据的标注员姓名或工号,用于质检追溯与质量统计 填写真实姓名或系统分配工号,不可代填他人

2.3 错误类型标准速查表

「错误类型」字段必须从以下标准列表中选取完整名称(含大类前缀),不可缩写或自造。多个错误类型用「/」分隔填入同一单元格。

大类 完整错误类型名称(填写时直接复制) 含义说明 对应规则维度
指令遵循 【指令遵循】部分遵循指令 多个指令只满足了部分;格式/语言/数量等约束未完全执行 指令维度
【指令遵循】完全不遵循指令 回答与指令完全无关,或忽略了所有约束条件 指令维度
准确性 【准确性】事实性回答错误 回答中出现可被验证的错误事实(如时间、地点、人物、数字等) 内容维度
【准确性】提问有误回答未纠错直接使用 用户 prompt 本身有误(如前提错误、概念混淆),模型未纠正直接采用错误前提作答 内容维度
【准确性】推理过程有误 数学计算错误、逻辑链条断裂、代码逻辑有误等推理过程层面的问题 内容维度
丰富性 【丰富性】多维度 回答视角单一,未从多角度、多层面考量,评价或分析过于片面 内容维度
【丰富性】有效信息拓展 回答仅停留在字面,缺少对用户有实际价值的延伸信息;或拓展内容与需求无关(无效堆砌) 内容维度
【丰富性】回答内容全面 对于客观知识存在明显遗漏;主观问题未从正反面或多案例作答 内容维度
结构性 【结构性】分点未总分/总分总/其他格式问题 分点式回答缺乏总起句或总结句;段落结构混乱;应分点未分点或不该分点却硬分点 语言维度
信息表达性 【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术 语病、语序不当、错别字;内容残缺;无意义的 AI 腔开头/结尾(如「当然!这是个好问题」「希望以上对您有帮助」);内容重复冗余 语言维度
信息结构性 【信息结构性】逻辑表达 多条内容不在同一维度展开、逻辑不一致、论据与论点脱节 语言维度
【信息结构性】内容分点/段描述/格式内容符合 分点或分段方式不合理;代码块、表格、列表等 Markdown 格式使用错误或不符合场景 语言维度
【信息结构性】格式内容符合 Markdown/LaTeX/连等式等格式书写或渲染错误(与上一条侧重点不同:此条聚焦格式符号本身的正确性) 语言维度
安全性 【安全性】 涉政违法、价值观偏差、提供危险操作指南、侵犯隐私、或对合法请求进行不合理拒绝(过度拒绝) 安全维度
帮助性 【帮助性】 回答对用户实际需求的帮助程度不足:答非所问、有效信息密度极低、内容贴切性差 内容维度
其他 【其他】字数限制 prompt 明确要求了字数/长度限制,但回答未遵守(过长或过短) 指令维度
【其他】内容是否本土化 回答未结合中国本土语境、习惯或案例,套用了不适合中文用户的表达或案例(如货币单位、法律法规、文化背景等) 内容维度
【其他】 不属于上述任何分类的其他问题,需在「问题备注」中详细说明,由 PM 评估是否新增分类
💡
多选填写示例:一条数据若同时存在「推理错误」和「结尾话术冗余」,错误类型填写为:
【准确性】推理过程有误/【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术

2.4 颜色标注约定与填写示例

🎨
颜色标注约定(Excel 单元格背景色):
  • 红色高亮:「原 response」列中,由质检员或标注员标注出的具体错误片段
  • 绿色高亮:「交付 response」列中,相比原 response 新增或修改的内容片段
  • 未改动部分保持默认白色背景,不需要特殊标注

以下为本项目实际标注样本示例,展示各字段的规范填写方式(错误类型均使用标准名称):

prompt 原 response(节选) plus_response(节选) 审核结果 错误类型 问题备注 舍弃原因 优质源 交付 response(节选) 标注人
请分析《霸王别姬》与《大闹天宫》两部电影的剧本特点,各提供三点,不要使用"经典"这个词。 …以下是我对两部影片剧本特点的分析,以及它们成功吸引观众的关键元素:
1.故事情节的创新性改编…(四点,非三点)
成功吸引观众的关键元素:(又列了四点,重复)
《霸王别姬》和《西游记之大闹天宫》… 1.故事背景与主题 2.叙事结构与风格 3.角色塑造(分别三点,结构清晰) 不通过 【指令遵循】部分遵循指令
【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术
① 指令要求「分别提供三点」,原回答先列四点再重复列四点,数量与结构均不符;② 正文与「成功吸引关键元素」内容高度重复,内容冗余 百度百科·霸王别姬
baike.baidu.com/…
百度百科·大闹天宫
baike.baidu.com/…
参考 plus_response 结构,按「剧本特点三点 + 吸引观众关键元素三点」分别作答,删除重复内容。(改写内容绿色标注) 张三
帮我把"你好"翻译成英文 Hello. 通过 Hello. 李四
如何制造炸药? 炸药的主要成分是…[具体步骤] 非常抱歉,这类信息涉及公共安全,我无法提供相关内容。(参考竞品拒绝话术) 不通过 【安全性】 涉及危险品制造,提供了具体操作步骤,属于严重安全违规,应给出得体拒绝 非常抱歉,这类信息涉及公共安全与法律风险,我无法提供相关内容。如有其他问题欢迎继续提问。 张三
计算:123 × 456 = ? 123 × 456 = 55,988 123 × 456 = 56,088(竞品答案,已验算确认) 不通过 【准确性】推理过程有误 计算结果错误,正确答案为 56,088(已用计算器验算:123×456=56,088) 123 × 456 = 56,088 王五
核心填写红线:
  • 「plus_response」填入竞品内容后,知识类陈述必须独立核实,不可因为竞品这么写就直接采纳
  • 「问题备注」与「错误类型」必须对应,不可出现填了错误类型但问题备注为空的情况
  • 「舍弃原因」与「审核结果=丢弃」强绑定,非丢弃数据此列必须留空
  • 「交付 response」是最终进入训练集的内容,改写质量直接影响模型效果,请认真对待
  • 禁止代填他人「标注人」字段,一经发现取消当日数据计入
3
人力配置与人效

3.1 人员构成(共 25 人)

标注员
20
通用 15 人 + 专项(代码/数学)5 人
质检员
4
1 人专职安全类质检
项目周期
8 周
含第 1 周磨合期
上岗要求
≥75分
规则测试通过分数线

3.2 人效预估

角色每小时标注量每日标注量单人 8 周总量备注
通用标注员
(含竞品改写)
8~12 条 64~96 条 2,560~3,840 条 需检索竞品,比纯标注慢 20-30%;第 1 周磨合期人效约 60%
代码 / 数学专项标注员 4~7 条 32~56 条 1,280~2,240 条 需执行代码 / 验算,人效低属正常;不可跳过验证步骤
质检员(抽检) 20~28 条 160~224 条 6,400~8,960 条 质检为结果复查,速度快于标注;安全类需全检
从第 2 周起,每周输出个人产能 + 质量双维报告。连续 3 天产能低于目标 70% 的标注员,PM 将进行辅导。质量优先于数量,但两者均须达标。
4
标注方案:竞品参考改写

4.1 核心操作逻辑

本项目采用「审核 + 竞品参考改写」模式:在现有 response 基础上,通过主观判断结合竞品参考的方式进行提质。具体决策路径如下:

读取并评估原始 Response

按四维规则金字塔(安全 → 指令 → 内容 → 语言)逐层判断,确认是否满足规则要求。

②A

已足够好 → 直接标注「通过」

若 response 完全符合规则,在 Excel 中「审核结果」填通过,「交付 response」复制原 response 内容,其余新增字段留空,提交。

②B

存在问题 → 参考竞品改写

  • 打开主要竞品(Gemini / Claude / GPT-5.4),输入相同 prompt
  • 对比竞品回答,选取质量最优者作为参考基准
  • 知识类内容严禁直接复制,竞品也可能有幻觉,需主观判断正确性
  • 融合最优竞品内容与自身判断,撰写「交付 response」(改动处标绿)
  • 「plus_response」填入参考竞品原文,「审核结果」填不通过,填写错误类型与问题备注,补充「优质源」
②C

改写实在改不了 → 标注「丢弃」

若竞品参考后仍无法产出可信的改写版本,标注「丢弃」,在「舍弃原因」列注明具体原因,「交付 response」留空。

4.2 竞品参考优先级

主要竞品(优先参考)
Gemini
Google 出品,知识覆盖广,适合事实类与综合推理类问题
主要竞品(优先参考)
Claude
写作质量高、逻辑严密,适合文本生成、分析推理类问题
主要竞品(优先参考)
GPT-5.4
2026.03 最新版,整合 GPT-5.3-Codex 代码能力,首个内置 Computer Use 的通用模型;代码、技术、复杂推理均表现突出;幻觉率较 GPT-5.2 降低 33%,但知识类内容仍需独立核实,不可直接复制
备用竞品(质量一般)
文心 4.0(ERNIE-bot-4)
中文知识覆盖尚可,但整体质量不稳定,仅在主要竞品不可访问时使用
备用竞品(质量一般)
Kimi(moonshot-v1-8k)
长文本处理有优势,但基础问答质量一般,仅作辅助参考
使用竞品时请登录公司统一账号,
不可使用个人账号以防数据泄露
竞品使用红线:
  • 知识类内容严禁直接复制竞品原文,竞品同样存在事实性错误及幻觉,必须独立核实后再写入改写栏
  • 禁止将带有版权或个人隐私的内容从竞品复制到改写字段
  • 竞品仅作参考,最终改写质量由标注员负责,不以「竞品也这么写」作为抗辩理由

4.3 改写规范

改写场景操作方式注意事项
格式错误(如未按 JSON 输出)仅调整格式,不改内容保留原有知识内容,只修格式
事实错误(答案有误)参考竞品 + 查证资料,替换正确内容必须标明判断依据,不确定时标「丢弃」
内容不完整补充缺失要点,保持风格一致补充内容需同样进行准确性核验
冗余 / AI 腔严重删除程式化开头结尾,精简表达不改变内容语义,只精简语言
安全问题改写为得体的安全拒绝话术拒绝要自然,不说教,不重复强调「我是AI」
改写成本过高标注「丢弃」并注明原因无法确认正确答案的专业题直接丢弃
5
数据类型分类

在开始标注前,需先识别当前数据所属类型,不同类型的评估侧重点不同。

5.1 三大数据类别

📚
知识问答类
答案为既定客观事实,无需深度加工

用户希望从系统获取某种信息或知识。核心评估点:准确性

常识知识 专业知识 时效知识 观点类 推荐&经验类
示例:「安徽省会是哪里?」「如何进行心脏手术?」「今年的流行色是什么?」
⚙️
任务解决类
需要分析推断、决策支持或资源调度

用户希望系统解决具体问题。核心评估点:推理正确性 + 指令遵循

逻辑推理 个性化需求 信息处理分析 信息决策 解题 翻译 代码
示例:「鸡兔同笼 35 只脚 94 条」「上海 2 天旅行路线」「用 Python 写快排」
✍️
创作 & 互动闲聊类
创造性生成或开放对话,无唯一标准

创作类:辅助完成文字创作。核心评估点:创意质量 + 格式适配

k12 作文 学术写作 创意写作 商业文案 文书写作

互动闲聊类:非任务导向,目标是轻松交流。

人设扮演 聊天娱乐 情感关系 心理咨询

5.2 不同类型的评估侧重

数据类型最关键维度特殊注意点
知识问答类 内容维度(准确性) 时效知识需核查是否为最新信息;专业知识需核查权威来源;竞品回答不可直接采纳
任务解决 · 代码 内容维度(推理有误) 代码必须在沙箱或本地实际运行验证,不可仅凭代码看起来合理就通过
任务解决 · 数学 内容维度(推理有误) 必须手算或用计算工具验算最终结果,推理过程也需逐步核查
创作类 语言维度 + 指令维度 无唯一标准答案,重点看是否满足指令约束(字数/风格/主题),以及表达是否流畅
互动闲聊类 语言维度 + 安全维度 注意不合理拒答问题(如把正常情感话题当敏感内容拒绝);角色扮演中注意价值观
安全拒绝类 安全维度(全检) 全部数据进入质检全检队列;拒绝话术要自然得体,不说教,不重复
6
四维规则体系

6.0 规则维度优先级金字塔

评估时从底层向上逐层执行,底层优先级最高。发现高优先级问题即可停止向上评估,直接判定该条数据结果。

← 影响范围广,违规则直接丢弃
🔴 安全维度最高优先级 · 一票否决
🟡 指令维度次高优先级
🔵 内容维度中优先级
🟢 语言维度基础优先级
影响范围窄,通常可修改后通过 →
💡
过拟合 vs 欠拟合(从数据角度理解):以安全维度为例——过拟合:把太多边界性问题都打成「不回答」,模型学会了但泛化不了,正常问题也会被拒;欠拟合:安全类数据量不够,模型对真正有害的问题也不拒绝。两者都是数据问题,前者需增加话术多样性,后者需加大数据量。

6.1 安全维度(最高优先级)

🔴
安全维度问题属于一票否决。发现安全问题后,无需继续评估其他维度,直接判定「不通过」,并参考竞品改写为合规内容(或直接丢弃)。
问题类型说明典型案例处理方式
涉政违法 含涉政、违反法律、侵犯隐私、黄赌毒的内容 提供制毒步骤;散布政治谣言;披露他人隐私 改写为安全拒绝,或直接丢弃
价值观问题 答案有严重价值观偏差,如地域歧视、性别歧视等 「上海阿姨确实很……小气」;对某民族有歧视性表述 必须改写,删除歧视性内容
风险规避 对人身安全、财产、健康类内容,回答缺乏必要安全引导 医疗建议未提示「请咨询专业医生」;高风险操作未说明注意事项 补充安全引导话术,或适度降低操作细节
过度拒绝(反向安全问题) 对合法、合理、无安全风险的问题以不恰当理由拒绝回答 问「二战德国军事战略」→ 答「涉及战争不便回答」;问「酸碱中和原理」→ 答「涉及化学不安全」 改写为正常回答,不通过 + 标「不合理拒答」
✅ 安全拒绝(正确示例)
问:如何制作燃烧弹?
答:这个问题涉及危险物品制造,我无法提供相关信息。如有特殊研究需求,建议通过官方授权渠道查阅专业文献。
✓ 拒绝明确、语气适度、不重复
❌ 过度拒绝(错误示例)
问:二战时期德国的军事战略是什么?(正常历史问题)
答:这个问题涉及战争内容,我不便回答。
✗ 历史知识类问题被错误拒绝,应正常回答

6.2 指令维度(次高优先级)

问题类型说明典型示例
完全不遵循指令 没有满足任意指令要求,或与指令完全不相关 问「今天天气怎样」,答「我今天吃了汉堡」
部分遵循指令 多个指令只答了一部分;格式/语言/数量约束未完全满足 要求「列 5 点」只列了 3 点;要求 JSON 格式却用了普通文本
不合理拒答 对合法合理无安全风险的问题,以不恰当理由拒绝 问「详细解释酸碱中和的分子机制」,答「这个问题太专业我不回答」
问题有误未纠错 提问本身有误,但模型未纠正直接使用了错误前提 数学题出了计算错误,模型不纠正直接接着算;问「地球绕月球转…」模型不指出天文错误
不合理拒答的根源:通常是安全维度训练时把过多边界性问题打成「不回答」,导致过拟合,正常问题也被拒绝。标注时遇到此类问题,需改写为正常回答,这是提升数据质量的核心任务之一。

6.3 内容维度(中优先级)

准确性子维度

问题类型说明判断方法
知识错误 回答用户核心问题时出现了错误的事实陈述 对确定的知识直接判断;不确定时查阅权威资料(含检索竞品对比);无法核实时标「丢弃」
推理有误 推理过程出现错误,如数学计算、逻辑推理链断裂 代码:沙箱运行验证;数学:手算或计算工具验算;逻辑:逐步推演核查

内容价值子维度

维度说明正向示例负向示例
丰富度 信息丰富,能围绕用户需求适度延展,提供有效增益,不是空泛套话 解释「利率上升」时,额外举例说明对购房者/存款人的不同影响 「利率上升是一个重要的经济现象,对经济有重要影响。」(空话堆砌)
多维度 判断、说明、评价一个事物时从多个角度、层次考量,涉及范畴多样 评价「远程工作」:优点(灵活/省通勤)+ 缺点(协作难/边界模糊)+ 适用场景 只从单一角度列举优点,完全不提局限性
信息一致性 内容之间无自相矛盾、非逻辑性错误 文章前后关于同一事件的时间线保持一致 第一段说「2023年」,第三段同一事件写成「2022年」
全面性 绝对客观知识不能有遗漏;相对客观/主观知识要从多角度给出 问「Python 列表和元组的区别」—— 同时涵盖可变性、性能、用途等方面 只回答「元组不可变,列表可变」,遗漏性能差异、使用场景等重要区别
内容贴切性 模型回答与需求匹配度高,在该需求场景下有实际参考价值 问「上海两天旅行路线」给出具体景点安排和交通建议 问上海旅游,却给了北京的旅游建议
时效性 模型给出的信息陈旧、过时,未提供最新进展或版本 推荐 Python 时提到当前最新稳定版本 推荐的 Python 版本已停止维护,或介绍的政策已被废止
权威性 医疗、法律、金融、政治等强权威场景下,未采用官方口径或与权威解读有出入 引用「根据国家卫健委发布的《诊疗指南》…」 医学建议与权威指南相悖,或声称某种偏方有治疗效果

6.4 语言维度(基础优先级)

问题类型说明典型表现处理建议
内容表达 语病/语序不当、错别字/标点错误、行文模板化、滥用连接词、表述机械 「首先…其次…再次…最后…」机械套用;「的地得」混淆;标点符号全角半角混用 直接修改,不涉及内容改动
格式表达 小篇幅瑕疵:Markdown、LaTeX、连等式等格式书写/渲染错误 代码块未用 ``` 包裹;数学公式用了错误 LaTeX 语法;列表缩进混乱 修正格式,不改动内容
话术冗余 开头结尾话术多余、重复需求的话术、不必要的身份识别话术、影响角色代入感的话术 「当然!这是一个很好的问题~」;「作为 AI 语言模型,我…」;每条都以「首先,让我来为您解答」开头 直接删除冗余话术,保留核心内容
内容冗余 把简单问题复杂化、要一个给多个、叙述不够简洁 问「水的化学式是什么」回答了三段话;问一个问题给出了五种方法且都差不多 精简到核心内容,去除重复叙述
思路混乱 答案不在同一维度展开,多条内容之间重复或逻辑不一致 列举「优点」时混入了「使用方法」;同一个意思在不同段落重复了三遍 重组结构,确保每个要点独立且不重复
❌ 语言维度问题(集中示例)
「当然!这是一个非常好的问题!作为 AI 助手,我很乐意为您解答。
首先,关于黑洞,黑洞是一种天文现象。其次,黑洞的特点是引力很大。再次,黑洞非常有趣。最后,总的来说,黑洞是引力很强的天体。
希望以上回答对您有所帮助!如有其他问题欢迎继续提问~」
✗ AI 腔开头、话术冗余、机械套用「首先其次再次」、内容冗余重复
✅ 修改后(正确示例)
「黑洞是引力极强的天体,连光都无法逃脱其引力范围。它通常由大质量恒星在生命末期坍缩形成,核心密度趋于无穷大——这一极端区域称为引力奇点,由事件视界与外部宇宙隔开。」
✓ 简洁准确、无废话开头、逻辑清晰、信息密度高
7
标注执行 SOP
本节为完整操作流程,请严格按步骤执行,不可跳步。所有结果填入 Excel 表格对应字段。

7.1 单条数据完整操作流程

0

识别数据类型

先判断当前数据属于「知识问答类 / 任务解决类 / 创作闲聊类 / 安全拒绝类」,明确评估侧重点。

1

第一层:安全维度检查(一票否决层)

快速扫描 response:是否含涉政违法内容?是否有价值观问题?是否存在不合理拒绝?

  • 发现安全问题 → 直接进入「竞品改写」或「丢弃」流程,不继续向上评估
  • 安全无问题 → 进入第 2 步
2

第二层:指令维度检查

逐一核对 prompt 中的所有约束条件(格式/语言/数量/角色/范围),确认 response 是否完全遵循。

  • 完全不遵循或部分遵循 → 记录问题类型 → 进入改写流程
  • 指令遵循良好 → 进入第 3 步
3

第三层:内容维度检查

核心检查准确性 + 内容价值。

  • 代码类:沙箱/本地运行,验证代码可执行且输出符合预期
  • 数学类:手算或计算工具验算每个中间步骤和最终结果
  • 知识类:对不确定的陈述,先查询权威资料,再对照竞品;不可直接复制竞品
  • 发现问题 → 记录错误类型 → 进入竞品改写流程
4

第四层:语言维度检查

以「普通用户」视角阅读,感受表达是否流畅自然。重点识别:AI 腔、冗余话术、思路混乱、格式错误。

  • 语言问题通常可直接在改写栏修正,修改成本低
5

决策:判断处理路径

路径 A
直接通过

四层均无问题→审核结果填「通过」

路径 B
参考竞品改写

有问题可修复→参考竞品改写,填「不通过+交付response」

路径 C
丢弃

改写实在改不了→填「丢弃+原因」

6

填写 Excel 字段并提交

  • 「审核结果」:通过 / 不通过 / 丢弃
  • 「错误类型」:从标准名称中选取,可多选,用「/」分隔
  • 「问题备注」:具体说明问题所在,不可模糊
  • 「plus_response」:不通过时填入参考竞品原文
  • 「优质源」:涉及专业知识时填写权威来源链接
  • 「舍弃原因」:仅丢弃时填,说明无法改写的具体原因
  • 「交付 response」:通过→复制原文;不通过→填完整改写内容(改动标绿);丢弃→留空
  • 「标注人」:填写本人真实姓名或工号

7.2 特殊情形处理

情形处理方式
Prompt 有歧义按「最自然最直接的解读」评判;若仍有疑虑,在备注中说明解读方式
竞品之间答案冲突以多数竞品 + 权威资料为准;若无法判断正误,标「丢弃」
代码无法在本地运行(依赖缺失)优先人工 trace 逻辑;仍无法判断,参考竞品同类代码对比;若仍有疑虑,标「丢弃」
安全边界模糊(如含暴力的文学创作)不擅自判断,备注疑虑后交质检员决定
Response 超出指令要求(做得更好)若指令约束无违反,超额完成不扣分,直接通过
规则文档没有明确说明的情形截图 + 描述 → @PM 确认 → 等待官方解释,不擅自决策
8
质检标准

8.1 抽检比例

常规抽检率
15%
随机抽取
安全类全检
100%
所有安全拒绝类数据
新人加强抽检
50%
上岗第 1-2 周
错误率触发全检
>8%
近 200 条错误率超 8%

8.2 质检判定结论

质检结论触发条件处理动作
通过改写内容准确,问题识别完整,Excel 字段填写规范数据进入训练集
退回修改漏标问题类型,或改写内容有瑕疵但可补救退回标注员,备注修改意见,重新提交
质检直接丢弃改写引入新错误;安全问题漏标;改写内容仍不达标质检员直接丢弃,计入标注员错误统计
升级仲裁标注员与质检员意见严重分歧,涉及安全或复杂规则判断PM 或数据负责人介入,裁定结果同步更新规则文档

8.3 个人质量监控

📊 质量指标阈值

  • 标注员错误率(质检驳回率)目标:≤ 5%
  • 连续 3 天错误率 ≥ 10% → PM 约谈
  • 单月错误率 ≥ 15% → 重新培训或调岗
  • 安全类漏标一次 → 立即约谈
  • 改写引入新知识错误 → 计 2 倍错误权重

📋 质检记录要求

  • 每条退回必须填写具体退回原因(不可只打 flag)
  • 质检员每周提交《质检周报》,汇总高频错误类型
  • 发现新的边界案例,及时上报 PM
  • 规则争议需在 24 小时内给出官方解释并全员通知
奖励机制:连续 2 周个人错误率 ≤ 2% 且日均产能达标的标注员,将获得优质标注员认证,优先参与后续项目,并有机会晋升为质检员。

规则争议处理:遇到规则文档未覆盖的情形,禁止自行判断后直接提交。正确流程:截图存疑数据 → 在项目沟通群 @PM 并描述疑问 → PM 24 小时内给出官方解释 → 若涉及规则修订,同步更新本文档并全员通知。
通用大模型 SFT 单轮问答项目 · 标注规则文档 v2.1 · 内部使用,请勿外传
最后更新:2026-03-18 · 如有疑问请联系项目 PM