通用大模型 SFT 阶段 · 单轮问答项目标注规则文档
本文档适用于所有参与本项目的标注员与质检员,请在上岗前完整阅读并通过规则测试。
1.1 项目背景
本项目为某国产通用大语言模型的有监督微调(SFT)冷启动阶段数据建设项目。模型已完成预训练,具备基础语言理解与生成能力,但尚不能准确遵循用户指令、输出符合期望的格式与内容风格。
SFT 的核心任务是通过高质量的 (Prompt → Response) 数据对告诉模型「什么叫一个好回答」。与纯人工撰写不同,本项目采用审核 + 竞品参考改写的混合标注方式,在保证质量的同时降低人工成本。
1.2 项目目标
模型侧目标
- 使模型能够准确理解并遵循用户指令(格式、语言、长度等约束)
- 提升通用知识问答准确率与内容质量
- 提升代码、数学推理的正确率
- 对有害请求给出得体、自然的安全拒绝
数据侧目标
- 产出 ≥ 80,000 条通过质检的高质量训练样本
- 标注一致性(Kappa 值)达到 ≥ 0.75
- 有害/严重错误数据漏检率控制在 ≤ 0.5%
- 各数据类型分布符合预设比例(误差 ≤ 5%)
1.3 数据类型分布规划
| 数据大类 | 占比 | 目标条数 | 典型子类 | 难度 |
|---|---|---|---|---|
| 知识问答类 | 35% | 28,000 | 常识/专业/时效/观点/推荐 | 低-中 |
| 任务解决类 | 45% | 36,000 | 逻辑推理/代码/数学/翻译/信息处理 | 中-高 |
| 创作 & 闲聊类 | 15% | 12,000 | 各类写作/角色扮演/情感/娱乐 | 中 |
| 安全拒绝类 | 5% | 4,000 | 违法/有害/高风险请求 | 高 |
2.1 数据来源与规模
2.2 数据格式(Excel 表格)
所有数据以 Excel 表格形式下发,每行一条样本,共 10 列。标注员负责填写第 3~9 列,第 1~2 列为只读字段。
| # | 列名 | 填写方 | 说明 | 填写规范 |
|---|---|---|---|---|
| 1 | prompt 原问题 |
只读 | 系统下发的原始用户指令,不可修改 | — |
| 2 | 原 response 错误标红 |
只读 | 系统下发的原始模型回答。质检员会在此列将错误内容标红,标注员需据此判断问题所在 | — |
| 3 | plus_response 竞品参考 |
标注员填 | 查询竞品(Gemini / Claude / GPT-5.4)后,将质量最优的竞品回答复制至此列,作为改写的参考依据。知识类内容核实后再填,不可盲目复制 | 直接粘贴竞品原文;若多个竞品均参考,注明来源(如「Claude」);若直接通过则留空 |
| 4 | 审核结果 | 标注员填 | 对原 response 的整体判断结论 | 仅填三种值:通过 不通过 丢弃 |
| 5 | 错误类型 可多选 |
标注员填 | 原 response 存在的问题类型,从下方标准分类中选取,可多选 | 从标准错误类型表中选取完整名称(含大类前缀),多个类型用「/」分隔;不可自造分类;审核结果为「通过」时留空 |
| 6 | 问题备注 | 标注员填 | 对错误类型的具体说明,描述问题的具体表现,便于质检员复核与规则迭代 | 需说明"哪里有问题、为什么是问题",不可仅填「质量差」「不好」等模糊描述;审核结果为「通过」时留空 |
| 7 | 舍弃原因 | 标注员填 | 审核结果为「丢弃」时,说明为何该条数据无法通过竞品改写修复 | 仅审核结果为「丢弃」时填写;其余情况留空。需说明具体原因,如「专业度过高无法核实正确答案」「原问题歧义严重」等 |
| 8 | 优质源 | 标注员填 | 改写时参考的权威资料链接或来源说明,用于支撑改写内容的可信度,便于质检员核查 | 填写网址或来源名称(如百度百科链接、官方文档地址);若无需外部来源则留空;涉及专业知识时强烈建议填写 |
| 9 | 交付 response 改写标绿 |
标注员填 | 最终交付给模型训练的高质量回答。改写内容用绿色标注,便于质检员快速识别改动范围 | 审核结果为「通过」时,直接复制原 response 填入;「不通过」时填改写后的完整内容;「丢弃」时留空 |
| 10 | 标注人 | 标注员填 | 填写本条数据的标注员姓名或工号,用于质检追溯与质量统计 | 填写真实姓名或系统分配工号,不可代填他人 |
2.3 错误类型标准速查表
「错误类型」字段必须从以下标准列表中选取完整名称(含大类前缀),不可缩写或自造。多个错误类型用「/」分隔填入同一单元格。
| 大类 | 完整错误类型名称(填写时直接复制) | 含义说明 | 对应规则维度 |
|---|---|---|---|
| 指令遵循 | 【指令遵循】部分遵循指令 |
多个指令只满足了部分;格式/语言/数量等约束未完全执行 | 指令维度 |
【指令遵循】完全不遵循指令 |
回答与指令完全无关,或忽略了所有约束条件 | 指令维度 | |
| 准确性 | 【准确性】事实性回答错误 |
回答中出现可被验证的错误事实(如时间、地点、人物、数字等) | 内容维度 |
【准确性】提问有误回答未纠错直接使用 |
用户 prompt 本身有误(如前提错误、概念混淆),模型未纠正直接采用错误前提作答 | 内容维度 | |
【准确性】推理过程有误 |
数学计算错误、逻辑链条断裂、代码逻辑有误等推理过程层面的问题 | 内容维度 | |
| 丰富性 | 【丰富性】多维度 |
回答视角单一,未从多角度、多层面考量,评价或分析过于片面 | 内容维度 |
【丰富性】有效信息拓展 |
回答仅停留在字面,缺少对用户有实际价值的延伸信息;或拓展内容与需求无关(无效堆砌) | 内容维度 | |
【丰富性】回答内容全面 |
对于客观知识存在明显遗漏;主观问题未从正反面或多案例作答 | 内容维度 | |
| 结构性 | 【结构性】分点未总分/总分总/其他格式问题 |
分点式回答缺乏总起句或总结句;段落结构混乱;应分点未分点或不该分点却硬分点 | 语言维度 |
| 信息表达性 | 【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术 |
语病、语序不当、错别字;内容残缺;无意义的 AI 腔开头/结尾(如「当然!这是个好问题」「希望以上对您有帮助」);内容重复冗余 | 语言维度 |
| 信息结构性 | 【信息结构性】逻辑表达 |
多条内容不在同一维度展开、逻辑不一致、论据与论点脱节 | 语言维度 |
【信息结构性】内容分点/段描述/格式内容符合 |
分点或分段方式不合理;代码块、表格、列表等 Markdown 格式使用错误或不符合场景 | 语言维度 | |
【信息结构性】格式内容符合 |
Markdown/LaTeX/连等式等格式书写或渲染错误(与上一条侧重点不同:此条聚焦格式符号本身的正确性) | 语言维度 | |
| 安全性 | 【安全性】 |
涉政违法、价值观偏差、提供危险操作指南、侵犯隐私、或对合法请求进行不合理拒绝(过度拒绝) | 安全维度 |
| 帮助性 | 【帮助性】 |
回答对用户实际需求的帮助程度不足:答非所问、有效信息密度极低、内容贴切性差 | 内容维度 |
| 其他 | 【其他】字数限制 |
prompt 明确要求了字数/长度限制,但回答未遵守(过长或过短) | 指令维度 |
【其他】内容是否本土化 |
回答未结合中国本土语境、习惯或案例,套用了不适合中文用户的表达或案例(如货币单位、法律法规、文化背景等) | 内容维度 | |
【其他】 |
不属于上述任何分类的其他问题,需在「问题备注」中详细说明,由 PM 评估是否新增分类 | — |
【准确性】推理过程有误/【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术
2.4 颜色标注约定与填写示例
- 红色高亮:「原 response」列中,由质检员或标注员标注出的具体错误片段
- 绿色高亮:「交付 response」列中,相比原 response 新增或修改的内容片段
- 未改动部分保持默认白色背景,不需要特殊标注
以下为本项目实际标注样本示例,展示各字段的规范填写方式(错误类型均使用标准名称):
| prompt | 原 response(节选) | plus_response(节选) | 审核结果 | 错误类型 | 问题备注 | 舍弃原因 | 优质源 | 交付 response(节选) | 标注人 |
|---|---|---|---|---|---|---|---|---|---|
| 请分析《霸王别姬》与《大闹天宫》两部电影的剧本特点,各提供三点,不要使用"经典"这个词。 | …以下是我对两部影片剧本特点的分析,以及它们成功吸引观众的关键元素: 1.故事情节的创新性改编…(四点,非三点) 成功吸引观众的关键元素:(又列了四点,重复) |
《霸王别姬》和《西游记之大闹天宫》… 1.故事背景与主题 2.叙事结构与风格 3.角色塑造(分别三点,结构清晰) | 不通过 | 【指令遵循】部分遵循指令【信息表达性】内容是否完整/语句是否通顺/内容是否冗余/开头/结尾话术 |
① 指令要求「分别提供三点」,原回答先列四点再重复列四点,数量与结构均不符;② 正文与「成功吸引关键元素」内容高度重复,内容冗余 | — | 百度百科·霸王别姬 baike.baidu.com/… 百度百科·大闹天宫 baike.baidu.com/… |
参考 plus_response 结构,按「剧本特点三点 + 吸引观众关键元素三点」分别作答,删除重复内容。(改写内容绿色标注) | 张三 |
| 帮我把"你好"翻译成英文 | Hello. | — | 通过 | — | — | — | — | Hello. | 李四 |
| 如何制造炸药? | 炸药的主要成分是…[具体步骤] | 非常抱歉,这类信息涉及公共安全,我无法提供相关内容。(参考竞品拒绝话术) | 不通过 | 【安全性】 |
涉及危险品制造,提供了具体操作步骤,属于严重安全违规,应给出得体拒绝 | — | — | 非常抱歉,这类信息涉及公共安全与法律风险,我无法提供相关内容。如有其他问题欢迎继续提问。 | 张三 |
| 计算:123 × 456 = ? | 123 × 456 = 55,988 | 123 × 456 = 56,088(竞品答案,已验算确认) | 不通过 | 【准确性】推理过程有误 |
计算结果错误,正确答案为 56,088(已用计算器验算:123×456=56,088) | — | — | 123 × 456 = 56,088 | 王五 |
- 「plus_response」填入竞品内容后,知识类陈述必须独立核实,不可因为竞品这么写就直接采纳
- 「问题备注」与「错误类型」必须对应,不可出现填了错误类型但问题备注为空的情况
- 「舍弃原因」与「审核结果=丢弃」强绑定,非丢弃数据此列必须留空
- 「交付 response」是最终进入训练集的内容,改写质量直接影响模型效果,请认真对待
- 禁止代填他人「标注人」字段,一经发现取消当日数据计入
3.1 人员构成(共 25 人)
3.2 人效预估
| 角色 | 每小时标注量 | 每日标注量 | 单人 8 周总量 | 备注 |
|---|---|---|---|---|
| 通用标注员 (含竞品改写) |
8~12 条 | 64~96 条 | 2,560~3,840 条 | 需检索竞品,比纯标注慢 20-30%;第 1 周磨合期人效约 60% |
| 代码 / 数学专项标注员 | 4~7 条 | 32~56 条 | 1,280~2,240 条 | 需执行代码 / 验算,人效低属正常;不可跳过验证步骤 |
| 质检员(抽检) | 20~28 条 | 160~224 条 | 6,400~8,960 条 | 质检为结果复查,速度快于标注;安全类需全检 |
4.1 核心操作逻辑
本项目采用「审核 + 竞品参考改写」模式:在现有 response 基础上,通过主观判断结合竞品参考的方式进行提质。具体决策路径如下:
读取并评估原始 Response
按四维规则金字塔(安全 → 指令 → 内容 → 语言)逐层判断,确认是否满足规则要求。
已足够好 → 直接标注「通过」
若 response 完全符合规则,在 Excel 中「审核结果」填通过,「交付 response」复制原 response 内容,其余新增字段留空,提交。
存在问题 → 参考竞品改写
- 打开主要竞品(Gemini / Claude / GPT-5.4),输入相同 prompt
- 对比竞品回答,选取质量最优者作为参考基准
- 知识类内容严禁直接复制,竞品也可能有幻觉,需主观判断正确性
- 融合最优竞品内容与自身判断,撰写「交付 response」(改动处标绿)
- 「plus_response」填入参考竞品原文,「审核结果」填不通过,填写错误类型与问题备注,补充「优质源」
改写实在改不了 → 标注「丢弃」
若竞品参考后仍无法产出可信的改写版本,标注「丢弃」,在「舍弃原因」列注明具体原因,「交付 response」留空。
4.2 竞品参考优先级
不可使用个人账号以防数据泄露
- 知识类内容严禁直接复制竞品原文,竞品同样存在事实性错误及幻觉,必须独立核实后再写入改写栏
- 禁止将带有版权或个人隐私的内容从竞品复制到改写字段
- 竞品仅作参考,最终改写质量由标注员负责,不以「竞品也这么写」作为抗辩理由
4.3 改写规范
| 改写场景 | 操作方式 | 注意事项 |
|---|---|---|
| 格式错误(如未按 JSON 输出) | 仅调整格式,不改内容 | 保留原有知识内容,只修格式 |
| 事实错误(答案有误) | 参考竞品 + 查证资料,替换正确内容 | 必须标明判断依据,不确定时标「丢弃」 |
| 内容不完整 | 补充缺失要点,保持风格一致 | 补充内容需同样进行准确性核验 |
| 冗余 / AI 腔严重 | 删除程式化开头结尾,精简表达 | 不改变内容语义,只精简语言 |
| 安全问题 | 改写为得体的安全拒绝话术 | 拒绝要自然,不说教,不重复强调「我是AI」 |
| 改写成本过高 | 标注「丢弃」并注明原因 | 无法确认正确答案的专业题直接丢弃 |
在开始标注前,需先识别当前数据所属类型,不同类型的评估侧重点不同。
5.1 三大数据类别
用户希望从系统获取某种信息或知识。核心评估点:准确性。
用户希望系统解决具体问题。核心评估点:推理正确性 + 指令遵循。
创作类:辅助完成文字创作。核心评估点:创意质量 + 格式适配。
互动闲聊类:非任务导向,目标是轻松交流。
5.2 不同类型的评估侧重
| 数据类型 | 最关键维度 | 特殊注意点 |
|---|---|---|
| 知识问答类 | 内容维度(准确性) | 时效知识需核查是否为最新信息;专业知识需核查权威来源;竞品回答不可直接采纳 |
| 任务解决 · 代码 | 内容维度(推理有误) | 代码必须在沙箱或本地实际运行验证,不可仅凭代码看起来合理就通过 |
| 任务解决 · 数学 | 内容维度(推理有误) | 必须手算或用计算工具验算最终结果,推理过程也需逐步核查 |
| 创作类 | 语言维度 + 指令维度 | 无唯一标准答案,重点看是否满足指令约束(字数/风格/主题),以及表达是否流畅 |
| 互动闲聊类 | 语言维度 + 安全维度 | 注意不合理拒答问题(如把正常情感话题当敏感内容拒绝);角色扮演中注意价值观 |
| 安全拒绝类 | 安全维度(全检) | 全部数据进入质检全检队列;拒绝话术要自然得体,不说教,不重复 |
6.0 规则维度优先级金字塔
评估时从底层向上逐层执行,底层优先级最高。发现高优先级问题即可停止向上评估,直接判定该条数据结果。
6.1 安全维度(最高优先级)
| 问题类型 | 说明 | 典型案例 | 处理方式 |
|---|---|---|---|
| 涉政违法 | 含涉政、违反法律、侵犯隐私、黄赌毒的内容 | 提供制毒步骤;散布政治谣言;披露他人隐私 | 改写为安全拒绝,或直接丢弃 |
| 价值观问题 | 答案有严重价值观偏差,如地域歧视、性别歧视等 | 「上海阿姨确实很……小气」;对某民族有歧视性表述 | 必须改写,删除歧视性内容 |
| 风险规避 | 对人身安全、财产、健康类内容,回答缺乏必要安全引导 | 医疗建议未提示「请咨询专业医生」;高风险操作未说明注意事项 | 补充安全引导话术,或适度降低操作细节 |
| 过度拒绝(反向安全问题) | 对合法、合理、无安全风险的问题以不恰当理由拒绝回答 | 问「二战德国军事战略」→ 答「涉及战争不便回答」;问「酸碱中和原理」→ 答「涉及化学不安全」 | 改写为正常回答,不通过 + 标「不合理拒答」 |
答:这个问题涉及危险物品制造,我无法提供相关信息。如有特殊研究需求,建议通过官方授权渠道查阅专业文献。
✓ 拒绝明确、语气适度、不重复
答:这个问题涉及战争内容,我不便回答。
✗ 历史知识类问题被错误拒绝,应正常回答
6.2 指令维度(次高优先级)
| 问题类型 | 说明 | 典型示例 |
|---|---|---|
| 完全不遵循指令 | 没有满足任意指令要求,或与指令完全不相关 | 问「今天天气怎样」,答「我今天吃了汉堡」 |
| 部分遵循指令 | 多个指令只答了一部分;格式/语言/数量约束未完全满足 | 要求「列 5 点」只列了 3 点;要求 JSON 格式却用了普通文本 |
| 不合理拒答 | 对合法合理无安全风险的问题,以不恰当理由拒绝 | 问「详细解释酸碱中和的分子机制」,答「这个问题太专业我不回答」 |
| 问题有误未纠错 | 提问本身有误,但模型未纠正直接使用了错误前提 | 数学题出了计算错误,模型不纠正直接接着算;问「地球绕月球转…」模型不指出天文错误 |
6.3 内容维度(中优先级)
准确性子维度
| 问题类型 | 说明 | 判断方法 |
|---|---|---|
| 知识错误 | 回答用户核心问题时出现了错误的事实陈述 | 对确定的知识直接判断;不确定时查阅权威资料(含检索竞品对比);无法核实时标「丢弃」 |
| 推理有误 | 推理过程出现错误,如数学计算、逻辑推理链断裂 | 代码:沙箱运行验证;数学:手算或计算工具验算;逻辑:逐步推演核查 |
内容价值子维度
| 维度 | 说明 | 正向示例 | 负向示例 |
|---|---|---|---|
| 丰富度 | 信息丰富,能围绕用户需求适度延展,提供有效增益,不是空泛套话 | 解释「利率上升」时,额外举例说明对购房者/存款人的不同影响 | 「利率上升是一个重要的经济现象,对经济有重要影响。」(空话堆砌) |
| 多维度 | 判断、说明、评价一个事物时从多个角度、层次考量,涉及范畴多样 | 评价「远程工作」:优点(灵活/省通勤)+ 缺点(协作难/边界模糊)+ 适用场景 | 只从单一角度列举优点,完全不提局限性 |
| 信息一致性 | 内容之间无自相矛盾、非逻辑性错误 | 文章前后关于同一事件的时间线保持一致 | 第一段说「2023年」,第三段同一事件写成「2022年」 |
| 全面性 | 绝对客观知识不能有遗漏;相对客观/主观知识要从多角度给出 | 问「Python 列表和元组的区别」—— 同时涵盖可变性、性能、用途等方面 | 只回答「元组不可变,列表可变」,遗漏性能差异、使用场景等重要区别 |
| 内容贴切性 | 模型回答与需求匹配度高,在该需求场景下有实际参考价值 | 问「上海两天旅行路线」给出具体景点安排和交通建议 | 问上海旅游,却给了北京的旅游建议 |
| 时效性 | 模型给出的信息陈旧、过时,未提供最新进展或版本 | 推荐 Python 时提到当前最新稳定版本 | 推荐的 Python 版本已停止维护,或介绍的政策已被废止 |
| 权威性 | 医疗、法律、金融、政治等强权威场景下,未采用官方口径或与权威解读有出入 | 引用「根据国家卫健委发布的《诊疗指南》…」 | 医学建议与权威指南相悖,或声称某种偏方有治疗效果 |
6.4 语言维度(基础优先级)
| 问题类型 | 说明 | 典型表现 | 处理建议 |
|---|---|---|---|
| 内容表达 | 语病/语序不当、错别字/标点错误、行文模板化、滥用连接词、表述机械 | 「首先…其次…再次…最后…」机械套用;「的地得」混淆;标点符号全角半角混用 | 直接修改,不涉及内容改动 |
| 格式表达 | 小篇幅瑕疵:Markdown、LaTeX、连等式等格式书写/渲染错误 | 代码块未用 ``` 包裹;数学公式用了错误 LaTeX 语法;列表缩进混乱 | 修正格式,不改动内容 |
| 话术冗余 | 开头结尾话术多余、重复需求的话术、不必要的身份识别话术、影响角色代入感的话术 | 「当然!这是一个很好的问题~」;「作为 AI 语言模型,我…」;每条都以「首先,让我来为您解答」开头 | 直接删除冗余话术,保留核心内容 |
| 内容冗余 | 把简单问题复杂化、要一个给多个、叙述不够简洁 | 问「水的化学式是什么」回答了三段话;问一个问题给出了五种方法且都差不多 | 精简到核心内容,去除重复叙述 |
| 思路混乱 | 答案不在同一维度展开,多条内容之间重复或逻辑不一致 | 列举「优点」时混入了「使用方法」;同一个意思在不同段落重复了三遍 | 重组结构,确保每个要点独立且不重复 |
首先,关于黑洞,黑洞是一种天文现象。其次,黑洞的特点是引力很大。再次,黑洞非常有趣。最后,总的来说,黑洞是引力很强的天体。
希望以上回答对您有所帮助!如有其他问题欢迎继续提问~」
✗ AI 腔开头、话术冗余、机械套用「首先其次再次」、内容冗余重复
✓ 简洁准确、无废话开头、逻辑清晰、信息密度高
7.1 单条数据完整操作流程
识别数据类型
先判断当前数据属于「知识问答类 / 任务解决类 / 创作闲聊类 / 安全拒绝类」,明确评估侧重点。
第一层:安全维度检查(一票否决层)
快速扫描 response:是否含涉政违法内容?是否有价值观问题?是否存在不合理拒绝?
- 发现安全问题 → 直接进入「竞品改写」或「丢弃」流程,不继续向上评估
- 安全无问题 → 进入第 2 步
第二层:指令维度检查
逐一核对 prompt 中的所有约束条件(格式/语言/数量/角色/范围),确认 response 是否完全遵循。
- 完全不遵循或部分遵循 → 记录问题类型 → 进入改写流程
- 指令遵循良好 → 进入第 3 步
第三层:内容维度检查
核心检查准确性 + 内容价值。
- 代码类:沙箱/本地运行,验证代码可执行且输出符合预期
- 数学类:手算或计算工具验算每个中间步骤和最终结果
- 知识类:对不确定的陈述,先查询权威资料,再对照竞品;不可直接复制竞品
- 发现问题 → 记录错误类型 → 进入竞品改写流程
第四层:语言维度检查
以「普通用户」视角阅读,感受表达是否流畅自然。重点识别:AI 腔、冗余话术、思路混乱、格式错误。
- 语言问题通常可直接在改写栏修正,修改成本低
决策:判断处理路径
四层均无问题→审核结果填「通过」
有问题可修复→参考竞品改写,填「不通过+交付response」
改写实在改不了→填「丢弃+原因」
填写 Excel 字段并提交
- 「审核结果」:通过 / 不通过 / 丢弃
- 「错误类型」:从标准名称中选取,可多选,用「/」分隔
- 「问题备注」:具体说明问题所在,不可模糊
- 「plus_response」:不通过时填入参考竞品原文
- 「优质源」:涉及专业知识时填写权威来源链接
- 「舍弃原因」:仅丢弃时填,说明无法改写的具体原因
- 「交付 response」:通过→复制原文;不通过→填完整改写内容(改动标绿);丢弃→留空
- 「标注人」:填写本人真实姓名或工号
7.2 特殊情形处理
| 情形 | 处理方式 |
|---|---|
| Prompt 有歧义 | 按「最自然最直接的解读」评判;若仍有疑虑,在备注中说明解读方式 |
| 竞品之间答案冲突 | 以多数竞品 + 权威资料为准;若无法判断正误,标「丢弃」 |
| 代码无法在本地运行(依赖缺失) | 优先人工 trace 逻辑;仍无法判断,参考竞品同类代码对比;若仍有疑虑,标「丢弃」 |
| 安全边界模糊(如含暴力的文学创作) | 不擅自判断,备注疑虑后交质检员决定 |
| Response 超出指令要求(做得更好) | 若指令约束无违反,超额完成不扣分,直接通过 |
| 规则文档没有明确说明的情形 | 截图 + 描述 → @PM 确认 → 等待官方解释,不擅自决策 |
8.1 抽检比例
8.2 质检判定结论
| 质检结论 | 触发条件 | 处理动作 |
|---|---|---|
| 通过 | 改写内容准确,问题识别完整,Excel 字段填写规范 | 数据进入训练集 |
| 退回修改 | 漏标问题类型,或改写内容有瑕疵但可补救 | 退回标注员,备注修改意见,重新提交 |
| 质检直接丢弃 | 改写引入新错误;安全问题漏标;改写内容仍不达标 | 质检员直接丢弃,计入标注员错误统计 |
| 升级仲裁 | 标注员与质检员意见严重分歧,涉及安全或复杂规则判断 | PM 或数据负责人介入,裁定结果同步更新规则文档 |
8.3 个人质量监控
📊 质量指标阈值
- 标注员错误率(质检驳回率)目标:≤ 5%
- 连续 3 天错误率 ≥ 10% → PM 约谈
- 单月错误率 ≥ 15% → 重新培训或调岗
- 安全类漏标一次 → 立即约谈
- 改写引入新知识错误 → 计 2 倍错误权重
📋 质检记录要求
- 每条退回必须填写具体退回原因(不可只打 flag)
- 质检员每周提交《质检周报》,汇总高频错误类型
- 发现新的边界案例,及时上报 PM
- 规则争议需在 24 小时内给出官方解释并全员通知
最后更新:2026-03-18 · 如有疑问请联系项目 PM