语料标注工作手册

来自汉语教学技术研究与应用
跳转到导航 跳转到搜索


前言

以《全球库标注规范》为基础,按照实际工作的顺序编排规范说明,补充需要的内容,并结合实际情况调整标注操作细节。

补充的内容包括:

  1. 规范中涉及的语言知识,以Wiki词条方式链接。
  2. 明确全部标注符号及代码的中英文、全半角。
  3. 补充对标注代码的说明,标出缩写对应的文字。
  4. 修改示例中不一致的标注代码。
  5. 替换不易理解或可有不同理解的例句。
  6. 偏误示例补充正确表达,以便于理解。


标注操作细节调整:

既标且改,在标注偏误时,也在代码中注明正确形式,即保留中间数据,以便在于校对、讨论时更好地理解标注者的思路。

向北语提交的语料,将通过程序自动处理多出来的这些内容,以保持一致。

本单位语料保留这些中间数据,用于查询和进一步的研究。

生语料

1.语料构成

原始语料(图片、音频、视频语料)+录入或转写版语料+作者背景信息+语料背景信息,共4项。

2.校对

1)原则与标准

根据原始语料(图片、音频、视频)对录入或转写版语料进行校对。 校对原则:忠实原作,保持语料原貌。 校对标准:确保录入与转写语料和原始语料的一致性。例如原始语料中的别字、繁体字、异体字、拼音字、错序词、各类偏误句、行款格式等方面的偏误现象均需原样录入,不得做任何改变。

2)错字标注

(1)错字指书写错误、汉字中没有的字(电脑中没有,打不出来)。 例如: 应【该】[Zc],表示“该”在语料原文中是错字。

(2)错字判定标准 笔画:数目错误、形状错误、组合关系错误(相离、相交、相接); 部件:部件组合错误(多、少、换),部件位置错误。 流畅性:辅助标准,如果学生的汉字书写流畅,体现出较高的书写水平,则一些不太标准、甚至不完整的笔画,如斜钩、竖钩之类,不必视为偏误。

3)字存疑标注

对语料中无法识别且无法做出准确判断的字,以字存疑标记[Z?]代之。

字标注

(10项)

词标注

短语标注

句标注

语篇标注

语体标注

辞格标注

标点符号标注

口语和视频语料的语音标注

附录:正确标注的基本条件