t7
序列标注
序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。token级别的分类任务通常指的是为为文本中的每一个token预测一个标签结果。下图展示的是一个NER实体名词识别任务。

最常见的token级别分类任务:
NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名, organization组织机构名, location地点名...).
POS (Part-of-speech tagging词性标注) 根据语法对token进行词性标注 (noun名词, verb动词, adjective形容词...)
Chunk (Chunking短语组块) 将同一个短语的tokens组块放在一起。
只要预训练的transformer模型最顶层有一个token分类的神经网络层,可能也需要有fast tokenizer这个功能,参考这个表,本notebook理论上可以使用各种各样的transformer模型
,(模型面板),解决任何token级别的分类任务。
加载数据
和上节一样,导入数据和评测方式
from datasets import load_dataset, load_metric
本notebook中的例子使用的是CONLL 2003 dataset数据集。。如果您使用的是您自定义的json/csv文件数据集,需要查看数据集文档来学习如何加载。自定义数据集可能需要在加载属性名字上做一些调整。
所有的数据标签labels都已经被编码成了整数,可以直接被预训练transformer模型使用。这些整数的编码所对应的实际类别储存在features中。
以NER为例,0对应的标签类别是”O“, 1对应的是”B-PER“等等。”O“的意思是没有特别实体(no special entity)。本例包含4种实体类别分别是(PER、ORG、LOC,MISC),每一种实体类别又分别有B-(实体开始的token)前缀和I-(实体中间的token)前缀。
'PER' for person
'ORG' for organization
'LOC' for location
'MISC' for miscellaneous
预处理数据
预处理的工具叫
Tokenizer。Tokenizer首先对输入进行tokenize,然后将tokens转化为预模型中需要对应的token ID,
再转化为模型需要的输入格式。
构建模型对应的tokenizer
为了达到数据预处理的目的,我们使用
AutoTokenizer.from_pretrained方法实例化我们的tokenizer,这样可以确保:我们得到一个与预训练模型一一对应的tokenizer。
使用指定的模型checkpoint对应的tokenizer的时候,我们也下载了模型需要的词表库vocabulary,准确来说是tokens vocabulary。
这个被下载的tokens vocabulary会被缓存起来,从而再次使用的时候不会重新下载。
注意:以下代码要求tokenizer必须是transformers.PreTrainedTokenizerFast类型,因为我们在预处理的时候需要用到fast tokenizer的一些特殊特性(比如多线程快速tokenizer)。
几乎所有模型对应的tokenizer都有对应的fast tokenizer。我们可以在模型tokenizer对应表里查看所有预训练模型对应的tokenizer所拥有的特点。
在这里big table of models查看模型是否有fast tokenizer。
tokenizer既可以对单个文本进行预处理,也可以对一对文本进行预处理,tokenizer预处理后得到的数据满足预训练模型输入格式
对齐问题
注意transformer预训练模型在预训练的时候通常使用的是subword,如果我们的文本输入已经被切分成了word,那么这些word还会被我们的tokenizer继续切分。举个例子:
单词"Zwingmann" 和 "sheepmeat"继续被切分成了3个subtokens。
由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: [CLS] 和 [SEP]。
tokenizer有一个word_ids方法可以帮助我们解决这个问题。
我们可以看到,word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word,然后第2、3个位置对应第1个word。特殊字符对应了None。有了这个list,我们就能将subtokens和words还有标注的labels对齐啦。
我们通常将特殊字符的label设置为-100,在模型中-100通常会被忽略掉不计算loss。
我们有两种对齐label的方式:
多个subtokens对齐一个word,对齐一个label
多个subtokens的第一个subtoken对齐word,对齐一个label,其他subtokens直接赋予-100.
我们提供这两种方式,通过label_all_tokens = True切换。
最后我们将所有内容合起来变成我们的预处理函数。
is_split_into_words=True在上面已经结束啦。
接下来对数据集datasets里面的所有样本进行预处理,处理的方式是使用map函数,将预处理函数prepare_train_features应用到(map)所有样本上。
微调预训练模型
由于我们微调的任务是token分类任务,而我们加载的是预训练的语言模型,所以会提示我们加载模型的时候扔掉了一些不匹配的神经网络参数(比如:预训练语言模型的神经网络head被扔掉了,同时随机初始化了token分类的神经网络head)。
为了能够得到一个Trainer训练工具,我们还需要3个要素,其中最重要的是训练的设定/参数 TrainingArguments。这个训练设定包含了能够定义训练过程的所有属性。
上面evaluation_strategy = "epoch"参数告诉训练代码:我们每个epcoh会做一次验证评估。
上面batch_size在这个notebook之前定义好了。
最后我们需要一个数据收集器data collator,将我们处理好的输入喂给模型。
设置好Trainer还剩最后一件事情,那就是我们需要定义好评估方法。我们使用seqeval metric来完成评估。将模型预测送入评估之前,我们也会做一些数据后处理:
评估的输入是预测和label的list
对模型预测结果做一些后处理:
选择预测分类最大概率的下标
将下标转化为label
忽略-100所在地方
下面的函数将上面的步骤合并了起来。
我们计算所有类别总的precision/recall/f1,所以会扔掉单个类别的precision/recall/f1
将数据/模型/参数传入Trainer即可
调用train方法开始训练
我们可以再次使用evaluate方法评估,可以评估其他数据集。
如果想要得到单个类别的precision/recall/f1,我们直接将结果输入相同的评估函数即可:
Remove ignored index (special tokens)
Last updated
Was this helpful?