怎样把I2B2大数据时代是什么意思变成CRF++可识别的训练大数据时代是什么意思

版权声明:本文为博主原创文章未经博主允许不得转载。有问题可以加微信:lp9628(注明CSDN) /u/article/details/

CRF的应用还是挺多的,像前期deeplab的语义分割、bilstm+crf做词性标注

# 获取样本句长向量(因为每┅个样本可能包含不一样多的词),在这里统一设为 num_words - 1真实情况下根据需要设置
 # 在这里设置一个无偏置的线性层
 # 得到一个num_examples*num_words的二维数组,大數据时代是什么意思类型为布尔型目的是对句长进行截断
 

 
 
首先下面是我画的Bi-LSTM示意图:

其实LSTM使用起来很简单,就是输入一排的向量然后輸出一排的向量。构建时只要设定两个超参数:num_unitssequence_length
 
上面的LSTM Cell只有一个超参数需要设定,num_units即输出向量的维度。
 
这个函数唯一需要设定的超參数就是序列长度sequence_length



 

# 将两个LSTM的输出合并
# 变换矩阵,可训练参数
 



 



log_likelihood:维度为[batch_size]的向量每个元素代表每个给定序列的Log-Likelihood。
transition_params :维度为[num_tags, num_tags]的转移矩阵注意这里的转移矩阵不像传统的HMM概率转移矩阵那样要求每个元素非负且每一行的和为1,这里的每个元素取值范围是实数(正负都可以)





 


使用人民日报的语料为了方便切割,将其中的\t替换为了空格语料直接下载:。生成的crf测试和训练大数据时代是什么意思:

对于语料有嵌套的标注例如:[中央/n 电视台/n]nt,为了处理方便只考虑最细粒度的分词结果,即当作是 中央/n 电视台/n 两个词进行处理生成训练大数据时代是什么意思的python脚本是来自 ,由於粘贴的时候缩进错乱导致不可用所以对脚本进行了修改。

通过下面python脚本根据人民日报的语料库生成crf的测试和训练大数据时代是什么意思。原始大数据时代是什么意思中随机10%是测试大数据时代是什么意思90%是训练大数据时代是什么意思。程序打印出来了不少调试信息鈳以忽略。生成训练大数据时代是什么意思的时候支持4tag和6tag两个格式,6tag的格式是:

S单个词;B,词首;E词尾;M1/M2/M,词中

4tag和6tag的区别就是没有詞中顺序状态具体代码:

生成大数据时代是什么意思时,通过最后一个参数是4还是6区别生成4tag大数据时代是什么意思还是6tag大数据时代是什麼意思

未经允许不得转载: ?

我要回帖

更多关于 大数据时代是什么意思 的文章

 

随机推荐