中文词向量相似性评价一般用哪个关键词提取数据集集和什么评价标准

基于词向量空间模型的中文文本分类方法_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于词向量空间模型的中文文本分类方法
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢词向量评价可以参考:&a href=&///?target=http%3A//wordvectors.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&WordVec Demo&i class=&icon-external&&&/i&&/a&&br&&br&中文词向量可以参考我们IJCAI 2015论文采用的评测方式和数据:Xinxiong Chen*, Lei Xu*, Zhiyuan Liu, Maosong Sun, Huanbo Luan. Joint Learning of Character and Word Embeddings. &i&International Joint Conference on Artificial Intelligence (IJCAI'15)&/i&. (* indicates equal contribution) [&a href=&///?target=http%3A//news./publish/news/_.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&news&i class=&icon-external&&&/i&&/a&][&a href=&///?target=http%3A//nlp.csai./%7Elzy/publications/ijcai2015_character.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&pdf&i class=&icon-external&&&/i&&/a&][&a href=&///?target=https%3A///Leonard-Xu/CWE& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&codes&i class=&icon-external&&&/i&&/a&]&br&数据在这儿:&a href=&///?target=https%3A///Leonard-Xu/CWE/tree/master/data& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CWE/data at master · Leonard-Xu/CWE · GitHub&i class=&icon-external&&&/i&&/a&
词向量评价可以参考: 中文词向量可以参考我们IJCAI 2015论文采用的评测方式和数据:Xinxiong Chen*, Lei Xu*, Zhiyuan Liu, Maosong Sun, Huanbo Luan. Joint Learning of Character and Word Embeddings. International Joint Conference on …
看到这个题目映入脑中的是《万历十五年》和《袁氏当国》,让我对历史有了更立体的感知,终于脱离了初高中历史课本的水平;这两本书让我明白了,人,无论是青史留名的人还是默默无闻的人,都是复杂的个体,很难用好或坏、阶级先进性或局限性来简单概括。
看到这个题目映入脑中的是《万历十五年》和《袁氏当国》,让我对历史有了更立体的感知,终于脱离了初高中历史课本的水平;这两本书让我明白了,人,无论是青史留名的人还是默默无闻的人,都是复杂的个体,很难用好或坏、阶级先进性或局限性来简单概括。
这种特性应该还是有很多用武之地的,例如2014年发表在ACL上的Learning Semantic Hierarchies via Word Embeddings,就是利用该特性自动检测词语之间的上下位关系,这对构建WordNet、HowNet等词汇知识库具有重要意义。还有很多方向值得进一步探索。&br&&img src=&/9e015b17cd8a1bd1d89aa62f5cf31245_b.png& data-rawwidth=&931& data-rawheight=&456& class=&origin_image zh-lightbox-thumb& width=&931& data-original=&/9e015b17cd8a1bd1d89aa62f5cf31245_r.png&&更重要的是,而面向知识图谱的表示学习算法TransE,正是受到这种类比现象的启发而提出来的。未来如何有效融合无结构文本库和有结构知识库,实现对人类知识的表示和利用,这种现象会是重要的思想来源和依据。
这种特性应该还是有很多用武之地的,例如2014年发表在ACL上的Learning Semantic Hierarchies via Word Embeddings,就是利用该特性自动检测词语之间的上下位关系,这对构建WordNet、HowNet等词汇知识库具有重要意义。还有很多方向值得进一步探索。 更重要的…
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。&br&日更新,在THULAC新增Python版本分词器,欢迎使用。&br&&br&&b&中文词法分析&/b&&br&&a href=&///?target=http%3A//thulac.thunlp.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&THULAC:一个高效的中文词法分析工具包&i class=&icon-external&&&/i&&/a&&br&包括中文分词、词性标注功能。已经提供C++、Java、Python版本。&br&&br&&b&中文文本分类&/b&&br&&a href=&///?target=http%3A//thuctc.thunlp.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&THUCTC: 一个高效的中文文本分类工具&i class=&icon-external&&&/i&&/a&&br&提供高效的中文文本特征提取、分类训练和测试功能。&br&&br&&b&THUTag: 关键词抽取与社会标签推荐工具包&/b&&br&&a href=&///?target=https%3A///YeDeming/THUTag/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion&i class=&icon-external&&&/i&&/a&&br&提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。&br&&br&&b&PLDA / PLDA+: 一个高效的LDA分布式学习工具包&/b&&br&&a href=&///?target=https%3A///archive/p/plda/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/archive&/span&&span class=&invisible&&/p/plda/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&知识表示学习&/b&&br&知识表示学习工具包&br&&a href=&///?target=https%3A///mrlyk423/relation_extraction& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - Mrlyk423/Relation_Extraction: Knowledge
Base Embedding&i class=&icon-external&&&/i&&/a&&br&包括TransE、TransH、TransR、PTransE等算法。&br&&br&考虑实体描述的知识表示学习算法&br&&a href=&///?target=https%3A///xrb92/DKRL& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions&i class=&icon-external&&&/i&&/a&&br&&br&&b&词表示学习&/b&&br&跨语言词表示学习算法&br&&a href=&///?target=http%3A//nlp.csai./%7Elzy/src/acl2015_bilingual.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Learning Cross-lingual Word Embeddings via Matrix Co-factorization&i class=&icon-external&&&/i&&/a&&br&&br&主题增强的词表示学习算法&br&&a href=&///?target=https%3A///largelymfs/topical_word_embeddings& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding&i class=&icon-external&&&/i&&/a&&br&&br&可解释的词表示学习算法&br&&a href=&///?target=https%3A///SkTim/OIWE& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - SkTim/OIWE: Online Interpretable Word Embeddings&i class=&icon-external&&&/i&&/a&&br&&br&考虑字的词表示学习算法&br&&a href=&///?target=https%3A///Leonard-Xu/CWE& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - Leonard-Xu/CWE&i class=&icon-external&&&/i&&/a&&br&&br&&b&网络表示学习&/b&&br&文本增强的网络表示学习算法&br&&a href=&///?target=https%3A///albertyang33/TADW& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - albertyang33/TADW: code for IJCAI2015 paper &Network Representation Learning with Rich Text Information&&i class=&icon-external&&&/i&&/a&
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。 日更新,在THULAC新增Python版本分词器,欢迎使用。 中文词法分析
包括中文分词、词性标注功能。已经提供C++、J…
&p&刚好毕设相关,论文写完顺手就答了&/p&&br&&p&&b&先给出一个最快的了解+上手的教程:&/b&&/p&&br&&p&
直接看theano官网的LSTM教程+代码:&a href=&///?target=http%3A//deeplearning.net/tutorial/lstm.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LSTM Networks for Sentiment Analysis&i class=&icon-external&&&/i&&/a&&/p&&p&但是,前提是你有RNN的基础,因为LSTM本身不是一个完整的模型,LSTM是对RNN隐含层的改进。一般所称的LSTM网络全叫全了应该是使用LSTM单元的RNN网络。教程就给了个LSTM的图,它只是RNN框架中的一部分,如果你不知道RNN估计看不懂。&/p&&p&
比较好的是,你只需要了解前馈过程,你都不需要自己求导就能写代码使用了。&/p&&p&
补充,今天刚发现一个中文的博客:&a href=&///?target=http%3A//blog.csdn.net/a/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LSTM简介以及数学推导(FULL BPTT)&i class=&icon-external&&&/i&&/a&&/p&&p&
不过,稍微深入下去还是得老老实实的好好学,下面是我认为比较好的&/p&&br&&p&&b&完整LSTM学习流程&/b&:&/p&&br&&p&
我一直都觉得了解一个模型的前世今生对模型理解有巨大的帮助。到LSTM这里(假设题主零基础)那比较好的路线是MLP-&RNN-&LSTM。还有LSTM本身的发展路线(97年最原始的LSTM到forget gate到peephole )&/p&&p&
按照这个路线学起来会比较顺,所以我优先推荐的两个教程都是按照这个路线来的:&/p&&ol&&li&多伦多大学的 Alex Graves 的RNN专著&i&《Supervised Sequence Labelling with Recurrent Neural
Networks》&/i& &/li&&li&Felix Gers的博士论文&i&《Long short-term memory in recurrent neural networks》&/i&&/li&&/ol&&p&这两个内容都挺多的,不过可以跳着看,反正我是没看完
 ̄)┍&/p&&p&还有一个最新的(今年2015)的综述,&i&《A
Critical Review of Recurrent Neural Networks for Sequence Learning》&/i&不过很多内容都来自以上两个材料。&/p&&p&
其他可以当做教程的材料还有:&/p&&p&&i&《From
Recurrent Neural Network to Long Short Term Memory Architecture Application to
Handwriting Recognition Author》&/i&&/p&&p&&i&《Generating Sequences With Recurrent Neural Networks》&/i&(这个有对应源码,虽然实例用法是错的,自己用的时候还得改代码,主要是摘出一些来用,供参考)&/p&&br&&p&然后呢,可以开始编码了。除了前面提到的theano教程还有一些论文的开源代码,到github上搜就好了。&/p&&br&&p&顺便安利一下theano,theano的自动求导和GPU透明对新手以及学术界研究者来说非常方便,LSTM拓扑结构对于求导来说很复杂,上来就写LSTM反向求导还要GPU编程代码非常费时间的,而且搞学术不是实现一个现有模型完了,得尝试创新,改模型,每改一次对应求导代码的修改都挺麻烦的。&/p&&br&&p&其实到这应该算是一个阶段了,如果你想继续深入可以具体看看几篇经典论文,比如LSTM以及各个改进对应的经典论文。&/p&&br&&p&还有楼上提到的&i&《LSTM: A Search Space Odyssey》&/i& 通过从新进行各种实验来对比考查LSTM的各种改进(组件)的效果。挺有意义的,尤其是在指导如何使用LSTM方面。&/p&&p&不过,玩LSTM,最好有相应的硬件支持。我之前用Titan 780,现在实验室买了Titan X,应该可以说是很好的配置了(TitanX可以算顶配了)。但是我任务数据量不大跑一次实验都要好几个小时(前提是我独占一个显卡),(当然和我模型复杂有关系,LSTM只是其中一个模块)。&/p&&br&&p&===========================================&/p&&p&如果想玩的深入一点可以看看LSTM最近的发展和应用。老的就不说了,就提一些比较新比较好玩的。&/p&&br&&p&LSTM网络本质还是RNN网络,基于LSTM的RNN架构上的变化有最先的BRNN(双向),还有今年Socher他们提出的树状LSTM用于情感分析和句子相关度计算&i&《Improved Semantic Representations From Tree-Structured Long
Short-Term Memory Networks》&/i&(类似的还有一篇,不过看这个就够了)。他们的代码用Torch7实现,我为了整合到我系统里面自己实现了一个,但是发现效果并不好。我觉的这个跟用于建树的先验信息有关,看是不是和你任务相关。还有就是感觉树状LSTM对比BLSTM是有信息损失的,因为只能使用到子节点信息。要是感兴趣的话,这有一篇树状和线性RNN对比&i&《(treeRNN vs seqRNN )When Are Tree Structures Necessary for Deep
Learning of Representations?》&/i&。当然,关键在于树状这个概念重要,感觉现在的研究还没完全利用上树状的潜力。&/p&&br&&p&今年ACL(2015)上有一篇层次的LSTM&i&《A
Hierarchical Neural Autoencoder for Paragraphs and Documents》&/i&。使用不同的LSTM分别处理词、句子和段落级别输入,并使用自动编码器(autoencoder)来检测LSTM的文档特征抽取和重建能力。&/p&&br&&p&还有一篇文章&i&《Chung J, Gulcehre C, Cho K, et al. Gated feedback recurrent neural networks[J]. arXiv preprint arXiv:, 2015.》&/i&,把gated的思想从记忆单元扩展到了网络架构上,提出多层RNN各个层的隐含层数据可以相互利用(之前的多层RNN多隐含层只是单向自底向上连接),不过需要设置门(gated)来调节。&/p&&br&&p&记忆单元方面,Bahdanau
Dzmitry他们在构建RNN框架的机器翻译模型的时候使用了GRU单元(gated recurrent unit)替代LSTM,其实LSTM和GRU都可以说是gated hidden unit。两者效果相近,但是GRU相对LSTM来说参数更少,所以更加不容易过拟合。(大家堆模型堆到dropout也不管用的时候可以试试换上GRU这种参数少的模块)。这有篇比较的论文&i&《(GRU/LSTM对比)Empirical Evaluation of Gated Recurrent Neural Networks on Sequence
Modeling》&/i&&/p&&br&&p&应用嘛,宽泛点来说就是挖掘序列数据信息,大家可以对照自己的任务有没有这个点。比如(直接把毕设研究现状搬上来(????)??):&/p&&br&&p&先看比较好玩的,&/p&&p&&b&图像处理(对,不用CNN用RNN):&/b&&/p&&p&&i&《Visin F, Kastner K,
Cho K, et al. ReNet: A Recurrent Neural Network Based Alternative to
Convolutional Networks[J]. arXiv preprint arXiv:, 2015》&/i&&/p&&p&4向RNN(使用LSTM单元)替代CNN。&/p&&br&&p&&b&使用LSTM读懂python程序:&/b&&/p&&p&&i&《Zaremba W, Sutskever I.
Learning to execute[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&使用基于LSTM的深度模型用于读懂python程序并且给出正确的程序输出。文章的输入是短小简单python程序,这些程序的输出大都是简单的数字,例如0-9之内加减法程序。模型一个字符一个字符的输入python程序,经过多层LSTM后输出数字结果,准确率达到99%&/p&&br&&p&&b&手写识别:&/b&&/p&&p&&i&《Liwicki M, Graves A,
Bunke H, et al. A novel approach to on-line handwriting recognition based on
bidirectional long short-term memory》&/i&&/p&&br&&p&&b&机器翻译:&/b&&/p&&p&&i&《Sutskever I, Vinyals
O, Le Q V V. Sequence to sequence learning with neural networks[C]//Advances in
neural information processing systems. -3112.》&/i&&/p&&p&使用多层LSTM构建了一个seq2seq框架(输入一个序列根据任务不同产生另外一个序列),用于机器翻译。先用一个多层LSTM从不定长的源语言输入中学到特征v。然后使用特征v和语言模型(另一个多层LSTM)生成目标语言句子。&/p&&p&&i&《Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representations using rnn encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&这篇文章第一次提出GRU和RNN encoder-decoder框架。使用RNN构建编码器-解码器(encoder-decoder)框架用于机器翻译。文章先用encoder从不定长的源语言输入中学到固定长度的特征V,然后decoder使用特征V和语言模型解码出目标语言句子&/p&&p&&b&以上两篇文章提出的seq2seq和encoder-decoder这两个框架除了在机器翻译领域,在其他任务上也被广泛使用。&/b&&/p&&p&&i&《Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&在上一篇的基础上引入了BRNN用于抽取特征和注意力信号机制(attention signal)用于源语言和目标语言的对齐。&/p&&br&&p&&b&对话生成:&/b&&/p&&p&&i&《Shang L, Lu Z, Li H. Neural Responding Machine for Short-Text Conversation[J]. arXiv preprint arXiv:, 2015.》&/i& &/p&&p&华为诺亚方舟实验室,李航老师他们的作品。基本思想是把对话看成是翻译过程。然后借鉴Bahdanau D他们的机器翻译方法(&b&encoder-decoder,GRU&/b&,attention signal)解决。训练使用微博评论数据。&/p&&p&&i&《VINYALS O, LE Q,.A Neural Conversational Model[J]. arXiv: [cs], 2015.》&/i&&/p&&p&google前两天出的论文()。看报道说结果让人觉得“creepy”:&a href=&///?target=http%3A///read/googles-new-chatbot-taught-itself-to-be-creepy& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google's New Chatbot Taught Itself to Be Creepy&i class=&icon-external&&&/i&&/a& 。还以为有什么NB模型,结果看了论文发现就是一套用&b&seq2seq框架&/b&的实验报告。(对话可不是就是你一句我一句,一个序列对应产生另一序列么)。论文里倒是说的挺谨慎的,只是说纯数据驱动(没有任何规则)的模型能做到这样不错了,但还是有很多问题,需要大量修改(加规则呗?)。主要问题是缺乏上下文一致性。(模型只用对话的最后一句来产生下一句也挺奇怪的,为什么不用整个对话的历史信息?)&/p&&br&&p&&b&句法分析:&/b&&/p&&p&&i&《Vinyals O, Kaiser L,
Koo T, et al. Grammar as a foreign language[J]. arXiv preprint arXiv:,
2014.》&/i&&/p&&p&把LSTM用于句法分析任务,文章把树状的句法结构进行了线性表示,从而把句法分析问题转成翻译问题,然后套用机器翻译的seq2seq框架使用LSTM解决。&/p&&br&&p&&b&信息检索:&/b&&/p&&p&&i&《Palangi H, Deng L,
Shen Y, et al. Deep Sentence Embedding Using the Long Short Term Memory Network:
Analysis and Application to Information Retrieval[J]. arXiv preprint
arXiv:, 2015.》&/i&&/p&&p&使用LSTM获得大段文本或者整个文章的特征向量,用点击反馈来进行弱监督,最大化query的特性向量与被点击文档的特性向量相似度的同时最小化与其他未被点击的文档特性相似度。&/p&&br&&p&&b&图文转换:&/b&&/p&&p&图文转换任务看做是特殊的图像到文本的翻译问题,还是使用encoder-decoder翻译框架。不同的是输入部分使用卷积神经网络(Convolutional Neural Networks,CNN)抽取图像的特征,输出部分使用LSTM生成文本。对应论文有:&/p&&p&&i&《Karpathy A, Fei-Fei L. Deep
visual-semantic alignments for generating image descriptions[J]. arXiv preprint
arXiv:, 2014.》&/i&&/p&&p&&i&《Mao J, Xu W, Yang Y, et al. Deep
captioning with multimodal recurrent neural networks (m-rnn)[J]. arXiv preprint
arXiv:, 2014.》&/i&&/p&&p&&i&《Vinyals O, Toshev A, Bengio S, et al. Show and
tell: A neural image caption generator[J]. arXiv preprint arXiv:,
2014.》&/i&&/p&&br&&br&&p&就粘这么多吧,呼呼~复制粘贴好爽\(^o^)/~&/p&&p&其实,相关工作还有很多,各大会议以及arxiv上不断有新文章冒出来,实在是读不过来了。。。&/p&&br&&p&然而我有种预感,说了这么多,工作之后很有可能发现:&/p&&p&这些东西对我工作并没有什么卵用
(>﹏<=&/p&
刚好毕设相关,论文写完顺手就答了 先给出一个最快的了解+上手的教程: 直接看theano官网的LSTM教程+代码:但是,前提是你有RNN的基础,因为LSTM本身不是一个完整的模型,LSTM是对RNN隐含层的改进。一般所称的LSTM网络…
抛开面试,我从研究的角度来谈一谈吧。&br&&br&&p&去年COLING时和Mikolov讨论了一下目前Word Embedding学习的相关工作。他对许多工作表达了强烈的不满,其中最关键的一点就是评价问题。&/p&&p&当前绝大部分工作(比如以各种方式改进word embedding)都是依赖wordsim353等词汇相似性数据集进行相关性度量,并以之作为评价word embedding质量的标准。然而,这种基于similarity的评价方式对训练数据大小、领域、来源以及词表的选择非常敏感。而且数据集太小,往往并不能充分说明问题。&/p&&br&&p&我们当时一致认为应该以word embedding对于实际任务的收益为评价标准。包括词汇类比任务(所谓的analogy task,如king – queen = man - woman)以及NLP中常见的应用任务,比如命名实体识别(NER),句法分析(parsing)等。&/p&&p&近几年越来越多的学者也开始意识到这个问题,转而开始学习&b&任务相关(Task-specific)&/b&的word embedding。如果脱离实际任务,很难讲不同的word embedding谁比谁更“好”。&/p&&p&比如对于句法分析、我们可以在word2vec中利用句法依存上下文,从而使得我们所学习到的word embedding更好地表达句法相似性,进而提升句法分析任务的性能&i&(Levy and Goldberg, 2014)&/i&。&/p&&p&而对于语义相关的任务,情况则不同。&/p&&br&&p&然而,基于具体应用的评价毕竟是一种间接的方式,中间还隔了一层,尤其是对基于神经网络且需要在学习过程中对word embedding进行微调(fine-tuning)的模型而言。那么,对于word embedding本身的评价,实际上也是不能一概摒弃的。&/p&&br&&p&我比较喜欢今年EMNLP的一个工作:&a href=&///?target=http%3A//www.cs.cmu.edu/%7Eytsvetko/papers/qvec.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Evaluation of Word Vector Representations by Subspace Alignment (Tsvetkov et al.)&i class=&icon-external&&&/i&&/a&&/p&&br&&p&这篇文章尝试解决word embedding一直以来备受垢病的问题——可解释性,也就是每一维代表什么含义?&/p&&p&&img src=&/5b03c157e3cc7d6cf0404_b.png& data-rawwidth=&341& data-rawheight=&192& class=&content_image& width=&341&&图中矩阵X表示学到的word embedding,矩阵S则是由语言学特征所构成的词向量,比如:&br&&img src=&/d7da115ad41f94cc9ed44_b.png& data-rawwidth=&460& data-rawheight=&82& class=&origin_image zh-lightbox-thumb& width=&460& data-original=&/d7da115ad41f94cc9ed44_r.png&&以这种方式构建的向量每一维都有特定的意义。作者尝试学习两个矩阵之间行向量的对齐方式,使得总体相关性最大。显然,不同embedding最终得到的相关性不同,从而能够作为衡量word embedding可解释性的标准。&/p&&p&不过这种方法也有scalability问题,对于其他语言,比如中文,可能我们很难获得SemCor这样带有语义标注的数据,也就难以构建矩阵S。&/p&&br&&p&另外一篇文章:Evaluation methods for unsupervised word embeddings (Schnabel et al.) 也做得很细致,可参考。&/p&
抛开面试,我从研究的角度来谈一谈吧。 去年COLING时和Mikolov讨论了一下目前Word Embedding学习的相关工作。他对许多工作表达了强烈的不满,其中最关键的一点就是评价问题。当前绝大部分工作(比如以各种方式改进word embedding)都是依赖wordsim353等词汇…
Google Ngram Viewer
&a href=&///?target=http%3A///books/ngrams/books/datasetsv2.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/&/span&&span class=&invisible&&books/ngrams/books/datasetsv2.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&把上面的数据集下载下来,你要用多少个gram的就下哪个,把所有词的出现次数累加起来得到总数,然后用每个词出现的次数除这个总数,就能得到频率了。&br&&br&当然了,这个工作做一次就行了(太耗内存和时间),然后把所有的东西存到一个数据库里面或者一个文件里面,下次直接读这个文件或者数据库里面查找就行了。
Google Ngram Viewer
把上面的数据集下载下来,你要用多少个gram的就下哪个,把所有词的出现次数累加起来得到总数,然后用每个词出现的次数除这个总数,就能得到频率了。 当然了,这个工作做一次就行了(太耗内存和时间),然后把所有…
频繁项集&br&&br&必须考虑有间隔的情况&br&&br&最后, 最后的结果主要跟分词效果有关
频繁项集 必须考虑有间隔的情况 最后, 最后的结果主要跟分词效果有关
这个层次的任务没有流行的工具,需要自己开发。但一般都是对词汇做简单的相关统计,也不太难。在斯坦福著名教材Foundations of Statistical Natural Language Processing中就有专门一章介绍搭配抽取的:&a href=&///?target=http%3A//nlp.stanford.edu/fsnlp/promo/colloc.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&nlp.stanford.edu/fsnlp/&/span&&span class=&invisible&&promo/colloc.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
这个层次的任务没有流行的工具,需要自己开发。但一般都是对词汇做简单的相关统计,也不太难。在斯坦福著名教材Foundations of Statistical Natural Language Processing中就有专门一章介绍搭配抽取的:
初学者比较不建议看那么厚的书,反正我是看完序言就用来垫着帮电脑散热了= =&br&&br&推荐&a href=&///?target=http%3A//linuxcommand.org/tlcl.php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Linux Command Line by William E. Shotts, Jr.&i class=&icon-external&&&/i&&/a& 这本 简单 基础 并且快速上手terminal&br&中文有翻译&a href=&///?target=http%3A//billie66.github.io/TLCL/book/index.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&billie66.github.io/TLCL&/span&&span class=&invisible&&/book/index.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&另外也可以参考之前的回答&a href=&/question//answer/& class=&internal&&Linux开发入门需要具备哪些条件? - Han 的回答&/a&
初学者比较不建议看那么厚的书,反正我是看完序言就用来垫着帮电脑散热了= = 推荐 这本 简单 基础 并且快速上手terminal 中文有翻译 另外也可以参考之前的回答
已有帐号?
无法登录?
社交帐号登录
999 人关注
171 条内容
1753 人关注
154 条内容
7713 人关注
1229 条内容
178 人关注
642 条内容

我要回帖

更多关于 多维向量的相似性 的文章

 

随机推荐