NLP自然语言处理干货贴 -一个渣渣

1.OCR技术浅探：9. 代码共享(完)

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：9. 代码共享(完) 文件说明： 1. image...

2.OCR技术浅探：8. 综合评估

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：8. 综合评估数据验证尽管在测试环境下模型工作...

3.OCR技术浅探：7. 语言模型

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：7. 语言模型由于图像质量等原因，性能再好的识别...

4.OCR技术浅探：6. 光学识别

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：6. 光学识别经过第一、二步，我们已经能够找出图...

5.OCR技术浅探：5. 文本切割

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：5. 文本切割经过上一步，得到单行的文本区域之后...

6.OCR技术浅探：4. 文字定位

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：4. 文字定位经过第一部分，我们已经较好地提取了...

7.OCR技术浅探：3. 特征提取(2)

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：3. 特征提取(2) 逐层识别当图像有效地进行分...

8.OCR技术浅探：3. 特征提取(1)

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：3. 特征提取(1) 作为OCR系统的第一步，特征...

9.OCR技术浅探：2. 背景与假设

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：2. 背景与假设研究背景关于光学字符识别(Op...

10.OCR技术浅探：1. 全文简述

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：1. 全文简述写在前面：前面的博文已经提过，在上...

11.超快的 fastText

摘要：作者：AlgorithmDog 来源网站：http://www.algorithmdog.com/ 原文链接：...

12.[原创]机器学习相关的Awesome系列

摘要：机器学习相关的Awesome系列。...

13.自己动手做聊天机器人二十七-用深度学习来做自动问答的一般方法

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十七-用深度学习来做自动问...

14.自己动手做聊天机器人二十六-图解递归神经网络(RNN)

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十六-图解递归神经网络(R...

15.自己动手做聊天机器人二十五-google的文本挖掘深度学习工具word2vec的实现原理

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十五-google的文本挖...

16.自己动手做聊天机器人二十四-将深度学习应用到NLP

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十四-将深度学习应用到NL...

17.自己动手做聊天机器人二十三-用CNN做深度学习

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十三-用CNN做深度学习...

18.自己动手做聊天机器人二十二-神奇算法之人工神经网络

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十二-神奇算法之人工神经网...

19.自己动手做聊天机器人二十一-比TF-IDF更好的隐含语义索引模型是个什么鬼

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十一-比TF-IDF更好的...

20.自己动手做聊天机器人二十-语义角色标注的基本方法

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二十-语义角色标注的基本方法...

21.自己动手做聊天机器人十九-机器人是怎么理解“日后再说”的

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十九-机器人是怎么理解“日后...

22.自己动手做聊天机器人十八-神奇算法之句法分析树的生成

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十八-神奇算法之句法分析树的...

23.自己动手做聊天机器人十七-让机器做词性自动标注的具体方法

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十七-让机器做词性自动标注的...

24.自己动手做聊天机器人十六-大话自然语言处理中的囊中取物

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十六-大话自然语言处理中的囊...

25.自己动手做聊天机器人十五-一篇文章读懂拿了图灵奖和诺贝尔奖的概率图模型

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十五-一篇文章读懂拿了图灵奖...

26.自己动手做聊天机器人十四-探究中文分词的艺术

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十四-探究中文分词的艺术中...

27.自己动手做聊天机器人十二-教你如何利用强大的中文语言技术平台做依存句法和语义依存分析

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十二-教你如何利用强大的中文...

28.自己动手做聊天机器人十一-0字节存储海量语料资源

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十一-0字节存储海量语料资源...

29.自己动手做聊天机器人十-半个小时搞定词性标注与关键词提取

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人十-半个小时搞定词性标注与关...

30.自己动手做聊天机器人九-聊天机器人应该怎么做

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人九-聊天机器人应该怎么做 &...

31.自己动手做聊天机器人八-重温自然语言处理

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人八-重温自然语言处理别误会...

32.自己动手做聊天机器人七-文法分析还是基于特征好啊

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人七-文法分析还是基于特征好啊...

33.自己动手做聊天机器人六-教你怎么从一句话里提取出十句话的信息

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人六-教你怎么从一句话里提取出...

34.自己动手做聊天机器人五-自然语言处理中的文本分类

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人五-自然语言处理中的文本分类...

35.自己动手做聊天机器人四-何须动手？完全自动化对语料做词性标注

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人四-何须动手？完全自动化对语...

36.自己动手做聊天机器人三-语料与词汇资源

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人三-语料与词汇资源当代自然...

37.自己动手做聊天机器人二-初识NLTK库

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人二-初识NLTK库 NLTK...

38.自己动手做聊天机器人一-涉及知识

摘要：本文转载自：www.shareditor.com 原文链接：自己动手做聊天机器人一-涉及知识人工智能一直以...

39.超快的 fastText

摘要：作者：AlgorithmDog 来源网站：http://www.algorithmdog.com/ 原文链接：...

40.深度学习word2vec笔记之应用篇

摘要：声明： 1）该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的...

41.深度学习word2vec笔记之算法篇

摘要：声明： 1）该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的...

42.信息抽取的关键技术和挑战

摘要：信息抽取技术对于垂直搜索引擎、决策制定等方面的应用都非常重要，本文采访了中国科学院软件研究所基础软件国家工程研...

43.Free/open-source machine translation software

摘要：Here’s a non-exhaustive list of links to existing...

44.网络挖掘技术——微博文本特征提取

摘要：文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代...

45.Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）

摘要：所谓学习问题，是指观察由n个样本组成的集合，并根据这些数据来预测未知数据的性质。学习任务（一个二分类问题）：...

46.中文分词器性能比较

摘要：摘要：本篇是本人在Solr的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括使用mmseg4j、I...

47.Getting Started with TextBlob

摘要：TextBlob is a new python natural language processing to...

48.美国防部开发DEFT项目让情报处理智能化

摘要：美国国防部高级研究计划局（DARPA）正在开发一系列技术，旨在提升对人类语言的理解。该技术不仅有...

49.List of 25+ Natural Language Processing APIs

摘要：Natural Language Processing, or NLP, is a field of comp...

50.CRF不可不读的论文

摘要：Classical Probabilistic Models and Conditional Random F...

51.LDA主题模型评估方法–Perplexity

摘要：在LDA主题模型之后，需要对模型的好坏进行评估，以此依据，判断改进的参数或者算法的建模能力。 Blei先生在论...

52.Document Classification with Lucene

摘要：Document Classification with Lucene By Mitzimorris As p...

53.python3.2 调用NLPIR（ICTLAS）2014的方法

摘要：很高兴中科院计算所在NLPIR2014版中提供了的间接NLPIR/ICTCLAS 2014 Python AP...

54.Word2vec资料汇总

摘要：【1】 word2vec Project Home 第一手的资料，代码：http://word2vec.goo...

55.斯坦福大学自然语言处理公开课中文解读

摘要：本文资料汇总自我爱公开课，如果对英文无障碍的建议直接访问原始课程： NLP | 斯坦福授课教师是 Dan...

56.Wordnet 与 Hownet 比较

摘要：近年来，随着计算机本身以及信息高速公路的飞速发展，人们开始更加重视语义的研究。各国都致力于可用于自然语言处理的...

57.【科普随笔：NLP的宗教战争？兼论深度学习】

摘要：有回顾NLP（Natural Language Processing）历史的大牛介绍统计模型（通过所谓机器学习...

58.我也说说中文分词（上：基于字符串匹配）

摘要：1. 序词是句子组成的基本单元，不想英语句子已经分好词了，中文处理的第一步就是中文分词。分词中面临的三大基...

59.统计机器翻译开源软件汇总

摘要：一、Mikel L. Forcada汇总内容 Rule-based systems Apertium, a f...

60.使用语言云分析微博用户饮食习惯

摘要：饮食习惯分析饮食习惯分析属于传统社会学范畴内的问题。但我们知道，无论使用问卷调查，还是通过调研各种食品消耗量...

61.斯坦福大学自然语言处理公开课课件汇总

摘要：Introduction Basic Text Processing Minimum Edit Distanc...

62.斯坦福大学自然语言处理第七课“情感分析（Sentiment Analysis）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

63.斯坦福大学自然语言处理第六课“文本分类（Text Classification）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

64.斯坦福大学自然语言处理第五课“拼写纠错（Spelling Correction）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

65.斯坦福大学自然语言处理第四课“语言模型（Language Modeling）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

66.斯坦福大学自然语言处理第三课“最小编辑距离（Minimum Edit Distance）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

67.斯坦福大学自然语言处理第二课“文本处理基础（Basic Text Processing）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

68.斯坦福大学自然语言处理第一课“引言（Introduction）”

摘要：一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程，由NLP领域大牛Dan...

69.利用FudanNLP进行新闻关键词提取

摘要：在做新闻推荐系统的时候，首先要做的应该是抓取新闻，从中提取关键字，其次是运用机器学习里面的聚类分类方法根据浏览...

70.FudanNLP移置GitHub

摘要：FudanNLP，这是一个复旦大学计算机学院开发的开源中文自然语言处理（NLP）工具包 Fudan NLP里包...

71.哈工大语言云（语言技术平台云 LTP-Cloud）简介

摘要：语言云语言云（语言技术平台云 LTP-Cloud）是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理...

72.LDA-math-LDA 文本建模(5)

摘要：5. LDA 文本建模 5.1 游戏规则对于上述的 PLSA 模型，贝叶斯学派显然是有意见的，doc-top...

73.python3+nltk3+matplotlib1.3中plot方法无法执行的解决办法

摘要：由于Python2.x对中文的支持奇差无比，而python3.x在此方面有极大改进，所以就安装了 python...

74.lucene4.3全文搜索引擎—索引的增删查改

摘要：之前说到，lucene简单的建立索引，并根据索引进行简单的搜索功能。下面来探讨一下对lucene索引的管理，也...

75.Genius 分词 3.1.2 版本发布

摘要：Genius 分词 3.1.2 版本发布本次的主要更新： 1、修复空白字符导致分词进程崩溃的情况。 2、...

76.盘点中文分词项目

摘要：分词项目比较表格评测暂时来源于项目官方数据。项目名称 Licence 更新时间算法速度 ICTCLAS...

77.初始SolrJ开发, schema.xml的配置与服务初始化. – 苏若年

摘要：schema.xml位于solr/collection1/conf/目录下，是Solr中用户定义字段类型及字段...

78.自然语言处理与分析(two)

摘要：接着自然语言处理与分析（one）笔者现在推荐一款在线编辑器。我就是用来写代码的。 data:text/ht...

79.中文分词算法之词典机制性能优化与测试

摘要：在之前的两篇博文中文分词算法之基于词典的正向最大匹配算法和中文分词算法之基于词典的逆向最大匹配算...

80.一个经典编程面试题的“终极”“隐退”

摘要：写下这篇文章是因为看到了一篇很有趣的技术文章：一个经典编程面试题的“隐退” 为不愿意去读原文的读者考虑，我先...

81.python nltk 统计语料的词性标注分布

摘要：import nltksent='消息/n 源/g 新浪/nz 财经/n 称/v ，/w 针对/p 今日/t...

82.jieba：简单好用的中文分词工具

摘要：首先推荐给大家一个GitHub在线学习网站， http://pcottle.github.io/learnGi...

83.NLTK之WordNet 接口【转】 – King_K

摘要：WordNet是面向语义的英语词典，类似于传统字典。它是NLTK语料库的一部分,可以被这样调用：更简洁的写法...

84.动态规划和中文分词

摘要：动态规划dynamical programming，简称dp。了解它请参考《数学之美》第12章和《算法导论》第...

85.中文分词算法之基于词典的逆向最大匹配算法

摘要：在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时...

86.Python下的中文信息处理的实现（一）

摘要：Python下的中文信息处理的实现（一）一安装和测试Python下的中文分词工具参考 http://hi...

87.基于lucene创建索引，查询索引的方式

摘要：需求：内容包括两部分，一部分为唯一标示即id，一部分为内容，要实现对内容基于lucene的检索，模拟实现基于...

88.数学之美第2章自然语言处理-从规则到统计

摘要：数学之美第2章自然语言处理-从规则到统计首先我们抛出2个问题： 1. 计算机是否能处理自然语...

89.Solr入门之（8）中文分词器配置 – 天玑

摘要：Solr 中虽然提供了一个中文分词器 , 但是效果很差 , 可以使用 IKAnalyzer 或 Mmseg4j...

90.知识图谱资料汇总

摘要：知识图谱（Mapping Knowledge Domain），也被称为科学知识图谱、知识域可视化或知识域映射地...

91.如何快速入门统计机器翻译

摘要：NLP基础：概率论，Estimation Maximization/EM 算法，语言模型（哥大Michael...

92.问问讲堂-深度神经网络语言模型在统计机器翻译系统中的应用

摘要：编者按：主要创新在于输出使用了ACE，不需要完整计算所有之和。不过文章中的很多结论还值得斟酌：比如文章中说DN...

93.问问讲堂-深度学习在NLP中的应用

摘要：编者按：介绍了Deep Learning在NLP中应用的各种方法，包括最基本的前向网络，递归神经网络，循环神经...

94.中文分词算法之基于词典的正向最大匹配算法

摘要：基于词典的正向最大匹配算法，算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。算法流程图如下：...

95.工作杂谈

摘要：         今天上网查东...

96.一个很好的php分词类库 – 拾贝壳的小男孩

摘要：最近做实验，苦于php分词的问题，从网上找了很多，但都...

97.大数据场景下主题检索应用-王晓博-百度技术沙龙48期

摘要：编者按：从VSM，LSA，PLSA介绍到LDA，介绍了一些相关的分布，训练方法上重点介绍了Gibbs Samp...

98.隐马尔可夫模型中的Viterbi算法zz

摘要：这篇文章简单描述一下Viterbi算法——一年之前我听过它的名字，直到两周之前才花了一点时间研究了个皮毛，在这...

99.Word Representations for NLP

摘要：by Joseph Turian, Lev Ratinov, and Yoshua Bengio. Code...

100.ACL 2014已接收论文列表，BBN的神作也在其中

摘要：BBN那篇提升2-3 BLEU score的神作就是其中的《Fast and Robust Neural Ne...

101.ansj贡献的NLP资源

摘要：98年人民日报半年语料 500w百度词条及下载url 281M企业名录中国人名库表 169M人名数据堂领域...

102.“分词”是理解语言的“前提”吗？

摘要：         “分词”是理...

103.五年后，你会成为什么样的人？！看过此文的人有福了！

摘要：第九届中国NLP实用心理学大会，大成演讲《用大成的眼光看世界》受到一致好评，3月15日广州，中国NLP学院创始...

104.Deep Learning for NLP 文章列举

摘要：大部分文章来自: http://www.socher.org/ http://deeplearning.sta...

105.Deep Learning for NLP (without Magic)

摘要：A tutorial given at NAACL HLT 2013. Based on an earlier...

106.会学习的智能实时机器翻译

摘要：3月10日，据科技博客网站TechCrunch报道，eBay 2013年公布了大力开拓新兴市场的计划，尤其是俄...

107.Genius 分词 3.1.1 版本发布

摘要：Genius 分词 3.1.1 版本发布本次的主要更新： 1、修复正则表达是 "^xx$"...;

108.Sanzang 1.2.0 发布，跨平台机器翻译系统

摘要：Sanzang 1.2.0 发布，此版本更新了词汇构建代码，能更有效的进行术语匹配；TextFormatter...

109.Aylien，这家来自爱尔兰的初创公司是怎么上手NLP的？

摘要：来自爱尔兰的 Aylien 是一家围绕自然语言处理（NLP）技术做事的公司，2010年创立的时候做了一款消费级...

110.统计自然语言处理基础学习笔记(7)——句法分析

摘要：在中文的自然语言处理种，句法分析是一个比较重要的部分。 ...

111.jcseg-1.9.3发布 – Java轻量级开源中文分词器-maven托管+优化

摘要：Jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口...

112.英文分词的算法和原理

摘要：根据文档相关性计算公式 TF-IDF: http://lutaf.com/210.htm BM25: http...

113.基于情感词库和PMI互信息的情感分类

摘要：     情感分类在数据挖掘领域应该是一个比较细分而且难做的部分，之前...

114.浅析聊天机器人的技术和前景 . – aofengdaxia

摘要：最近利用业余时间，团队开发了一个简单的聊天机器人雏形（ http://robot.ly863.com )。对聊...

115.利用FudanNLP进行新闻关键词提取

摘要：（转）http://blog.csdn.net/zhaoxinfan/article/details/9963...

116.FudanNLP关键词抽取

摘要：（转）http://www.cnblogs.com/no7dw/archive/2013/04/19/3030...

117.FudanNLP试玩

摘要：（转） fudannllp，一个不错的NLP开源库：http://code.google.com/p/ fud...

118.ICTCLAS 字典保存的总结

摘要：在使用ICTCLAS的时候，有一个很方便和很好的便是可以加载用户自己的词典，例如“屮艸芔茻”我们可以保存在自己...

119.机器翻译能否取代人工翻译？

摘要：有人认为，未来的机器能够精准地翻译各种语言，因此人们可以毫无障碍地交流。这是个吸引人的设想。人们再也不用费力学...

120.JavaScript: 实现简单的中文分词

摘要：中文分词在大数据横行的今天是越来越有用武之地了。它不仅被广泛用于专业的中文搜索引擎中，而且在关键词屏蔽、黑白名...

121.simhash与重复信息识别 – cofday

摘要：在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：...

122.How to generate a new dictionary file of mmseg – 邓维

摘要：How to generate a new dictionary file of mmseg 0.Usage...

123.WinHTK开发与使用三：连续语音识别

摘要：WinHTK开发与使用三：连续语音识别本文接上文，介绍连续语音识别系统设计过程，演示视频见下载资源中。二、...

124.WinHTK开发与使用二：孤立词识别

摘要：WinHTK开发与使用二：孤立词识别       ...

125.Sanzang 1.1.2 发布，机器翻译平台

摘要：Sanzang 1.1.2 发布，此版本清理了翻译表初始化代码，现在速度更快，代码更简洁；添加了 RDoc 选...

126.中文分词基本算法主要分类

摘要：基于词典的方法、基于统计的方法、基于规则的方法、（传说中还有基于理解的-神经网络-专家系统） 1、基于词典的方...

127.结巴分词 0.32 发布，Python 中文分词组件

摘要：结巴分词：做最好的Python中文分词。此次release包含以下更新： 1. 新增分词控制选项：可以关闭新...

128.自然语言处理（NLP）常用开源工具总结（转） – JueFan_C

摘要：学习自然语言这一段时间以来接触和听说了好多开源的自然语言...

129.DIY远程控制开关(tiny6410+LED+yeelink+curl) – richard.hmm

摘要：DIY远程监控室内温度设备(tiny6410+ds18b20+yeelink+curl) http...

130.DIY远程监控室内温度设备(tiny6410+ds18b20+yeelink+curl) – richard.hmm

摘要：一、目的 DIY一个可以简易的远程监控室内温度设备，实现通过web/...

131.Sanzang 1.1.1 发布，机器翻译平台

摘要：Sanzang 1.1.1 发布，此版本更新内容如下： Horizontal space formatting...

132.《数学之美》信息整合以及个人领悟

摘要：先占位，稍后慢慢更新！统计语言模型谈谈中文分词隐含马尔可夫模型在语言处理中的应用怎样度量信息? 布尔代...

133.中文分词之词性标注与关键词提取

摘要：之前发文剖析了「结巴分词」中用「DAG」和「Viterbi」算法进行中文分词的两个方案。有了前面的基础，这里再...

134.浅谈：如何写一份好简历 – 旅途√

摘要：* 没有必要撒谎写简历最差的策略就是撒谎了。这种欺骗本身就自相矛盾。你到底希望和聪明人共事呢，还是笨人呢？大...

135.物联网毕业设计——社交物联网系统的思考

摘要：偶然间看到社交物联网的概念，开始在想不同于传统物联网的一种概念，但是想不到好的思路，或许我们所思考的物联网过于...

136.舆情追踪解析工具Idibon，帮企业从大数据中读取海量用户的真实意图

摘要：人与设备交互的日益频繁、数据的日益海量化都让自然语言处理(NLP)技术备受重视，不仅Siri、Google N...

137.[微信机器人_04]自然语言处理简单实现

摘要：这篇博文中将介绍奇迹蛋自然语言处理模块的实现，自然语言处理的三个关键词：分词、建库、匹配。建库：先来看两个...

138.如何使用kenlm训练出来的模型

摘要：上次介绍了一下，如何用kenlm来训练语言模型。这次来说说如何使用kenlm训练出来的语言模型。 kenlm训...

139.浅析聊天机器人的技术和前景

摘要：最近利用业余时间，团队开发了一个简单的聊天机器人雏形（ http://robot.ly863.com )。对聊...

140.机器学习&数据挖掘笔记_25（PGM练习九：HMM用于分类） – tornadomeet

摘要：前言：本次实验是用EM来学习HMM中的参数，并用学好了的HMM对一些kinect数据进行动作分类。实验内容请...

141.使用kenlm训练语言模型

摘要：最近在研究语言模型，想自己动手训练一个语言模型，并试下效果。在网上搜集的相关的资料，常用的训练语言模型的工具，...

142.利用ikanalyzer分词

摘要：最近想研究一下word2vec，第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进...

143.中文分词入门之字标注法全文文档

摘要：将“中文分词入门之字标注法”这个系列整理成了一个PDF文档放到微盘中了，感兴趣的同学可以下载：中文分词入门之...

144.如何评价微软亚洲研究院，如今的地位如何？

摘要：怒答~~~ 其实拿到MSRA的实习机会之后进其他互联网公司也不那么容易。因为毕竟MSRA教会你的是如何做res...

145.谈基于机器智能的机器翻译

摘要：目前机器翻译路线有基于规则的传统技术，基于统计的目前技术。我的思路是基于机器智能的。我们人类翻译一篇外文时，是...

146.中文分词入门之字标注法4

摘要：上一节主要介绍的是利用最大熵工具包来做字标注中文分词，这一节我们直奔主题，借用条件随机场工具“ CRF++:...

147.Robbe-1.6.0 发布 – PHP开源中文分词扩展, GBK支持

摘要：Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展。同时支持对UTF-8/GBK编码的切分...

148.Friso-1.6.0 发布 – C语言高性能中文分词器，GBK支持

摘要：Friso是使用c语言开发的u一款开源中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以...

149.Sanzang 1.0.9 发布，跨平台机器翻译系统

摘要：Sanzang 1.0.9 发布，此版本是一个 bug 修复版本，主要是解决了内部UTF-8 和其他编码的代码...

150.浅谈MMSEG分词算法

摘要：最近看了下MMSEG分词算法，觉得这个算法简单高效，而且还非常准确作者声称这个规则达到了99.69%的准确率...

151.jcseg-1.9.2 发布 – Java开源轻量级中文分词器+里程碑版本

摘要：jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口...

152.Java笔记 – 扫描输入

摘要：在Java SE1.4之前，从文件或标准输入读取数据是一件很痛苦的事情，一般都是读一行文本，对其进行分词，然后...

153.基于boost使用Python调用NLPIR(ICTCLAS2013)中文分词组件

摘要：最近需要用到中文分词，本来想省事，用python的第三方库结巴分词，但看了下API，计算文本关键词的方法没有没...

154.[转]关于MMSEG分词算法

摘要：转自：http://hi.baidu.com/catro/item/5c76247c0ff6a9376f29f...

155.几种中文分词算法的比较

摘要：中文自然语言处理最首要的就是要中文分词了，现在而言效果最好的还是要算crf了，具体可以查看 Stanford...

156.中文分词入门之字标注法3

摘要：最近要整理一下课程图谱里的中文课程，需要处理中文，首当其冲的便是中文分词的问题。目前有一些开源的或者商用的...

157.Python中文自然语言处理类库

摘要：SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由...

158.不甘落后的雅虎收购了自然语言处理技术初创公司SkyPhrase

摘要：Siri、IBM的Watson、Google Now、微软明年也要推Cortana了，雅虎也坐不住了。该公司刚...

159.雅虎收购自然语言处理公司SkyPhrase

摘要：雅虎收购了自然语言处理公司SkyPhrase ，这是他们自今年以来完成的第23笔收购案。SkyPhrase及其...

160.为了拉拢“现代”用户，雅虎收购自然语言处理技术公司SkyPhrase

摘要：猎云网12月3日报道（编辑：辰羽）据外国科技媒体报道，雅虎已经收购自然语言处理技术公司SkyPh...

161.Friso-1.5.0 发布 – C语言高性能中文分词器 – 多配置+繁体支持

摘要：Friso中文分词器friso是使用c语言开发的一个开源中文分词器，使用流行的mmseg算法实现。完全基于模块...

162.百度网站关键词排名最终秘密之检索

摘要：百度搜索排名最重要的步骤就是检索系统涉及的过滤算法后的最终排序，这也是我们搜索关键词能看到的网页上最终排名，这...

163.自然语言处理的若干问题

摘要：一、语言模型（一） N 元语言模型（二）语言模型性能评价（三）数据平滑（四）语言模型自适应方法...

164.[NLP自然语言处理]读取UTF8字符并实现汉字和单词的识别，计算熵和KL距离 – McQueen1987

摘要：1 import java.io.BufferedReader; 2 import java.io.FileI...

165.The Stanford Parser的一个例子

摘要：The Stanford Parser挺强大的，支持中英文，用了RNN等。 import java.util....

166.编程面试题：最少插入字符；及分词问题分析

摘要：今日面试题：最少插入字符给定字符串，可以通过插入字符，使其变为回文。求最少插入字符的数量。例如： 1. ab...

167.编程面试题：分词问题；及最大乘积分析

摘要：今日面试题：分词问题给定字符串，以及一个字典，判断字符串是否能够拆分为字段中的单词。例如，字段为{hello...

168.代明：搜索引擎索引系统分析与理解

摘要：近期百度LEE在百度站长平台又一次发表关于搜索引擎工作原理的文章，文章主要是围绕搜索引擎索引系统展开，...

169.Linqapp：社会化翻译应用架起文化交流桥梁

摘要：如今，有很多了不起的新项目正在改变着我们学习语言的方式。然而，当你在旅行或者学习时，更多的情况是，你只需要一个...

170.– 月售100万so easy 浅谈爆款是怎样炼成的

摘要：你说：不谈爆款会死啊 boss说：主推款做不到同类产品前三就是失败爆款之选款：各类各界情...

171.《SEO深度解析》全书分词去重结果

摘要：使用分词工具对《SEO深度解析》全书进行了一下分词，然后删除数字和URL、去重、统计重复次数、排序后的结果，在...

172.Sanzang 1.0.5 发布，机器翻译系统

摘要：Sanzang 1.0.5 增加对 JRuby 的支持，包括使用 Java 线程实现的快速批处理，加载翻译表更...

173.中科院分词ICTCLAS5.0_JNI 使用方法

摘要：1.简介中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICT...

174.SCWS 中文分词 – 沈帅帅

摘要：配置：在 php.ini 的末尾加入以下几行：    &nb...;

175.Thrift 中以GBK传输中文字符和分词服务搭建

摘要：项目中需要将分词做成线上服务形式，服务后端用c++实现，客户端用jav...

176.计算机辅助翻译软件:“机器人助手”

摘要：【赛迪网讯】如果说计算机机器翻译技术是为翻译人员提供的“无人驾驶交通工具”的话，那么计算机辅助翻译应该算是翻译...

177.机器翻译应用渐入佳境

摘要：【赛迪网讯】随着全球化和互联网迅速发展，跨语言的网络资源不断呈几何级数增长，迅速改变着信息传播的方式，极大地刺...

178.机器翻译的崭新方法：将语言变成向量空间

摘要：机器翻译(简称“机译”)一直是科技领域的一大难题。目前基于统计机译方法的在线工具如Google翻译、Bing翻...

179.语言云：基于云计算技术中文自然语言处理服务平台

摘要：全称“语言技术平台云”（LTP-Cloud），哈工大社会计算与信息检索研究中心基于云计算技术研发的中文自然...

180.文本自动分类

摘要：使用机器学习方法做文档的自动分类套路： 1.根据每个文件生成该文件的一个特征 2.根据特征选择分类器...

181.情感分析与观点挖掘

摘要：刚看完MSRA研究员wei furu关于情感分析与观点挖掘的讲座，对这一领域有了基本了解。这一研究方向从狭义上...

182.布朗语料库中条件概率分布函数ConditionalFreqDist使用 – finesite

摘要：布朗语料库中使用条件概率分布函数ConditionalFreqDist，可以查看每个单词在各新闻语料中出现...

183.搜索引擎–Python下的分词插件 jieba 结巴分词

摘要：主机平台：Ubuntu 13.04 Python版本：2.7.4 转载请标明： http://blog.yan...

184.[原]NLTK文本分割器是如何工作的

摘要：本文翻译自： Tokenization 是把文本分割成tokens的方式。tokens可以是段落，...

185.[原]nltk中文学习资料入门提高

摘要：nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标...

186.浅谈网站关键词分词策略

摘要：关键词分词策略是每一个SEO人员必须要了解的一个知识，比如“3u推网络营销传媒”这个词我们统称把它称为长尾关键...

187.Genius：基于条件随机场算法的python分词组件

摘要：Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Rand...

188.Genius 分词 3.0.1 版本发布

摘要：本次的主要更新： 1、添加了基于正则表达式的分割和合并方法，详见library目录下的regex结尾文件。...

189.判断文章关键词堆砌的思路

摘要：关键词堆砌是一种黑帽SEO方法，是指在网页中大量重复关键词以提高关键词的密度。此类文章更像是一连串关键词的堆砌...

190.教你如何成为数据科学家（十）完

摘要：一个合格的数据科学家必须有称手的工具，不能每次都赤手空拳的去处理一堆数据。一个好的数据科学家应该有自己的工具箱...

191.PHP使用SAE(Sina App Engine)的中文分词服务提取关键字

摘要：最近有个业务需求，新闻发布的时候自动提取正文中的关键字，我用 SAE(Sina App Engine) 的...

192.谷歌矢志打破语言障碍研究自动化机器翻译

摘要：腾讯科技瑞雪 9月17日编译语言障碍是否能被打破？在谷歌 ( 微博 ) 看来，这肯定是可以做到事情。据...

193.英特尔收购自然语言处理初创公司Indisys

摘要：日前，英特尔收购了西班牙自然语言识别初创公司Indisys，其人工智能之路又向前买进了一步。虽然交易细节尚未透...

194.英特尔收购自然语言处理初创企业Indisys

摘要：今天芯片巨头英特尔的人工智能之路又向前迈进了一步，该公司刚刚收购了西班牙的自然语言识别初创企业 Indisys...

195.sizzle源码分析（3）sizzle 不能快速匹配时选择器流程 – mufc-go

摘要：如果快速匹配不成功，则会进入sizzle自己的解析顺序，主要流程如下：总结流程如下： (1)函数sizzle...

196.中文分词算法之最大正向匹配算法（Python版）

摘要：最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为正向和逆向，原理都是一样的。正向最大匹配算法，...

197.统计自然语言处理的基础学习之一

摘要：1. NLP的一些基本概念和问题计算机如何处理自然语言？理性主义：其实就是纯粹使用规则的方法处理自然语言，...

198.seo分享：简单分词规则和长尾策略

摘要：分词规则和匹配策略，其实应该说是SEOer需要了解的基础知识了，举个简单的例子吧。“济南品脉木工雕刻机”这个词...

199.NLP的两种工具的java版使用：复旦FudanNLP，中科院计算所ICTCLAS2013 – 木木璐

摘要：编程语言：java 三种工具的简要介绍： FudanNLP google project上的介绍是： Fuda...

200.竞价关键词数量越多越好吗？

摘要：百度竞价关键词数量越多越好吗?这个问题之前很多做竞价的企业问我，今天查洪江就以文字形式和大家一起探讨这个问题。...

201.百度NLP成绩斐然技术驱动产品受赞誉

摘要：近年来，NLP(Natural Language Processing)作为计算机领域的热门研究学科方兴未艾，...

202.[原创]中文分词器分词效果的评测方法

摘要：转载请注明出处： http://www.codelast.com/ 现在有很多开源的中文分词器库，如果你的项目...

203.【翻译练习】指导英语学习者如何阅读

摘要：相关推荐：闲话翻译腔（兼谈点儿英语学习） – kylexlau R...

204.TF-IDF：传统IR的相关排序技术（二）

摘要：既然是二，就是顺着上一篇文章《TF-IDF：传统IR的相关排序技术》写下来的。所以，有兴趣的同学请先看完第...

205.CRF(Conditional Random Field) – huashiyiqike

摘要：条件随机场是近几年自然语言处理领域常用的算法之一，常用于句法分析、命名实体识别、词性标注等。在我看来，CRF就...

206.Go语言中文分词sego代码学习（2）—前缀树

摘要：按照作者写的文档，sego的词典是以前缀树（英文名为Trie）的方式组织的。说实在的，由于一直没有静下心来学习...

207.机器学习&数据挖掘笔记_13（用htk完成简单的孤立词识别） – tornadomeet

摘要：最近在看图模型中著名的HMM算法，对应的一些理论公式也能看懂个大概，就是不太明白怎样在一个具体的机器学习问题（...

208.视频演讲：自然语言处理如何落地互联网

摘要：个人简介李志飞，出门问问CEO，自然语言处理专家，博士毕业于美国约翰霍普金斯大学，是国际学术界主流开源机器...

209.视频演讲：互联网上NLP技术及其应用

摘要：个人简介吴华，中国科学院自动化所博士，现任百度主任研究员，百度自然语言处理技术负责人。吴华负责过多项机器翻译...

210.Go语言中文分词sego代码学习（1）

摘要：从大二下开始下定决心当程序员，到现在毕业工作两个月，我一直都不敢称自己是程序员，软件工程师就不敢自称了。很弱很...

211.自然语言处理之句法分析概述（一） – 宋鹏举

摘要：有段时间没写文章了，今天简要普及一下自然语言处理中的句法分析，你懂的。闲言少叙，直表正题，我是宋鹏举。 + 句...

212.自然语言处理如何落地互联网-李志飞-百度技术沙龙41期

摘要：编者按：出门问问的分享，比较推崇google SMT，较多的是机器翻译的基本理论介绍，作为机器翻译入门了解的S...

213.技术人，你的简历够技术么？ – ssrenttwu

摘要：昨天写了些应届毕业生简历的常见问题，很多人觉得我太苛刻，觉得对应届生要求有点高；有的觉得看了后还是不会写。那...

214.汉字的未来

摘要：有人这么说：明祝枝山擅行草，写过气势磅礴的《洛神赋》，由此获明朝“第一草书”之誉。千年后，祝枝山的第N代后人，...

215.Facebook收购语音识别和机器翻译创业公司Mobile Technologies

摘要：今天Facebook 收购了语音识别和机器翻译创业公司Mobile Technologies的团队和技术，收...

216.盘古分词–功能简介 – 明永成

摘要：盘古分词–功能简介作者:eaglet      两年前我...

217.敬畏之心

摘要：最近在读两个人的著作，一个是冯唐，一个是吴军。喜爱文学的人应该对冯唐不陌生，当年韩方大战时，冯唐及时抛出文学...

218.用Java实现的中文 trie 算法，用于中文分词，和替换关键字

摘要：package com.helper; import java.util.ArrayList;import j...

219.使用Python,字标注及最大熵法进行中文分词

摘要：2002年以前，自动分词方法基本上基于词（或词典）的，在此基础上可以进一步分成基于规则和基于统计两大类。同时...

220.面向商业应用的机器翻译技术(图)

摘要：【赛迪网讯】作者介绍： Jaap van der Meer先生是国际翻译自动化用户协会（TAUS）创始人和现...

221.java简单实现季节，性别分词处理

摘要：淘宝里面，每个宝贝都有一个标题，根据标题来分词，区分出季节和性别，分别写了两个方法，供大家参考。 public...

222.[原]对英文单词的词性标注

摘要：1.前言最近的一个项目有个需求是这样的，需要从一篇英文文章或者一段英文文字中提取...

223.对英文单词的词性标注

摘要：1.前言最近的一个项目有个需求是这样的，需要从一篇英文文章或者一段英文文字中提取...

224.结巴分词 0.31 发布，Python 中文分词组件

摘要：结巴分词：做最好的Python中文分词。此次release包含以下更新： 1. 修改了代码缩进格式，遵循PE...

225.Dakwak：帮你把产品卖到全球去，第一步是突破语言障碍

摘要：不少创业公司致力于打破互联网上的语言障碍。我们此前报道过的 Duolingo 是通过促进语言学习和众包的方式用...

226.Sanzang 1.0.4 发布，机器翻译系统

摘要：Sanzang 1.0.4 的翻译现在可以缓冲，通过使用很有限的内存来大大提升了性能；大大提升了平台的支持和多...

227.利用新词统计特征进行中文分词

摘要：目前中文分词的一般做法是将分词当作序列标注问题来处理，这种做法首先标注好一批训练语料，然后用统计模型进行训练和...

228.python中文分词器pymmseg的安装实录 – 无忌小伙

摘要：最近在用python做爬虫项目，感受到了python的强大，这期间要试试python的文本处理，要用到中文分词...

229.测试数据 – 蒋叶湖

摘要：论文标题和摘要信息，数据行数 400 万行，数据大小2.6GB 测试环境 Intel Core2 Duo T7...

230.SDL 发布全新在线翻译网站 SDL FreeTranslation

摘要：全球客户体验管理领先企业 SDL (LSE: SDL) 正式在中国市场发布全新的在线翻译网站 SDL Free...

231.0-4评价一个语言模型Evaluating Language Models:Perplexity – createMoMo

摘要：有了一个语言模型，就要判断这个模型的好坏。现在假设：我们有一些测试数据，test data.测试数据中有m...

232.0-3为变长序列建模modeling variable length sequences – createMoMo

摘要：在本节中，我们会讨论序列的长度是变化的，也是一个变量 we would like the length of...

233.0-0自然语言处理介绍 – createMoMo

摘要：【根据公开课的讲义整理】自然语言处理如这个图中所表示的。作为一台计算机，要理解我们人类的语言。也就是unde...

234.windows下编译安装htk – ldjhust

摘要：     HTK（HMM Toolkit）一款基于hmm模型的语音处理...

235.隐马可夫模型：探索看不到的世界的数学工具

摘要：这篇要讨论的可不是哲学议题，而是希望以一个“数学工具”的角度来看隐马可夫模型（Hidden Markov Mo...

236.jcseg-1.8.7版本发布 – 多配置适应+完整开发帮助文档

摘要：jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jc...

237.ictcals中文分词添加用户词典功能说明

摘要：对于上篇博客的标题，其实内容也就是添加用户词典。我使用的是java版本调用dll。在这里重写一篇博客是为了说明...

238.【每日一博】使用 IKAnalyzer 分词计算文章关键字

摘要：    这应该是我第二次写IK中文分词的相关东西了。话说IK真心好用...

239.百度翻译背后的女科学家：吴华博士

摘要：吴华博士印象初见吴华博士，你会为她温柔舒雅的风范吸引。略带南方口音纤软的声调，亲切随性的笑容，让人感觉容易接...

240.结巴分词 0.30 发布，Python 中文分词组件

摘要：Chagelog: 2013-07-01: version 0.30 ====================...

241.盘古分词的用法 – cqlp

摘要：没事看了下盘古分词,用自己的实例看下基本写法吧     PanGu.Match....

242.jcseg-1.8.6发布 – java开源中文分词组建

摘要：关于jcseg 1.8.6版本: 1. 修复些许词条(些许词库在切分过程中会进入中文数字识别程序中,...

243.【科普随笔：NLP主流的傲慢与偏见】

摘要：上篇博文【科普随笔：NLP的宗教战争？兼论深度学习】匆匆写就发出以后，没想到在新浪微博上一夜间有好几万点击，而...

244.【NLP主流最大的偏见，规则系统的手工性】

摘要：【科普随笔：NLP主流的傲慢与偏见】中的第一条是：【偏见一】规则系统的手工编制（hand-crafted）...

245.基于Tire树和最大概率法的中文分词功能的Java实现

摘要：对于分词系统的实现来说，主要应集中在两方面的考虑上：一是对语料库的组织，二是分词策略的制订。 1. ...

246.语音识别技术简介

摘要：1 自动语音识别简介语音识别技术，也可以称为自动语音识别（ Automatic Speech Recogni...

247.NLTK之WordNet 接口 – jihite

摘要：WordNet是面向语义的英语词典，类似于传统字典。它是NLTK语料库的一部分,可以被这样调用： ...

248.漫谈 HMM：Kalman/Particle Filtering

摘要：上次我们讲了 HMM 的 Forward-Backward 算法，得到了关于 $\alpha$ 和 \(...

249.robbe-1.1发布 – 高性能php中文分词扩展

摘要：robbe是建立在 friso 上的一款高性能中文分词组件, 分词准确率达98.4%, 简易模式分词速度: 3...

250.PHP 魔术方法之__set__get__unset__isset

摘要：魔术方法: 是指某些情况下,会自动调用的方法,称为魔术方法 PHP面向对象中,提供了这几个魔术方法, 他们的特...

251.friso-1.1发布 – 优化+同义词匹配+停止词过滤

摘要：friso是使用C语言开发的一款高性能分词组件, 并且提供了一个php分词扩展: robbe friso 1....

252.如何实现推荐类似文章功能

摘要：我最近在调整我们网站 GuruDigger 的类似文章推荐功能。原先的类似文章推荐是基于用户自己打的标签，而...

253.中科院分词系统 ICTCLAS2013 添加新词功能

摘要：最近使用ictclas2013版，又名NLPIR汉语分词系统。在分词过程中，总会出现...

254.开源：国内首款完全由国人自主研发的开源云平台 BDC 4.0 — 新增了云索引、云检索、云中文分词

摘要：开源：国内首款完全由国人自主研发的开源云平台 BDC 4.0 —&n...;

255.信息检索导论学习笔记（2）——词项词典及倒排记录表

摘要：回顾构建倒排索引的主要步骤收集待建索引的文档对这些文档中的文本进行词条化对第二步产生的词条进行语言学处理...

256.改进Single-Pass聚类算法的实现（包括分词、tfidf计算、卡方检验特征选择）

摘要：//热点话题发现的预处理，生成单词表，tdidf向量的值package test;import java.io...

257.如何计算两个文档的相似度（三）

摘要：上一节我们用了一个简单的例子过了一遍 gensim 的用法，这一节我们将用课程图谱的实际数据来做一些验证...

258.结巴分词 0.29 发布，Python 中文分词组件

摘要：从0.28版本以后的Changelog如下： 2013-06-07: version 0.29 =======...

259.【转】自然语言处理（NLP）网上资源整理

摘要：最近把一些在网上见到的自然语言处理的资源整理了一下，包括论文列表、软件资源和一些实验室主页、个人主页等，希望能...

260.智能聊天机器人小黄鸡及其制作方法

摘要：讲前先预热一下，如果有还不熟悉小黄鸡的亲~欢迎大家戳这里http://mysimi.sinaapp.com/&...

261.【NLP新闻-2013.05.15】How Google is setting the new search standard with voice and knowledge graph

摘要：注：本人翻译NLP新闻只为学习专业英语和扩展视野，如果翻译的不好，请谅解！ Google’s search c...

262.【语言处理与Python】11.3数据采集

摘要：从网上获取数据我们讨论过访问单个文件，如RSS订阅、搜索引擎的结果。 1、有的时候，还需要大量的WEB文本。...

263.【语言处理与Python】10.5段落语义层

摘要：段落是句子的序列。段落表示理论一阶逻辑中的量化标准方法仅局限于单个句子,但是有的量词的范围是可以扩大到两个...

264.【语言处理与Python】10.3一阶逻辑

摘要：这一节，通过翻译自然语言表达式为一阶逻辑来表示它们的意思。并不是所有的自然语言语义都可以用一阶逻辑来表示。...

265.人工智能与机器翻译研讨会

摘要：语智云帆团队、中科院计算所骆卫华博士、资深职业翻译娄东来先生活动主持北京大学MTI教育中心王华树老师关键...

266.ACL2013国内研究机构大致列表

摘要：Full Long Paper 机构作者论文题目西安交通大学 Zhenhua Tian, Henghen...

267.【语言处理与Python】8.5依存关系和依存文法\8.6文法开发

摘要：短语结构文法是关于词和词序列如何结合起来形成句子成分的。依存文法是一个独特的和互补的方式，集中关注的是词...

268.【语言处理与Python】8.5依存关系和依存文法\8.6文法开发

摘要：短语结构文法是关于词和词序列如何结合起来形成句子成分的。依存文法是一个独特的和互补的方式，集中关注的是词...

269.【语言处理与Python】8.2文法有什么用？\8.3上下文无关文法\8.4上下文无关文法分析

摘要：8.2文法有什么用？超越n-grams 用bigrams中的频率信息生成句子，短的时候可以接收，但是长的时候...

270.【语言处理与Python】8.2文法有什么用？\8.3上下文无关文法\8.4上下文无关文法分析

摘要：8.2文法有什么用？超越n-grams 用bigrams中的频率信息生成句子，短的时候可以接收，但是长的时候...

271.【语言处理与Python】7.5命名实体识别/7.6关系抽取

摘要：7.5命名实体识别（NER）目标是识别所有文字提及的命名实体。可以分成两个子任务：确定NE的边界和确定其类...

272.【语言处理与Python】7.3开发和评估分块器

摘要：读取IOB格式与CoNLL2000分块语料库 CoNLL2000，是已经加载标注的文本，使用IOB符号分块。...

273.【语言处理与Python】7.2分块

摘要：实体识别的基本技术是分块（chunking）名词短语分块（NP-分块）这里有一段已经标注的例子：方括号中...

274.【语言处理与Python】6.4决策树/6.5朴素贝叶斯分类器/6.6最大熵分类器

摘要：6.4决策树决策树是一个简单的为输入值选择标签的流程图。这个流程图由检查特征值的决策节点和分配标签的叶节点...

275.【语言处理与Python】6.1有监督分类

摘要：模式识别是自然语言处理的一个核心部分。 6.1有监督分类分类：是为给定的输入选择正确的类标签任务。有监督分...

276.【语言处理与Python】5.5N-gram标注

摘要：一元标注（Unigram Tagging）一元标注基于简单的统计算法，对每个标识符分配这个独特的标识符最有可...

277.【语言处理与Python】5.4自动标注

摘要：在这里有不同的方式来给文本自动添加词性标记。一个词的标记，要依赖于这个词和它在句子中的上下文。所以：我们将...

278.【语言处理与Python】5.3使用Python字典映射词及其属性

摘要：字典数据类型（其他编程语言可能称为关联数组或者哈希数组）索引链表VS字典（略） Python字典 #初始化一...

279.哥伦比亚大学自然语言处理公开课授课讲稿翻译（三）

摘要：前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，...

280.哥伦比亚大学自然语言处理公开课授课讲稿翻译（二）

摘要：前言：心血来潮看了一个自然语言处理公开课，大牛柯林斯讲授的。觉得很好，就自己动手把它的讲稿翻译成中文。一方面，...

281.【语言处理与Python】3.7用正则表达式为文本分词

摘要：分词是将字符串切割成可识破的构成一块语言数据的语言单元。分词的简单方法 raw = ""...

282.举例说明如何用IKAnalyzer实现在android应用程序上面的中文分词

摘要：我用的jar包及其版本为：IKAnalyzer2012_u6.jar、lucene-analyzers-3.6...

283.【语言处理与Python】2.4词典资源

摘要：词典或者词典资源是一个词 / 或短语以及一些相关信息的集合，例如：词性和词意定义等相关信息。一个词项包括词目...

284.python 结巴分词(jieba)学习

摘要：源码下载的地址：https://github.com/fxsjy/jieba 演示地址：http://jieb...

285.姜东栋：搜索引擎的中文分词技术详细分析

摘要：    有人在SEO（搜索引擎优化）QQ群里面问我什么是中文分词，鉴于...

286.张遂华：一篇关于百度中文分词的研究论文

摘要：    对于网站优化人员，必须理解什么是中文分词，分词技术是研究搜索引...

287.【语言处理与Python】2.1获取文本语料库

摘要：古藤堡语料库（电子文本档案经过挑选的一小部分文本） # 语料库中所有的文件 Import nltkNltk.c...

288.php 中文分词PSCWS4使用说明

摘要：分词的这个技术，挺重要的，在有些方面起着非常重要的作用，这里摘自一博友的文章 PSCWS4 类对应的文件为 p...

289.最大熵模型学习，复制别人的

摘要：最大熵模型（Maximum Entropy Model）是一种机器学习方法，在自然语言处理的许多领域（如词性标...

290.分享一个PHP中文分词,一定要看（13亿人看完都感动了^_^!!!）

摘要：<?php/** * 中文分词处理方法 *+------------------------------...

291.【问题和解决《NLTK PYTHON》自然语言处理中文翻译版中的一处代码错误

摘要：    我也是一名NLP的新手，导师给了我们入门的学习资料，便是《Natural...

292.【问题和解决】NLTK was unable to find the prover9 file!

摘要：其实，出现这个问题很简单。会有三种可能： 1、没有安装Prover9。你可以根据这个链接进行下载：http:/...

293.漫谈 HMM：Forward-Backward Algorithm

摘要：上一次我们介绍了 HMM 模型以及它相关的三个 Task，这一次我们来介绍一下第一个 Task，也就是 Sc...

294.通过百度快照浅析中文分词和百度排名

摘要：很多站长抱怨百度算法反复无常，排名忽上忽下，鲜少有人去仔细的研究和分析百度排名背后的意义。小生就先来抛砖引玉...

295.信息检索资源参考

摘要：基础： Introduction to Information Retrieval_irbookprint m...

296.机器学习 — 5. 大内密探HMM(隐马尔可夫)围捕赌场老千

摘要：1. 赌场风云(背景介绍) 最近一个赌场的老板发现生意不畅，于是派出手下去赌场张望。经探子回报，有位大叔在赌场...

297.一种没有语料字典的分词方法

摘要：前几天在网上闲逛，看到一篇美文，说的是怎么在没有语料库的情况下从文本中提取中文词汇，理论部分讲得比较多，但都还...

298.基于MMSeg算法的中文分词类库

摘要：最近在实现基于lucene.net的搜索方案，涉及中文分词，找了很多，最终选择了MMSeg4j，但MMSeg4...

299.中文分词算法代码大全

摘要：相关推荐：中文分词算法代码大全 – – 鲁塔弗的博客做...

300.NLP 学习笔记 05 (Brown Clustering && Global Linear Models)

摘要：=======================================================...

301.漫谈 HMM：Definition

摘要：坊间有流传过这么一段《胡适留学日记》： 7月4日 : 新开这本日记，也为了督促自己下个学期多下些苦功。先要读完...

302.谷歌收购新闻应用Wavii：整合自然语言处理技术

摘要：北京时间 4 月 29 日午间消息，谷歌上周六宣布，该公司已经收购了新闻阅读应用开发商 Wavii。虽然双方均...

303.中科院分词ictclas2013使用java调用

摘要：中科院ictclas2013版分词系统，现在改为NLPIR汉语分词系...

304.ICTCLAS中文分词教程

摘要：1.ICTCLAS简介在中文分词领域ICTCLAS是做的相当好的，官网上号称是： ictclas 全球最受欢...

305.结巴分词 0.28 发布，Python 中文分词组件

摘要：2013-04-27: version 0.28 模块初始化机制的改变:lazy load =========...

306.Google收购擅长自然语言处理的新闻摘要服务Wavii！

摘要：我们知道 Yahoo! 上个月才收购了新闻摘要服务 Summly，现在 Google 也做了类似的收购：Tec...

307.Google以3000多万美元买下自然语言处理公司Wavii，助力知识图谱的下一步发展

摘要：Google终于以超过3000万美元的价格拿下了Wavii，后者是一家自然语言处理公司，与不久前被 Yahoo...

308.python中文分词统计（词频分析）

摘要：”’ import sys reload(sys) sys.setdefa...

309.条件随机场(CRF — Conditional Random Fields)的C++库收集

摘要：FlexCRFs: Flexible Conditional Random Fields FlexCRFs i...

310.庖丁分词的大Bug

摘要：被这个问题折腾了好几个星期。之前以为是Solr和庖丁搭配才会出现这个问题。今天终于定位到了问题所在，是庖丁自己...

311.开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万，10万字文章分词并计算频率不超过1秒

摘要：开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万...

312.NLP 学习笔记 05 (Log-linear Models)

摘要： ====================...

313.结巴分词 0.27 发布，Python 中文分词组件

摘要：本次release的主要更新： 1) 新增并行分词功能，可以在多核计算机上显著提高分词速度 2) 修正了“的”...

314.Apache OpenNLP 1.5.3 发布

摘要：OpenNLP 是一个机器学习工具包，用于处理自然语言文本。支持大多数常用的 NLP 任务，例如：标识化、句子...

315.NLP方向最好的几所大学

摘要：NLP impact factor: very high Notable NLP faculty: Phili...

316.计算机自然语言处理

摘要：图书描述出版日期: 2005年4月1日计算机自然语言处理技术在我国现代化及信息化建设中起着越来越重要的作用...

317.TreeSplitter—树形分词算法

摘要：注：思路不是原创，首先感谢思维的突发奇想者 ...;

318.民营医院推广之问答营销技巧

摘要：做百度知道之前首先要目标明确，你是想推哪个关键词，与其他平台推广一样，百度知道也是推关键词，推排名，有些不包含...

319.What Is Panasonic Led Lcd Television 42 Inch

摘要：To be able to offer long haul solution lifecycle stabil...

320.Directv Remote Device Coding

摘要：The delivery service was supposed to connect it up and...

321.ICTCLAS2013 的使用方法

摘要：这个工具是什么？先看看他的官方介绍吧： NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文...

322.使用继续完善前人写的文章：使用ICTCLAS JAVA版（ictclas4j）进行中文分词

摘要：一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐码...

323.用动态规划和语言模型进行分词和词性标注

摘要：词性标注：输入：句子W=w 1 w 2 …w n 以及每个w i 可能的pos(假设每个w都有K...

324.NLP 学习笔记 04 (Machine Translation)

摘要：all is based on the open course nlp on coursera.org &nb...;

325.利用srilm构建大语言模型

摘要：原理上，语言模型模型越大，机器翻译质量越好，但是当语言模型的训练集非常大时，例如GB级别的时候，受限于时间和机...

326.结巴分词 0.26 发布，Python 中文分词组件

摘要：本次的主要更新： 1) 改进了对标点符号的处理，之前的版本会过滤掉所有的标点符号; 2) 允许用户在自定义词典...

327.用mysql数据库写的分词算法代码

摘要：我辛苦的整了几天才整好的拿来给大家分享一下希望可以帮助大家以下分为四步：每步都有注释说明的 #region...

328.词云可视化——中文分词与词云制作

摘要：    近日在微博上大家都在问《个性化词云》制作方法。下面简单介绍实现步骤和思...

329.《数学之美》–读书感想

摘要：    很早之前就买了《数学之美》这本书，当时到书店...

330.[收藏]最近看到的机器学习、NLP相关书单

摘要：书单再多，不去读，也是白搭~~ 水木上的machine learning书单： http://www.news...

331.IKAnalyzer和Ansj切词Demo

摘要：IKAnalyzer IKAnalyzer是一个开源的...

332.NLP 学习笔记 03 (Probabilistic Context-Free Grammars (PCFGs))

摘要：最近一周有些拖沓，静下来把第3,4周的笔记写了这两周的主题都是PCFGs，不过从浅到深，逐层深化罢了，所以题...

333.NLP中文信息处理—正向最大匹配法分词

摘要：弄了几天正向最大匹配法分词，终于弄完了吧。Python写的。Python确实是一门好语言，写起来很简单、顺手。...

334.基础果然要牢记（一次失败的电面）

摘要：果然又是一个悲剧的面试，不是上次笔试的悲剧，这次又以面试的悲剧结束。设计的主要问题...

335.paoding 中文分词学习一，环境搭建

摘要：因为毕业设计需要用到中文分词这个功能，自己写分词软件？简直是天方夜谭。查了一下比较通用的分词软件，最后选择了...

336.NLP Job-缘起

摘要：注：建立了一个自然语言处理&机器学习相关领域的求职博客“ NLP Job “, 定位“关注自然语言处理...

337.使用HMM实现简单拼音输入法

摘要：之前写过一篇使用语言模型进行中文分词的博客，本篇在之前写的语言模型的基础上，通过隐马尔科夫模型实现简单的拼...

338.NLP 学习笔记 02 (Tagging Problems, and Hidden Markov Models)

摘要：(all content based on the coursera course nlp ) &...

339.c++ 中文分词介绍

摘要：本文不是专业的介绍中文的知识，只是由于项目上可能需要中文分词，在网上找了一些资料，再次记录一下。主要参考网站...

340.NLP 学习笔记 01

摘要： coursera上MichaelCollins的课程 n...

341.Python分词模块推荐：结巴中文分词

摘要：就是前面说的中文分词，这里需要介绍的是一个分词效果较好，使用起来像但方便的Python模块：结巴。一、结巴中...

342.N-Gram的数据结构

摘要：ARPA的n-gram语法如下： \data\ngram 1=64000ngram 2=522530ngram...

343.ARPA的n-gram语言模型格式

摘要：先看一下语言模型的格式 \data\ngram 1=64000ngram 2=522530ngram 3=17...

344.挨踢民工如何写个好简历

摘要：昨天写了些应届毕业生简历的常见问题，很多人觉得我太苛刻，觉得对应届生要求有点高；有的觉得看了后还是不会写。那么...

345.再说中文分词技术

摘要：一、什么是中文分词众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连...

346.笨办法学习Python第十九天

摘要：春节中一直处于忙碌的状态，白天和夜晚颠倒，不知道是什么时间，初次步入大叔行列，手忙脚乱不知所错啊！节后，能利用...

347.结巴分词 0.25 发布，Python 中文分词组件

摘要：年后第一发,此次更新如下： 1）支持繁体中文的分词 2）修正了多python进程时生成cache文件失败的bu...

348.HTK数据准备工具-HLStats

摘要：HLStats相对工具比较简单，主要是从输入的HMM列表和一系列的标签文件中进行统计工作，可以帮助我们分析声学...

349.HTK的使用方法

摘要：一，HTK目录结构 htk是一个开源的软件，解压之后的目录如下： #...

350.iOS编程技巧总结之语音篇（原创）- OpenEars框架及其使用2

摘要：继续上面的内容。 5. 如何在自己的应用中添加离线语音识别功能看了 OpenEarsSampleApp 这个...

351.更好的中文分词包Rwordseg发布

摘要：李舰（@lijian001）发布了新的中文分词包Rwordseg。该包引用了 @ansj 开发的a...

352.我不看好科大讯飞股价的六点理由

摘要：来源：雪球作者：独立财经分析师近几个月来，资本市场对于科大讯飞未来的发展前景充满了期待，特别是在“中国移...

353.【北大天网搜索引擎TSE学习笔记】第7节——中文分词

摘要：   这一节将介绍搜索功能入口程序TSESearc...

354.开源的机器翻译系统

摘要：   本文介绍了统计机器翻译领域中一些重要的开源软件，包括词语对齐工具、语言模型...

355.有价值的NLP数据集

摘要：Bibliometric and Survey Generation ACL Anthology Networ...

356.过去30年历年ACL引用次数最多的文章

摘要：源地址：http://linguification.wordpress.com/2010/12/29/para...

357.【北大天网搜索引擎TSE学习笔记】第5节——准备数据

摘要：上一节对搜索功能的入口程序TSESearch.cpp的main函数做了介绍，对搜索功能的实现的流程...

358.机器翻译系统的搭建

摘要：机器翻译系统的搭建（NLP@NJU 潘林林） 1 实验目的     ...

359.【北大天网搜索引擎TSE学习笔记】第4节——实现搜索功能的入口程序

摘要：上一节中说到，TSESearch.cpp是实现搜索功能的入口程序，这一节将分析TSESearch....

360.上海R用户沙龙会议纪要（Jan 20, 2013 @联合创业办公社）

摘要：冬日的阴霾还没有完全散去，而温度却也在悄然的回升。周末的下午，相聚在极富小资情调的沙龙，也不失为一种打磨时光的...

361.隐马尔科夫模型及其扩展

摘要：马尔科夫过程可以看做是一个自动机，以一定的概率在各个状态之间跳转。考虑一个系统，在每个时刻都可能处于N个状态...

362.现有的机器翻译结果烂到没法看！看“语智云帆”打算如何用翻译私有云等技术解决问题

摘要：图片源自网络在“全球化是大势所趋”的背景下，许多企业要应对的不仅是来自全球的行业内竞争，同时也需要为全球的用...

363.转：关键词抽取（keywords extraction）的相关研究

摘要：现有上线的关键词提取算法 1. 语言特征+位置特征，如标题中的名词 2. 对正文+标...

364.跟我一起玩Win32开发（5）：具有单选标记的菜单

摘要：帅哥们，美女们，下午好，我又来误人子弟，请做好准备。今天，我们的目的是，想要实现下图中的这种菜单效果。就是...

365.（转）yangliuy：概率语言模型及其变形系列 (2)

摘要：1 LDA概要 LDA 是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型，...

366.基于统计的中文分词(完善中…)

摘要：分词方法目前的分词方法归纳起来有3 类: 第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法...

367.15岁学生开发阅读应用产品算法拥有更大发展空间

摘要：腾讯科技讯（汤姆）北京时间1月10日消息，据国外媒体报道，15岁，通常是一名少年刚刚进入人生高中阶段的时候，...

368.利用统计进行中文分词与词性分析

摘要：今天，翻出了我以前在本科阶段写的一些论文，虽然有几篇没有发表。突然发现很多还是比较实用，虽然学术价值并不是很大...

369.新手学信息检索2：倒排表与存储

摘要：这篇就说一个信息检索里面理解最简单的一个东西吧，它就叫做倒排表或者倒排索引。但是这只是个名字，我想大家都知道它...

370.基于熵的回退语言模型剪枝

摘要：本论文中介绍了如何对语言模型进行剪枝，是该方面的经典论文，之前翻译的语言模型词典优化的论文中对抽取出的新词...

371.中文分词的资源收集

摘要：分类： NLP方面资源集 2013-01-05 20:33 4人阅读本文转载自：CSDN博客...

372.NLTK学习笔记

摘要：学习参考书： http://nltk.googlecode.com/svn/trunk/doc/book/ 1...

373.借力PSCWS实现PHP中文分词

摘要：require ‘ pscws4.class.php ‘ ; $cws...

374.网站优化中的分词技术

摘要：中国IDC圈12月31日报道：研究分词技术的主要目的在于,我们在优化一个网站时,不要老把眼睛盯在你的核心关键词...

375.15岁天才少年，开发基于自然语言处理的新闻应用Clipped

摘要：每天世界上发生了什么事情？我们每个人都有自己的途径去获得自己感兴趣的信息，但是这种获取过程却并不一定是令人满意...

376.技术将推动业务发生根本性的变革

摘要：2016年，您的业务将会有什么不同？ Ambrose McNevin, December 19 th , 20...

377.中文语言模型的词典优化

摘要：近期在弄语言模型的一些东西，这篇论文感觉不错,介绍了语言模型里词表自动生成的知识。故翻译一下，加深对论文的理解...

378.NLP 的應用：PAN 2013

摘要：兩個禮拜前在 Slashdot 上看到的「 When Writing, How Anonymous Can Y...

379.结巴分词 0.24 发布，Python 中文分词组件

摘要：结巴分词：做最好的中文分词组件 0.24版的更新如下： 1) 解决了没有标点的长句子分词效果差的问题。问题在于...

380.统计自然语言处理基础学习笔记(6)——马尔可夫模型

摘要：前面已经学习完词法，现在就可以学习语法了。语法学习中比较常用的是马尔可夫模型，然后进行词性标注，接着采用概率上...

381.中文分词的原理与实践

摘要：中文分词问题是绝大多数中文信息处理的基础问题，在搜索引擎、推荐系统（尤其是相关主题推荐）、大量文本自动分类等方...

382.浅谈中文文本自动纠错在影视剧搜索中应用与Java实现

摘要：1.背景：这周由于项目需要对搜索框中输入的错误影片名进行校正处理，以提升搜索命中率和用户体验，研究了一下中...

383.用HTK搭建语音识别器实录(TIDigits数据库)

摘要：TIDIGITS 数据库包含 11 个孤立数字，分别为 one,two,three,four ,five,si...

384.[pydemo] 开发日记4

摘要：昨天和延毅聊了下，说了我的思路，他也指出我建索引的速度会很慢，恩，那么今天我决定重写建索引的代码，也优化下存储...

385.淘宝搜索优化能够走多远

摘要：仔细观察淘宝搜索的“曝光率”维度，我们发现，在符合淘宝规则、与淘宝搜索利益一致的前提下，存在着巨大的“技术性”...

386.利用python对新浪微博用户标签进行分词并推荐相关用户

摘要：新浪微博的开放平台的开发者日益活跃，除了商业因素外还有很大的一股民间...

387.即刻与百度中文分词技术的不同策略

摘要：速途网讯如今互联网上的信息在飞速增长，使搜索引擎成为人们查找信息的首选工具，在Google推出中国后、让国内...

388.结巴分词 0.23 发布，Python 中文分词组件

摘要：结巴分词：做最好的中文分词组件 0.23版主要修复了之前版本不能识别中英混合词语的问题。由于之前的版本在&q...;

389.WhatAnalyzer开源分词项目参与方法（二）

摘要：1.安装Egit插件，插件地址： http://download.eclipse.org/egit/updat...

390.[原]WhatAnalyzer开源分词项目参与方法（三）

摘要：1.回到你自己的仓库界面，例如 https://github.com/xxxxxxxxxxx/WhatAnal...

391.WhatAnalyzer开源分词项目参与方法（一）

摘要：分类：搜索引擎 j2ee 2012-12-05 14:35 45人阅读本文转载自：独自登高楼望断天涯路...

392.[原]The culture of Statistic Learning

摘要：在MIT 150周年庆的 Brains, Minds, and Machines 研讨会上， P...

393.结巴分词 0.22 发布，Python 中文分词组件

摘要：结巴分词: 做最好的Python中文分词组件:-) 此次0.22版主要包含两个更新： 1）新增jieba.c...

394.Trie Tree（字典树）服务

摘要：作者：Tony Qu 前言：在数据挖掘领域，.NET基本上是空白，除了分词程序外，啥都没有，大量的招聘显示数据...

395.结巴分词 0.21 发布 python 中文分词组件

摘要：结巴分词：做最好的Python中文分词组件:-) jieba 0.21 主要包含以下两点更新： 1）修复了全模...

396.boost tokenizer

摘要：tokenizer: tokenizer库是一个专门用于分词(token)的字符串处理库,可以使用...

397.微软研究院和计算的演变：语音机器翻译实时演示

摘要：里克·雷斯特在“21世纪的计算大会”上的主题演讲：微软研究院和计算的演变演讲人：Rick&nb...;

398.HTK在windows下的配置说明

摘要：         本文档意在详...

399.搜索引擎的那些事（中文分词）

摘要：【声明：版权所有，欢迎转载，请勿用于商业用途。联系信箱：feixiaoxing @163.co...

400.RQNOJ 598(用b记录元素是否在队中）

摘要：查看题目 Show Problem 题目:机器翻译问题编号:598 题目描述小晨的电脑...

401.微软研究院 NUI 新进展：实时语音机器翻译

摘要：微软首席研究官 Rick Rashid 博士在天津举办的“ 21 世纪的计算 – 自然而然 ”会议上展示了他们...

402.Java中文分词器Ansj

摘要：Java中文分词器Ansj Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文...

403.微软研究院打通语音机器翻译通往同声传译穴位

摘要：往往在大型的国际会议中，经常会因为不同国家参会者语言不通而必须由同声传译者进行即时的翻译和传达，但这种方式因为...

404.微软研究院最新成果：即时语音翻译可达到同声传译水平

摘要：微软公司今日在视频网站YouTube上发布一段发布会视频，展示了目前微软研究院所即时语音翻译系统的最新研究成果...

405.利用百度分词原理设置网站首页标题

摘要：网站首页标题（Title）是网站SEO中最重要的部分了。百度已经多次申明Keywords和Descriptio...

406.结巴分词 0.20 发布 Python 中文分词组件

摘要：分享到收藏 +1 新闻投递结巴分词：做最好的Python中文分词组件有很多网友提了issu...

407.[原]开源 Java 中文分词器 Ansj 作者孙健专访

摘要：Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分...

408.“翻译技术沙龙”第十四次活动详情与小结

摘要：主题为“开源翻译技术”的翻译技术沙龙第14期活动于2012年10月14日14:00-17:30在中科院计算所5...

409.一种基于RFID和HMM的设备智能控制模型

摘要：智能环境中的设备越来越多且越来越复杂，配置以及正确地使用这些设备变得更费时，也更容易出错。本文讨...

410.Reading papers_13(gesture recognition survey,ing…)

摘要： 1、Mitra, S. and T. Acharya (2007). "Gesture...

411.jcseg 1.7.0版发布了

摘要：jcseg 1.7.0版发发布了。 1。词库整合了《现代汉语词典》和cc-cedict词库的所有词条。 2。增...

412.结巴分词 0.19 发布 Python 中文分词组件

摘要：结巴分词：做最好的Python中文分词组件 jieba 0.19主要包含以下两个更新： 1）提升了模块加载...

413.jcseg —— 另外一款 Java 中文分词器

摘要：jcseg是使用Java开发的一个中文分词器，使用流行的mmseg算法实现。 1。目前最高版本：jcseg...

414.结巴分词 0.18 发布 Python 中文分词组件

摘要：“结巴分词” 自推出以来收到了很多网友的反馈，其中“关键词提取”是一个被普遍要求加入的功能。 jieba 0....

415.结巴 0.17 版发布 Python中文分词组件

摘要：分享到收藏 +1 新闻投递 "结巴"中文分词：做最好的Python中文分词组...

416.自动字幕对轴软件Autosub 用户手册（Original Edition）

摘要：Introduction      在国内，随着网络技术的...

417.PHP中文分词

摘要：最常见的词语二分法: $str = '这是我的网站www.7di.net！'; //$str = iconv(...

418.基于Stanford Parser 及OpenNLP Shallow Parser构建句子语法解析树

摘要：最近做一个项目需要对给定的文本中的句子做Parse，根据POS tag及句子成分信息找出词语/短语之间的dep...

419.结巴分词 0.16 发布，Python 中文分词组件

摘要：jieba是一款纯Python编写的中文分词组件。此次0.16版主要包括下面两点更新： 1）将求最优切分路径...

420.结巴分词 0.14 版发布，Python 中文分词库

摘要：主要更新如下： 1. 结巴分词被发布到了pypi，用户可以通过easy_install或者pip快速安装该组件...

421.Java通过JNI调用ICTCLAS中文分词包的方法

摘要：1）从网络上下载ICTCLAS分词包的Java JNI版本 ICTCLAS官方网站为： http://ictc...

422.哆啦A梦的“翻译魔芋”终于面世：Conyac解决你的翻译烦恼！

摘要：很多人很头疼翻译这个事儿，毕竟不是每个人都是外语大神。尽管有了互联网后，我们的翻译工作轻松了不少。像 Goog...

423.python中文分词库finalseg已经进入pypi仓库

摘要：finalseg是基于HMM模型的中文分词 python库现在finalseg已经进入pypi...

424.语言模型

摘要：语言模型是用来计算一个句子（或者词序列）的概率的模型。一个长度为n的句子W可以用词序列表示。那语言模型就是求...

425.“翻译技术沙龙”第十三次活动详情与小结

摘要：本次活动在外研社大厦的第四会议室举行，共有近40人参加，其中包括来自北京大学、北京戏曲艺术学院、中科院、河北大...

426.隐马可夫(HMM)中文分词词性标注程序

摘要：本隐马可夫(HMM)中文分词词性标注程序中的隐马可夫(HMM)概率模型是由 PFR人民日报标注语料199...

427.Oracle 中文分词

摘要：转自：http://ddtlby.blog.sohu.com/100086259.html 准备工作： CRE...

428.分词算法–正向最大匹配和反向最大匹配

摘要：转自：http://www.zetascope.com/url/e152944a5c106b0d1453bda...

429.ICTCLAS2012分词库在C环境下的使用

摘要：最近帮同学做一个数据库搜索比较统计功能的项目。项目流程大概如下：（一）抓取信息源，生成数据库。（二）提取数...

430.PocketSphinx语音识别系统语言模型的训练和声学模型的改进

摘要：PocketSphinx 语音识别系统语言模型的训练和声学模型的改进 zouxy09@qq.com ...;

431.语音识别的基础知识与CMUsphinx介绍

摘要：语音识别的基础知识与 CMUsphinx 介绍 zouxy09@qq.com   &nbs...;

432.最大概率分词程序

摘要：最大概率分词程序，在所有可能分词路径中选择概率最大的一条路径最为分词结果 public clas...

433.最短路径分词程序

摘要：最短路径分词法 public class SPM2 extends &n...;

434.[期刊]基于云计算的中文分词研究

摘要：基于云计算的中文分词研究张妍，许云峰，张立全通过搭建Hadoop平台，将MapReduce编程思想应用到中...

435.lucene3.5以上版本jar包模块的用处（分词+分组+高亮+搜索提示）

摘要：lucene3.5以上版本jar包模块的用处（分词+分组+高亮+搜索提示）免费的源码demo &n...;

436.“翻译技术沙龙”第十三次活动 ——计算机辅助翻译与译后编辑

摘要：计算机辅助翻译技术（ CAT ）现如今正如火如荼的发展着，随之而来的，人们也在考虑一个问题：“如何找到一个有...

437.lucene中Field.Index, Field.Store,Field.TermVector详解

摘要：lucene在doc.add(new Field("content",curArt.get...

438.天榕DLP：给企业敏感数据全方位保护

摘要：近日，《信息安全技术、公共及商用服务信息系统个人信息保护指南》（以下简称指南）已正式通过评审，正报批国家标准。...

439.PAip.英文翻译引擎在项目开发上的作用

摘要：PAip.英文翻译引擎在项目开发上的作用在项目开发中，可以用拼音组件，来把汉字自动转换为拼音，并应用在界面控...

440.分布式搜索elasticsearch中文分词集成

摘要：elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国...

441.隐马尔可夫模型在网页文本分割中的应用

摘要：#数学之美# 第五章介绍了隐马尔可夫模型（Hidden Markov Model）。看到HMM就想起了之前做过...

442.8家帮助用户跨越语言障碍的优秀创业公司

摘要：根据Startling翻译公司2011年的统计数据，母语为英语的网民仅占互联网人口的3%，然而56%的网页由纯...

443.机器翻译之进化，微软推出 Microsoft Translator Hub

摘要：如今微软机器翻译 Microsoft Translator 也已经可以像人类那样习得新的语言或术语。该部门的产...

444.支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布

摘要：以下是来自东北大学自然语言处理实验室朱靖波老师发给CWMT群的邮件：支持五个SMT模型的NiuTrans 完整...

445.NiuTrans 1.0.0 Beta 发布，统计机器翻译平台

摘要：在当今Google翻译横行天下的时代，国内终于有人向他们提出了挑战，发出了第一声响亮的呐喊！！！！（不要拍我。...

446.几种不同语言版本的HMM实现

摘要：C语言版： 1、 HTK（Hidden Markov Model Toolkit）： ...;

447..NET使用Lucene.Net和盘古分词类库实现中文分词

摘要：.NET中文分词实现http://http:// 使用 Lucene.Net.dll http:/...

448.全切分分词程序,能实现中英文数字混合分词

摘要：全切分分词程序。中华人民共和国切分成 {中华|华人|人民|共和国}。能实现中英文数字混合分词。比如能分出这样...

449.自然语言学习流程

摘要：根据陶导的指导，大体知道了，作为一个NLP的学习流程。 ...

450.基于大规模语料的新词发现算法

摘要：文 / 顾森对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词—...

451.盛大创新院和搜狗研究员：自然语言处理的应用

摘要：6月 26 日消息，盛大创新院搜索主题院研究员贾文杰和搜狗自然语言处理助理研究员张帆今天做客第 165 期 I...

452.elasticsearch-analysis-pinyin发布

摘要：这个插件主要是集成了著名的Pinyin4j( http://pinyin4j.sourceforge.net/...

453.漫谈中文分词

摘要：一般来说，由于西方拼音文字存在自然而明确的分节符，所以分词是针对东亚、东南亚语言的特殊设置。对于这些语言来说，...

454.短文本合并重复（去重）的简单有效做法

摘要：短文本合并重复（去重）的简单有效做法 2012/6/12 不大合适的SimHash 前些日子看了Charika...

455.TrieTree之正向匹配分词

摘要：大二的时候，数据结构大作业，组长用java写的这个算法秒杀杨婕，但是甚觉NB. 不过终究因为不是自己写的，看完...

456.隐马尔科夫模型 (转)

摘要：介绍崔晓源翻译我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这...

457.利用mmSeg4j分词实现网页文本倾向性分析

摘要：利用mmSeg4j分词实现网页文本倾向性分析      &n...;

458.Best paper awards – NLP

摘要：ACL A few items are still missing. Please help complete...

459.pid match算法思想

摘要：在电子商务搜索领域，商品搜索中，pid match 算法是扩展产品库的有效方法。主要作用是根据商品title，...

460.建立垂直搜索引擎&中文分词

摘要：关键字：垂直搜索引擎中文分词 nutch tomcat linux 1．说明建立简单的垂直搜...

461.lucene 中文分词器中的一个Bug

摘要：lucene 中文分词器如何扩充中文词库啊求帮助？？？ 1534432371@qq.com 这是我的邮箱在...

462.金山词霸2012PC版下载，接入百度机器翻译引擎

摘要：金山词霸 PC2012 版全面升级发布，新版在UI界面、功能设置、词典质量、翻译引擎等方面全面升级，完整收录《...

463.TF-IDF和中文分词开源项目

摘要：中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文...

464.小Ｍ独立博客建造之路 -「第二天」「XAMPP」「CK and SyntaxHighlighter」「TextFX」

摘要：* Author: marooned_smj * Done: * 1.在WordPress的编辑器上最终确认的...

465.ScorePP-用标准C++实现的自动分词评测程序

摘要：         中文分词是自...

466.Itenyh版-用HMM做中文分词五：一个混合的分词器

摘要：        在上一节中，我们看到了H...

467.IT工作者是21世纪的矿工吗？(下篇)

摘要：感谢风之境地的投递上一次，我的朋友 Shawn 提出了他的观点――IT工作者是 21 世纪的矿工。这一...

468.XunSearch-1.3.1 发布，新增分词SDK修正BUG

摘要：经过较长一段时间的维护和改进，目前 xunsearch 运行较为稳定。今天很高兴发布 1.3.1 正式版，在...

469.中文分词程序分析系列之Smartcn

摘要：现在有很多中文分词程序，他们的实现原理么样？分词效果如何...

470.Moses的一些新变化

摘要：看了一下Moses，发现有了一些新变化，特别是Moses整个开源项目几个月之前从Sourceforge上迁移到...

471.python中文分词

摘要：相对于英文而言，中文在计算机处理方面有个必须要面对的问题就是中文分词，英文的单词都是空格间隔的，而中文的词语则...

472.Lucene 3下最快的中文分词器

摘要：包包分词器 – 一个基于字典的快速中文分词器 source code github project...

473.Itenyh版-用HMM做中文分词四：A Pure-HMM 分词器

摘要：先介绍一下使用的资源，分词使用的语料来自于SIGHAN Bakeoff 2005的 icwb2-data.ra...

474.IK Analyzer 2012 发布，中文分词库

摘要：IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0...

475.通过solr得到字串的关键词的代码

摘要：有时我们会希望得到一段文本中所有的关键词，自己手动的去写这样一个程序是不现实的，因为要处理中文分词的问题，中文...

476.正向最大匹配算法

摘要：转来的，这篇介绍的相当通俗；数据结构为trie树，发现搜索引擎中对字符串处理的场景还挺多的；中文分词一直都是...

477.新浪微博数据抓取、分词和词云

摘要：@波波头一头的博客介绍了用R语言提取新浪微博内容，进行分词，并生成词云的方法。之前一直没有解决web微博的...

478.二元语法（2-gram）分词中的平滑算法

摘要：从一年前的计算语言学作业开始，我一直没明白，为什么我写的二元语法分词要比一元语法差。两天来我仔细分析了一下之前...

479.广告展示中的用户选择模型(Retrieval Models for Audience Selection in Display Advertising译文)

摘要：这篇论文在工程方面有一定指导作用，但是理论性太弱，在实现上应该是属于比较容易的，我个人认为在SNS广告系统中应...

480.Itenyh版-用HMM做中文分词三：前向算法和Viterbi算法的开销

摘要：上文中始终未提到前向算法与Viterbi算法，主要是因为想特意强调一下数学解不等同于算法解。算法解考虑进了计算...

481.Itenyh版-用HMM做中文分词二：模型准备

摘要：本质上看，分词可以看做一个为文本中每个字符分类的过程，例如我们现在定义两个类别：E代表词尾词，B代表非词尾词，...

482.Itenyh版-用HMM做中文分词一：序

摘要：前段时间仔细看了52nlp的关于隐马尔科夫模型（HMM）的介绍，深入浅出，真的是非常好的教材，再次感谢一下52...

483.Drupal集成ApacheSolr-3.x以及中文分词处理

摘要：本文主要讲解Drupal和Apache Solr-3.x的集成以及对中文分词的处理，如需详细了解Drupal...

484.使用C++实现mmseg，对中文句子进行分词

摘要：想要了解更多，可以看我在OSCHINA分享的代码， http://www.oschina.net/action...

485.HubbleDotNet 索引分词的测试方法和分词技巧

摘要：在中文搜索中，分词技术是一个比较关键的技术，我们往往会遇到查询某个关键字无法匹配到相应文档的问题，这种问题往往...

486.机器翻译的最新进展与瓶颈所在

摘要：你想过和异国人说话不需要再有翻译，只需随身携带一个轻巧的数码机器吗？目前来看这仍是奢望。不过，或许某一天，我们...

487.Nutch集成Solr中文分词Schema

摘要： <?xml version="1.0" encoding="U...

488.akcms 4.0.6 发布新春贺岁版

摘要：站长朋友，大家过年好！假期期间我把许多之前藏着掖着的私房功能加进来，发了这个4.0.6，可以称作新春贺岁版，没...

489.漫话中文自动分词和语义识别（上）：中文分词算法

摘要：    记得第一次了解中文分词算法是在 Google 黑板报上看到的...

490.初学者报道(3) CRF 中文分词解码过程理解

摘要：好久没有来写文章了，这段时间我研究了一下CRF，也找人请教过，下面写下自己的一些理解，在网络上也找过CRF的资...

491.中文处理的迷思之一：切词特有论

摘要：电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。迷思之一：切词是中文...

492.开发一个比价插件

摘要：这段时间准备攒台牛机，首选京东的装机大师，当把某显卡去51buy一搜，发现比京东便宜50块，50块，10瓶...

493.在Hadoop上运行基于RMM中文分词算法的MapReduce程序

摘要：我知道这个文章标题很“学术”化，很俗，让人看起来是一篇很牛B或者很装逼的论文！其实不然，只是一份普通的实验报告...

494.开源分词程序

摘要：看到张宴的微博上有一条消息：推荐一个工具：imewlconverter – 深蓝词库转换（ ht...

495.基于二元语法模型的中文分词

摘要：一、基于二元语法模型分词的思想下面是该程序的主要过程与思路： 1、针对语料库进行训练。本程序使用的是北大...

496.应该立法禁止分词研究 :=)

摘要：RE: 分词当然是第一关。这个没弄好，其他的免谈现如今中文自动分析的瓶颈早已不是分词了日期:...

497.我的机器翻译学习经历以及即将开启的词对齐学习

摘要：统计机器翻译的第一步就是词对齐，随后抽取短语表，然后根据短语表进行翻译解码，中间会根据语言模型来选取最优的翻译...

498.试用开源分词系统SCWS

摘要：在前一段时间，使用了贵所的ICTCLAS分词系统，总体下来有两点不太满意： 1、分词速度奇慢，分词速度勉强能达...

499.记录点隐马尔科夫模型(Hidden Markov Models)的点滴

摘要：因为之前HMM、最大熵、CRF接触比较少，所以最近想弥补一下这方面的知识。有没有用HMM进行自动谱曲的？自动...

500.SAE(Sina App Engine) 分词性能测试

摘要：好久没有玩SAE（Sina App Engine）了。今天无意中登录了自己的sae账号。发现sae已经添加了分...

501.试用ICTCLAS分词系统

摘要：贵所的 ICTCLAS 号称是目前最好的中文分词系统。今天使用了一下，记录下心得。我的需求主要是分词，无需词...

502.[收藏]52NLP：隐马尔科夫模型(Hidden Markov Models)系列

摘要：学习HMM的快速方法，强烈要求看这个。当然，follow别人的学习是一方面，自己独立学习也是一方面...

503.中文翻译技术沙龙第十次活动报名

摘要：时间：2011年10月15日（周六）下午14：00-17：00 地点：五道口清华科技园费用：无题目1：开...

504.利用Xapian构建自己的搜索引擎：Document、Term和Value

摘要：在上一篇《利用Xapian构建自己的搜索引擎：Database 》里指出database是Xapian的基础...

505.关于MINDS研讨会的讨论及报告下载

摘要：在董振东教授的发起和组织下，2011年8月20日晚上19:45~22:15在洛阳召开的第十一届全国计算语言学会...

506.中文翻译技术沙龙第九次活动

摘要：一、沙龙主题：统计语言模型的方法和应用二、沙龙时间：2011年9月4日（周日）下午2-5点三、沙龙地点：清...

507.基于词典的逆向最大匹配中文分词算法，逆向分词比正向分词效果好

摘要：基于词典的逆向最大匹配中文分词算法，能实现中英文数字混合分词。比如能分出这样的词：bb霜、3室、乐phone、...

508.初学者报道（2）：实现 1-gram分词算法

摘要：写了个1-gram的分词算法实现：借鉴了之前在这个blog上看到的n-gram算法中的split函数的写法，...

509.Diving Into ElasticSearch (3) 编写自定义分词插件

摘要：今天介绍下怎么样编写一个自己的分词插件，开始之前，先介绍下ES的项目结构：分别介绍下吧： .idea:IDE...

510.使用Google Web 1T 5-gram

摘要：最近的工作用到了Google的海量语言模型，因其海量，使用它时远没有想像当中那么简单。经过一周时间的探索，总算...

511.也来谈谈网站优化中的title和description

摘要：开始动笔之前，一直在纠结，如何定义于文章标题，自然本文定位在title和description写法上面，那么如...

512.百度翻译研发500天，曾经困惑一个月

摘要：早在计算机诞生之初的上世纪40年代，人类就开始了对用计算机自动进行人类语言翻译的梦想的追逐。几十年来，作为自然...

513.百度翻译研发500天幕后：团队曾经迷茫一个月

摘要：【TechWeb消息】7月12日消息，继百度翻译6月30日上线后，其研发负责人日前披露了产品背后的故事。百度翻...

514.初学者报到: 实现了一个最大匹配的分词算法

摘要：看了一段时间了的自然语言，不过还是很初级。今天下载了一个分词的字典，自己用python写了一个分词的函数。...

515.NiuTrans: 一套开源的统计机器翻译平台

摘要：晚上在CWMT（China Workshop on Machine Translation）的邮件组里看到东北...

516.今天是封闭开发第一天

摘要：   今天一早到学校，8点图书馆开门就进去占了个独立小单间，开始封闭开发，非常安...

517.盘古分词 2.3.3.0 — 改进了批量导入功能

摘要：V 2.3.3.0 版本改进了批量导入功能可以批量导入单词，词性和词频了。输入文件的格式为：单词|0x0...

518.开源分词程序ki-analyzer启动

摘要：Posted in framework on 六月 18th, 2011 by kafka0102 ki-an...

519.今天对高阶语言模型的数据做针对性优化

摘要：   今天重点改造了索引结构，因为现在索引已经足够小了，压缩力度没必要那么大，在...

520.HubbleDotNet–自定义分词器

摘要：HubbleDotNet 在设计之初就定位为一个开放式的搜索平台，分词器，得分算法，数据库适配器，存储过程，函...

521.今天做了一个重要优化（将不成功查询的耗时大大降低）

摘要：    此前的方案中，不成功的查询往往要比成功的查询慢一些，这是B+树...

522.中文机器翻译沙龙更名为中文翻译技术沙龙

摘要：为了使更多的朋友参与沙龙活动，接受大家的建议，现将中文机器翻译沙龙更名为中文翻译技术沙龙。希望继续得到大家的...

523.基于百度分词分享

摘要：中文分词，就是把一些词语从新组合成新的词语序列的过程，也可成为中文切词。分词对搜索引擎的优化有很大的作用，一般...

524.统计语言模型学习笔记

摘要：语言模型（Language Model）是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实...

525.几种常见的PHP中文分词系统

摘要：因为要做毕业设计，可能需要相关知识，所以在此总结一下常见的中文分词系统。 1)HTTPCWS – 基于HTTP...

526.中文机器翻译沙龙第六次活动报名

摘要：本次活动由北大翻译协会与中文机器翻译沙龙联合举办。地址在北京大学理科楼，活动主题为计算机辅助翻译工具的评测，...

527.中文机器翻译沙龙第五次活动小结

摘要：本次沙龙活动于3月27在清华科技园的泰为公司会议室举行。共有二十四人参加，包括来自泰为、百度、金山、高德、老虎...

528.ME for Machine Translation

摘要：利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章，做...

529.批量中文分词脚本

摘要： #!/usr/bin/perl #批量分词 #该perl脚本要求调用deepfuture的简单中...

530.中文机器翻译沙龙第五次活动报名和第四次活动小结

摘要：时间：2011年3月27日（周日）下午14：00-17：00 报名截止日期：3月24日（周四）地点：五道口清...

531.Matrix67：漫话中文分词算法

摘要：注：这是今天在 Matrix67 上看到的关于中文分词的文章，粗略的读了一遍，觉得Matrix67能把中文分词...

532.中文机器翻译沙龙第四次活动报名和第三次活动小结

摘要：时间：2011年3月6日（周日）下午14：00-17：00 报名截止日期：3月3日（周四）地点：有道会议室（...

533.中文机器翻译沙龙第三次活动报名和第二次活动小结

摘要：时间：1月16日（周日）下午14：00-17：00 报名截止日期：1月13日（周四）地点：海淀区某茶馆，具体...

534.基于哈希表和二叉树的词典研究(一)

摘要：作者：王增才邮箱： wzc@zencai.com 摘要词典是许多中文分词系统的一个重要的组成部分。其查询速...

535.用标签来组织社区内容

摘要：论坛大杂烩，使用户面临海量信息无所适从（详细观点）。如何组织内容，push给用户他们感兴趣的信息，是社区运...

536.代友转发：发起成立中文机器翻译定期学术沙龙

摘要：以下文字代友Alex转发，如果哪位读者有水木帐号，恳请转载到“水木自然语言处理版”，非常感谢！Alex从事的是...

537.真实流量干货分享：30万IP小说站实例分析

摘要：本文作者殷谦祥，QQ号码是358698414，欢迎大家联系和交流。大家好，很高兴能够投稿到semwatch，...

538.诗歌翻译与统计机器翻译

摘要：Google Research Blog前几天出了一篇文章“ Poetic Machine Translati...

539.HubbleDotNet 和 Lucene.Net 匹配相关度的比较

摘要：很多网友在使用 Lucene.net (Lucene java 版本也是一样)后会感觉Lucene.net 的...

540.搜索引擎技术揭密：中文分词技术

摘要：信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论...

541.通过盘古分词自定义规则功能实现软件版本号的提取

摘要：作者：eaglet 在某些软件下载网站的全文搜索应用中往往需要根据部分或者全部的版本号来匹配查询。然而对于版本...

542.排头兵PHP中文分词,纯PHP版实现

摘要：排头兵PHP中文分词类,主要作用是分析语料库,找出核心主题词,是网页相似度引擎的子模块相比成熟的分词类库,如...

543.机器翻译新闻一则：SDL公司收购Language Weaver

摘要：也许是时下流行收购吧，前天刚谈了“ Google收购语义网公司Metaweb ”，没想到今天又发现“ SDL公...

544.zz SDL 收购 Language Weaver――确立其在机器翻译和全球信息管理领域的领先地位

摘要：英国梅登黑德——作为一家领先的全球信息管理方案提供商，SDL 2010年7月15日宣布已签署收购 Langua...

545.避免lucene queryparser中文分词的缺陷

摘要：Posted in lucene on 七月 9th, 2010 by kafka0102 很多人在使用luc...

546.基于trie数据字典的php中文分词

摘要：keywords:中文分词、PHP中文分词、trie数据结构、Doubule Array Trie Datas...

547.基于 Aho-Corasick 算法实现中文全分词

摘要：项目背景 —————– —...

548.发布一个敏感词过滤的小项目

摘要：项目背景 ——————- 对于用户发表...

549.开发搜索引擎 – PHP中文分词

摘要：对于中文搜索引擎来说, 中文分词是整个系统最基础的部分之一, 因为目前基于单字的中文搜索算法并不是太好. 当然...

550.推荐张华平老师的中文分词工具ICTCLAS2010

摘要：在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天...

551.简与美（6）

摘要：在继续之前，先说些别的。有人问我最近在忙些什么，为什么会研究起NLP(自然语言处理)。这和工作有一定关系，但...

552.Beautiful Data-统计语言模型的应用三：分词8

摘要：对于一个包含n个字符的单词来说，利用语言模型进行分词的前提是首先枚举出所有的候选切分，而segment函数中：...

553.Beautiful Data-统计语言模型的应用三：分词7

摘要：走到这一步，我们利用Google的一元语言模型进行分词的程序基本上已经完成了，先看一下已完成的segment....

554.Beautiful Data-统计语言模型的应用三：分词6

摘要：说完了Python中的__call__函数，我们继续来完善segment.py，首先将Pw函数删除： def...

555.Moses最新版本发布

摘要：统计机器翻译开源工具Moses的主要负责人之一Hieu Hoang，也是Moses代码的最大贡献者在3月28日...

556.Beautiful Data-统计语言模型的应用三：分词5

摘要：上一节我们已经解读了Pdist类中的__init__函数，这一节重点关注一下Python类中的__call__...

557.第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2

摘要：继续转载《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST20...

558.第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1

摘要：本文选自《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST20...

559.ACL-IJCNLP 2009 评述节选

摘要：晚上师弟传给我两篇《中文信息学报》09年第6期的文章：东芝(中国) 研究开发中心王海峰老师的《ACL-IJCN...

560.Beautiful Data-统计语言模型的应用三：分词4

摘要：对于Pw函数，这里稍微多做一点说。首先我们从一元语言模型的文件里读取单词及其计数，如果一个单词在语料库中出现，...

561.Beautiful Data-统计语言模型的应用三：分词3

摘要：本节我们进入《Beautiful Data》中分词的编码阶段，完整的程序及数据大家可以在“ Natural L...

562.Beautiful Data-统计语言模型的应用三：分词2

摘要：现在，我们就可以应用这个方法来进行分词了。首先定义一个函数：segment，其输入是一串没有空格的字符串，而输...

563.Beautiful Data-统计语言模型的应用三：分词1

摘要：本节我们开始《Beautiful Data》中的“Word Segmentation”之旅，虽然Peter N...

564.机器翻译：多一点宽容

摘要：这两天“我爱自然语言处理”的一些访问来源于CSDN的推介，于是查了一下，发现与CSDN的一则新闻有关：《 Go...

565.Beautiful Data-统计语言模型的应用二：背景

摘要：本节我们进入《 Beautiful Data 》的正题，将沿着其第14章Peter Norvig大牛的“Nat...

566.Beautiful Data-统计语言模型的应用一：缘起

摘要：统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了，在自然语言处理中，统计语言模型的应用包括语音识别、机器...

567.机器翻译新闻一则

摘要：今天在新浪科技上看到了“东芝开发智能手机英汉日翻译软件”这则新闻，比较感兴趣！虽然“统计机器翻译”这些年如火如...

568.Moses近期动态及其他

摘要：由于工作的关系，有一段时间没有仔细关注过统计机器翻译开源系统 Moses 了。前些天看到哈工大郎君师兄的文章《...

569.HMM在自然语言处理中的应用一：词性标注6

摘要：有一段时间没有谈HMM和词性标注了，今天我们继续这个系列的最后一个部分：介绍一个开源的HMM词性标注工具并且利...

570.HMM在自然语言处理中的应用一：词性标注5

摘要：上一节我们谈完了Resnik教授基于UMDHMM设计的词性标注的练习，不过自始至终，还没有见到一个词性标记的影...

571.HMM在自然语言处理中的应用一：词性标注4

摘要：在继续昨晚的工作之前，先聊两句Philip Resnik教授。作为美国马里兰大学的教授，他的主要研究领域是自然...

572.HMM在自然语言处理中的应用一：词性标注3

摘要：原计划这一节讲解如何利用UMDHMM这个HMM工具包来实现一个toy版本的HMM词性标注器，自己也写了几个相关...

573.HMM在自然语言处理中的应用一：词性标注2

摘要：上一节我们对自然语言处理中词性标注的基本问题进行了描述，从本节开始我们将详细介绍HMM与词性标注的关系以及如何...

574.钱老和Moses

摘要：    看到这两个词语连在一起能想到一点点联系的朋友，肯定是NLP或者更具体说是...

575.HMM在自然语言处理中的应用一：词性标注1

摘要：词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指...

576.第五届全国机器翻译研讨会后续

摘要：第五届全国机器翻译研讨会已于10月16日至17日在南京大学举行完毕，虽未亲自参加整个会议，但是还是比较关注这次...

577.统计机器翻译文献阅读指南

摘要：在《如何学习自然语言处理》中，关于阅读文献，nlpers的作者曾计划在之后的博客中列出一些领域的“必读（m...

578.HMM学习最佳范例八：总结

摘要：八、总结(Summary) 通常，模式并不是单独的出现，而是作为时间序列中的一个部分——这个过程有时候可以被辅...

579.HMM学习最佳范例七：前向-后向算法5

摘要：七、前向-后向算法(Forward-backward algorithm) 上一节我们定义了两个变量及相应的期...

580.HMM学习最佳范例七：前向-后向算法4

摘要：七、前向-后向算法(Forward-backward algorithm) 隐马尔科夫模型（HMM）的三个基本...

581.第十二届机器翻译峰会后续

摘要：第十二届机器翻译峰会已于8月26日至30日在加拿大渥太华举行完毕，而紧随其后，在同样的地点，NIST2009的...

582.HMM学习最佳范例七：前向-后向算法3

摘要：七、前向-后向算法(Forward-backward algorithm) 前向-后向算法是Baum于1972...

583.HMM学习最佳范例七：前向-后向算法2

摘要：七、前向-后向算法(Forward-backward algorithm) 要理解前向-后向算法，首先需要了解...

584.HMM学习最佳范例七：前向-后向算法1

摘要：七、前向-后向算法(Forward-backward algorithm) 根据观察序列生成隐马尔科夫模型(G...

585.HMM学习最佳范例六：维特比算法5

摘要：六、维特比算法（Viterbi Algorithm）维特比算法程序示例仍然需要说明的是，本节不是这个系列的...

586.HMM学习最佳范例六：维特比算法4

摘要：六、维特比算法（Viterbi Algorithm）维特比算法定义(Viterbi algorithm de...

587.参加机器翻译峰会的十一大理由

摘要：自然语言处理与计算语言学领域的顶级会议ACL09刚刚结束，另一个机器翻译领域的顶级会议“第十二届机器翻译峰会（...

588.HMM学习最佳范例六：维特比算法3

摘要：六、维特比算法（Viterbi Algorithm）寻找最可能的隐藏状态序列(Finding most pr...

589.HMM学习最佳范例六：维特比算法2

摘要：六、维特比算法（Viterbi Algorithm）寻找最可能的隐藏状态序列(Finding most pr...

590.HMM学习最佳范例六：维特比算法1

摘要：六、维特比算法（Viterbi Algorithm）寻找最可能的隐藏状态序列(Finding most pr...

591.HMM学习最佳范例五：前向算法5

摘要：在HMM这个翻译系列的原文中，作者举了一个前向算法的交互例子，这也是这个系列中比较出彩的地方，但是，在具体运行...

592.HMM学习最佳范例五：前向算法4

摘要：首先需要说明的是，本节不是这个系列的翻译，而是作为前向算法这一章的补充，希望能从实践的角度来说明前向算法。除了...

593.HMM学习最佳范例五：前向算法3

摘要：五、前向算法（Forward Algorithm）前向算法定义（Forward algorithm defi...

594.HMM学习最佳范例五：前向算法2

摘要：五、前向算法（Forward Algorithm）计算观察序列的概率（Finding the probabi...

595.HMM学习最佳范例五：前向算法1

摘要：五、前向算法（Forward Algorithm）计算观察序列的概率（Finding the probabi...

596.HMM学习最佳范例四：隐马尔科夫模型

摘要：四、隐马尔科夫模型（Hidden Markov Models） 1、定义（Definition of a hi...

597.HMM学习最佳范例三：隐藏模式

摘要：三、隐藏模式（Hidden Patterns） 1、马尔科夫过程的局限性在某些情况下，我们希望找到的模式用马...

598.关注第五届全国机器翻译研讨会

摘要：去年11月底曾去自动化所参加了“第四届全国机器翻译研讨会”，印象深刻，并因此写了一篇《第四届机器翻译研讨会感...

599.HMM学习最佳范例二：生成模式

摘要：二、生成模式（Generating Patterns） 1、确定性模式（Deterministic Patte...

600.几种不同程序语言的HMM版本

摘要：“纸上得来终觉浅，绝知此事要躬行”，在继续翻译《 HMM学习最佳范例》之前，这里先补充几个不同程序语言实现的...

601.HMM学习最佳范例一：介绍

摘要：隐马尔科夫模型（HMM）依然是读者访问“我爱自然语言处理”的一个热门相关关键词，我曾在《 HMM学习最佳范例与...

602.自然语言处理公司巡礼七：Language Weaver

摘要：这里曾经谈过机器翻译的行业老大 Systran ，今天再谈谈机器翻译行业的后起之秀Language Weave...

603.ACL Anthology 姊妹篇：ACL Anthology Network

摘要：还是先从评论说起，计算所刘洋师兄昨天在《最有影响力的自然语言处理论文》下留言： “在这方面，一个比较好的资...

604.看到一个关于ref参数与多态的问题，记一下

摘要：刚才读到Alan McGovern的，问为什么形式参数是ref A的地方不能把ref B作为实际参数传进去：...

605.推荐刘群老师的《计算所与北大往事回顾》

摘要：偶然间读到了计算所刘群老师的《计算所与北大往事回顾》，文章从他进入计算所读书开始，讲述了这些年他个人的一些...

606.统计机器翻译英雄谱一：Franz Josef Och

摘要：一直想写一下统计机器翻译领域的英雄谱，不过这方面自己把握的还不足。前些天计算所刘洋师兄在这里留言，可能有的读者...

607.欧洲议会平行语料库介绍

摘要：平行语料库对于统计机器翻译(SMT)的研究至关重要，欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行...

608.HMM学习最佳范例与崔晓源的博客

摘要：“HMM学习最佳范例”与“崔晓源的博客”本来是不搭边的，由于自己花了几乎一个晚上浏览崔师兄的博客，没有时间写文...

609.SMT经典再回首之Brown90:统计机器翻译与语音识别

摘要：今天我们谈一谈统计机器翻译与语音识别的关系。吴军在《数学之美系列八：贾里尼克的故事和现代语言处理》中提到： “...

610.计算语言学研究简介

摘要：晚上读了冯志伟老师的“《语料库语言学与计算语言学研究丛书》序”，觉得写得很好，这里特转载其第二部分“计算语言学...

611.SMT经典再回首之Brown90:远见卓识

摘要：最近在做毕业论文，又回头仔细阅读统计机器翻译（SMT）的相关论文。重读经典的过程发现了一些当初读的时候根本无法...

612.语言模型工具IRSTLM安装及试用手记

摘要：Moses目前支持三个语言模型工具包：SRILM（The SRI language modeling tool...

613.自然语言处理与计算语言学书籍汇总之五：机器翻译

摘要：这里补充几本机器翻译方面的书籍，尤其值得关注的是统计机器翻译领军人物Philipp Koehn的《Statis...

614.机器翻译的八大挑战

摘要：偶然读到EuroMatrix项目联络人Hans Uszkopeit教授（德国萨尔兰大学计算语言学教授，德国人工...

615.EuroMatrix与开放精神

摘要：打开SMT官网主页下的这个页面： http://www.statmt.org/matrix/ ，会发现一个漂亮...

616.自然语言处理公司巡礼四：Systran

摘要：每一个行业都有一个或屈指可数的几个巨头在引领潮流，比如操作系统领域是微软，搜索引擎领域是谷歌，视频领域是You...

617.语言模型训练工具SRILM详解

摘要：SRILM是著名的约翰霍普金斯夏季研讨会（Johns Hopkins Summer Workshop）的产物，...

618.Google翻译工具全部转用自身的机器翻译平台

摘要：您的位置：搜索引擎周边 > Google 搜索引擎 2007年10月23日 Post by 散人此前...

619.谷歌输入法更新至1.0.20 .0版，升级了语言模型

摘要：在活动页面的相关板块上传与“红酒”相关的原创博客文章，只要是与红酒相关，是属于你自己的文字，加入这个红酒迷情的...

转载自原文链接, 如需删除请联系管理员。

原文链接：NLP自然语言处理干货贴，转载请注明来源！