结果:找到“分词”相关内容212个,排序为按回复时间降序,搜索更多相关帖子请点击“高级
【重磅推荐】词频爬取\文本分析\语调分析\情感分析【年报 MDA 社会责任报告】
154 个回复 - 12079 次查看 文本分析 语调分析 词频统计 情感分析 年报分析 Python爬取的代码 代码有具体的解释说明,基本上每一步都写了注释,保证小白能够使用! 一、❗️❗️代码有下列几个版本: ① ...2022-10-1 10:07 - a1010967149 - 现金交易版
ZF工作报告-原始文本面板、创新乡村环保等词频统计(2002-2020年)
1 个回复 - 629 次查看 一、数据介绍 数据名称:政府工作报告-原始文本面板数据及词频统计 数据范围:全国31个省份 数据年份:2002-2020年(平衡面板为2007-2020年) 数据来源:地方政府网 数据说明:内含原始文本面板,以 ...2022-9-26 16:20 - Jamieg - 现金交易版
【推荐 2021更新】数字化转型MDA词频分析2001-2021 管理层经营讨论与分析词频占比
151 个回复 - 9787 次查看 数字化转型MDA词频分析2001-2021[hr]全流程构建以及最新版本袁淳数据:https://bbs.pinggu.org/thread-11243044-1-1.html 1、数据来源:基于上市公司年报种的管理层分析与讨论部分2、时间跨度:2001-2021年 ...2022-9-26 15:31 - a1010967149 - 现金交易版
Economics in One Lesson一课经济学英文原著及部分词汇分享
11 个回复 - 3224 次查看 A million copy seller, Henry Hazlitt’s Economics in One Lesson is a classic economic primer. But it is also much more, having become a fundamental influence on modern “libertarian” economics of the ...2018-8-3 09:05 - msc6630731 - 外语学习
托福写作满分词以类记
0 个回复 - 745 次查看 托福写作满分词以类记2019-5-13 03:03 - yucai_ran - 外语学习
Predictably Irrational怪诞行为学原版书及部分词汇整理
3 个回复 - 2289 次查看 Predictably Irrational: The Hidden Forces That Shape Our Decisions is a 2008 book by Dan Ariely, in which he challenges readers' assumptions about making decisions based on rational thought. Ariel ...2018-8-1 08:58 - msc6630731 - 外语学习
Romeo and Juliet(1597)罗密欧与朱丽叶英文原著及部分词汇分享
0 个回复 - 2927 次查看 Romeo and Juliet is a tragedy written by William Shakespeare early in his career about two young star-crossed lovers whose deaths ultimately reconcile their feuding families. It was among Shakespeare' ...2018-8-2 09:49 - msc6630731 - 外语学习
A Christmas Carol圣诞颂歌及部分词汇整理分享
6 个回复 - 3544 次查看 A Christmas Carol is a novella by English author Charles Dickens first published by Chapman & Hall on 17 December 1843. The story tells of sour and stingy Ebenezer Scrooge's ideological, ethical, ...2018-7-31 06:44 - msc6630731 - 外语学习
文本分词问题
1 个回复 - 806 次查看 从网上下载了个《东方快车谋杀案》,试着用jieba做分词 结果却总是 求大神帮帮忙,这是那部小说2018-1-1 14:49 - Thanos123 - python论坛
【博文精选】深度学习在NLP中的运用: 从分词、词性到机器翻译、对话系统
8 个回复 - 1521 次查看 摘要: 通过深度学习和其他机器学习技术的模型组合,竹间智能也已初步实现了自然语言对话中的意图识别、上下文理解和多轮对话。本文将基于竹间智能的一些经验和探索,从分词、词性等基础模块,到机器翻译、知识问答等 ...2017-8-28 03:56 - ReneeBK - winbugs及其他软件专版
自己写的python中文分词、去停、替换、保留特有词性、保存的函数
7 个回复 - 3334 次查看 自己写的python中文分词、去停、替换、保留特有词性、保存的代码。每一个功能都写成了函数的形式。只要换一下传入的数据,就可以自己使用。特别适合初学者,容易看懂,拿来就能用。代码基本上都是原创,有自己的思路 ...2017-4-16 20:19 - xiaochong1a - 现金交易版
求问:分词之后的结果是乱码
0 个回复 - 1072 次查看 各路大神,R初学者,jiebaR、Rwordse均出现错误,大家知道是什么原因吗?分词之后的结果是乱码(见第一个文件)2017-9-7 17:49 - kangwater - R语言论坛
安装Rtools及jiebaR中文分词包的教程
5 个回复 - 10256 次查看 因为在安装jiebaR这个包时,有人说可以直接在r cran上安装了,也就是用install.packages()这个函数来安装。 不过试了一下,还是不行。所以按照先安装Rtools然后再安装devtools及jiebaR的顺序来安装了。 这个包可 ...2014-11-29 16:15 - jiangbeilu - R语言论坛
Nvivo中文分词问题
3 个回复 - 550 次查看 大佬们,在用Nvivo做中文词频分析的时候,有的分词是错误的,比如“卡拉胶”变成了“卡拉”,这个有没有什么方法进行修改啊?用的是Nvivo12plus2022-8-25 10:47 - Annabeth7 - Stata专版
文本分析|中文分词、英文分词和关键词提取
0 个回复 - 592 次查看 复制链接到浏览器可看【文本分析|中文分词、英文分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc jieba中文分词库,《Hamle ...2022-9-29 20:07 - 独岛 - Stata专版
文本分词
5 个回复 - 1267 次查看 python中如何导入一个文件夹中的文件进行分词,结束后,再自动导入同一个文件夹的另一个文件,在分词,如此循环往复,毕业论文需要,跪求大神指导2022-2-11 21:43 - 15560169761 - python论坛
如何把递归函数和jieba分词结合到一起使用
6 个回复 - 1278 次查看 当前正在写毕业论文,使用到结巴分词,由于文件夹下的文章太多,复制不过来,有大佬出主意说可以使用递归函数遍历文章,但是遍历文章之后无法把他和结巴分词结合到一起,,求大佬指点2022-2-25 10:45 - 15560169761 - python论坛
如何用R语言进行2-gram中文分词
2 个回复 - 1268 次查看 例如句子:我爱北京。 可以划分为: 我 我爱 爱北 北京 京2018-11-6 11:38 - maiweijie4321 - R语言论坛
请问用R语言分词画词云时最后出现"一进列运算的参数不对"怎么办?
3 个回复 - 5482 次查看 [ 本帖最后由 myf0313 于 2018-5-12 15:31 编辑 ] 已经解决了,谢谢大家2018-5-4 13:33 - myf0313 - 悬赏大厅
为什么R语言中文分词结果总是U开头的数字串?
1 个回复 - 1008 次查看 请教各位大神,刚刚学习R语言文本分析,用jiebaR和Rwordseg对中文语句分词之后的结果都是以\u开头的数字串,而不是中文字词,请问是哪里出了问题呢? 我在options-code-saving-default text coding里已经选择了UTF- ...2021-4-18 22:15 - 妥筱楠 - R语言论坛
数据挖掘入门——分词——CDA人工智能学院
0 个回复 - 888 次查看 随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公 ...2020-11-6 07:54 - AIU人工智能学院 - 数据分析与数据挖掘
请问R如何自定词典进行分词
40 个回复 - 22388 次查看 我有这样一列的数据,R语言中Rwordseg包分不出来,我如何自定词库(淘宝,....)对这列文本进行规范,哪位大哥能指教一下小弟..2014-3-28 00:44 - 朽木七根 - R语言论坛
R语言 Rwordseg分词问题
0 个回复 - 679 次查看 用 insertWords 之后还是不能对新词进行正确的划分,这是包的问题吗? > insertWords("甲状腺") > segmentCN("甲状腺是重要的器官") [1] "甲" "状腺" "是" "重要" "的" "器官"2020-5-29 12:19 - 跳蚤侠 - R语言论坛
R语言jiebaR中文分词报错
2 个回复 - 1932 次查看 Read 19 items > engine=worker() > word_seg=segment(word,engine) 2019-11-06 23:23:14 ../inst/include/lib/PreFilter.hpp:21 ERROR decode failed. 批量处理一批txt文档,有的报错,有的就分词成功,请 ...2019-11-6 23:28 - tiangy2019 - R语言论坛
求问R 语言tm包 进行分词时怎样让某个特定短语不分开?
0 个回复 - 782 次查看 比如five star 直接转化矩阵的话会变成fivestar2020-3-6 20:53 - mj谢 - R语言论坛
【学习笔记】做英语真题,总结的部分词组。英语要多背啊,不背简单的词组也区 ...
2 个回复 - 404 次查看 做英语真题,总结的部分词组。英语要多背啊,不背简单的词组也区分不开了! 他说想跟我一起去上自习,想跟我一起在街头巷尾走一走!我们要上同一所大学,努力吧~为了我,为了你!2020-2-24 20:02 - ztt1121491219 - Forum
R语言中文分词如何只提取自定义字典存在的词组
1 个回复 - 779 次查看 我先自己制定了一个分词的词典,然后对需要分词的字段按词典存在的词组进行分词提取,字典不存在的忽略不分词不提取。 例如,我的词典为:(“计算机”,“软件工程”,“中外合作”,“电气类”) 需要分词的字 ...2019-12-25 17:43 - 1794549457 - 灌水吧
常用的中文分词工具总结
2 个回复 - 1702 次查看 jieba[1]、THULAC[2]、SnowNLP[3]、NLPIR[4]、CoreNLP[5]、pkuseg[6]中科院分词工具pyn/pir和pyLTP等 [1]Sun, J. (2012). Jieba. . [2]Maosong Sun, Xinxiong Chen, Kaixu Zhang, Zhipeng Guo, and Zhiyuan ...2019-5-31 17:35 - wxs-shuang - Forum
RStudio想要做分词词运,使用segment出现问题
1 个回复 - 686 次查看 各位好,图片是我在使用 segment 出现的提示,说code必须为一个字符串,我的原数据是csv格式的,这里需要把csv转换成字符串吗?2019-10-16 17:30 - suger16 - R语言论坛
每秒20W次并发分词检索, 架构如何设计?
1 个回复 - 646 次查看 CDA数据分析师[/backcolor]:数据科学、人工智能从业者的在线大学。 [/backcolor][/backcolor]数据科学(Python/R/Julia)数据分析、机器学习、深度学习 Q群:874447702[/backcolor][/backcolor]常见的文本检索方案 ...2019-9-12 17:02 - 时光人 - JAVA语言开发技术
【学习笔记】对于中文而言,由于基于汉字的翻译效果很差,因而分词是必须解决 ...
0 个回复 - 466 次查看 对于中文而言,由于基于汉字的翻译效果很差,因而分词是必须解决的问题,也就是说如果不做分词分词做得不好,即便用统计方法,效果也会很糟糕。 在统计机器翻译时代,因为各模块都是互相独立训练的,导致错误传播的 ...2019-9-2 20:57 - zhangjx1997 - Forum
如何分词
6 个回复 - 888 次查看 请教大家,比如我有一列文本数据(如下英文,只是某个单元格的内容),每个单元格都有这么多文字。我现在想把文本中的Conclusions这个关键词之后的文字保留,并单独作为一列,Conclusions之前的文字都舍弃。这用R该怎 ...2019-8-19 16:29 - lanhong1993 - R语言论坛
【学习笔记】英语语法:非谓语动词之动名词、非谓语动词之分词学习笔记。
1 个回复 - 630 次查看 英语语法:非谓语动词之动名词、非谓语动词之分词学习笔记。2019-8-21 08:03 - 瓶子02 - Forum
NLPIR汉语分词实现自动智能挖掘语义信息
1 个回复 - 1800 次查看   随着信息时代的到来,可供人们查阅和检索的中文信息越来越多,如何在浩如烟海的中文信息世界里找到自己需要的资料成为一个越来越重要需要研究的课题。在当今时代,要处理迅猛增长的信息,手工处理已经变得不太现 ...2019-4-24 12:41 - ljrj123 - python论坛
结巴分词的时候出现错误
1 个回复 - 1110 次查看 大神救命啊,不知道该怎么改 代码: import sys reload(sys) sys.setdefaultencoding('utf-8') import jieba import jieba.analyse import openpyxl if __name__ == "__main__": wbk = open ...2019-3-12 09:36 - frida372997240 - python论坛
如何用R语言对文档进行分词?!
2 个回复 - 2179 次查看 想要详细教程。。小白一枚,重赏2018-10-29 11:22 - zero3206 - R语言论坛
结巴分词对csv文件分词问题
2 个回复 - 4005 次查看 fenci = read.csv('/Users/vigossdawn/Desktop/分词.csv',encoding = 'UTF-8') engin4 = worker(bylines = TRUE,encoding = 'UTF-8') jieguo = segment(fenci,engin4) 以上部分是代码,读取csv文件,csv中每个 ...2018-9-27 16:32 - xunxunyulove - R语言论坛
R语言rwordseg分词后如何对词性进行筛选
1 个回复 - 989 次查看 请问在rwordseg分词和标注词性之后,我想去除词性为“p”“f”之类的词,应该怎么做呢? 这是我分词后的结果。2017-6-5 17:31 - 陌Moderato - 爱问频道
NLPIR-ICTCLA2018分词用户大会抢票报名开始
0 个回复 - 866 次查看 “NLPIR-ICTCLA2018分词最新版本发布与用户交流大会暨实验室开发日”将在2018年7月21日北京理工大学召开,此次交流会由大数据搜索与挖掘实验室主办,发布会将发布NLPIR-ICTCLAS2018全新分词版本,展示新版本的NLPIR大 ...2018-7-9 10:47 - 2794994234 - 学术资源/课程/会议/讲座
python中文分词jieba总结
1 个回复 - 2302 次查看 1. GitHub:https://github.com/fxsjy/jieba2.分词[hr] [*]jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 [*]jieba.cut_for_search ...2018-7-3 13:42 - jpld - python论坛
python中文分词jieba总结(下)
1 个回复 - 1343 次查看 基本思想: [*]将待抽取关键词的文本进行分词 [*]以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 [*]计算图中节点的PageRank,注意是无向带权图 使用示例:见 test/demo.py [*]词性标注 ...2018-7-3 13:43 - jpld - python论坛
用R进行分词到转向量的时候总是出错是怎么回事?
6 个回复 - 7560 次查看 用R语言进行分词,文本文档在转向量的时候总是出现错误: 此外: Warning message: In strsplit(msg, "\n") : 输入的字符串1不适用于此语言环境 将文本文档改为UTF-8的格式运行还是会出现提示: Error ...2016-1-7 10:50 - 羊乖乖 - R语言论坛
NLPIR语义分词技术给自然语言处理带来新驱动
0 个回复 - 620 次查看   随着信息的快速速增长,让搜索引擎成了人们查找信息的首要工具。如今在中文搜索引擎领域,国内搜索引擎已经同国外搜索引擎效果上相差不大了。能形成现在这样的局面,是有一个重要的原因:英文和中文两种语言自身 ...2018-6-28 11:53 - 2794994234 - python论坛
求写好的用R语言进行分词,然后制作词云的代码
6 个回复 - 5341 次查看 有没有大神可以指点一下,我学习中遇到了问题,想问一下哪位熟悉R语言的可以分享一下吗?2017-4-24 08:40 - fgwzjh - R语言论坛
R的中文分词处理包Rwordseg的安装说明(吐血推荐,十分详尽)
2 个回复 - 3765 次查看 最近在学习文本挖掘,需要R中的中文分词包Rwordseg,苦恼于这个JB包十分的难安装啊,搞了大半个星期终于装好了,现分享如下,一方面记下自己的学习成果,以免以后忘记,另一方面给需要Rwordseg包的学习者交 ...2016-11-8 22:17 - 伪数据分析师 - 爱问频道
汉语自动分词中的神经网络技术研究
0 个回复 - 444 次查看 摘要:本文讨论了人工神经网络技术应用于汉语自动分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。送人玫瑰,手留余香~如您已下载到该资源,可在回 ...2018-2-15 23:20 - AIworld - 人工智能论文版
一种改进的MM中文分词算法
0 个回复 - 392 次查看 摘要:对汉语的特点和分词概念作了简单介绍,详细说明了常用的分词算法,在此基础上,提出了一种改进的Ⅲ中文分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准 ...2018-2-12 16:20 - 论文库 - 人工智能论文版
中文分词与词性标注研究
0 个回复 - 683 次查看 摘要:分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分 ...2018-2-10 14:00 - 论文库 - 人工智能论文版
利用上下文信息解决汉语自动分词中的组合型歧义
0 个回复 - 428 次查看 摘要:组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。 ...2018-2-10 13:40 - AIworld - 人工智能论文版
三分钟学会 Python 中文分词与词云绘制——以豆瓣《至爱梵高》影评为例
4 个回复 - 1924 次查看 以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文 学习完本节课程,你将学会如何将任意中文文本生成词云。 工具库与语料准备 首先,我们需要导入所需的工具库,并对jupyter ...2018-2-2 11:04 - casey_c - python论坛
二次分词歧义的解决方法
0 个回复 - 410 次查看 摘要:在自然语言处理系统的应用过程中,很多系统允许用户自由挂接一部或多部领域词典。挂接领域词典的方法不同,在分词中引起二次分词歧义的比率是不同的,因此,通过实验,比较了两种挂接领域词典方法在分词中引起二次分 ...2018-2-9 18:20 - 人工智能-AI - 人工智能论文版
基于分词信息的中文机构名简称自动生成方法
0 个回复 - 630 次查看 摘要:在日常生活中,中文组织机构名简称被广泛使用。作为新词的重要来源之一,简称的识别和生成已成为自然语言处理领域研究的重点之一。分析中文组织机构名简称生成的特点,提出一种基于中文分词信息的组织机构名简称生 ...2018-2-9 11:20 - a智多星 - 人工智能论文版
基于统计分词的中文网页分类
0 个回复 - 365 次查看 摘要:本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类.因特网上不同类型和来源的文本内容用词风格和类型存 ...2018-2-8 12:40 - DL-er - 人工智能论文版
自动分词中的歧义处理
0 个回复 - 397 次查看 摘要:从自动分词中歧义产生的根源上对歧义进行了新的分类,并给出了处理每一类歧义的方法,提出自动分词中的歧义研究应集中在对第二类歧义的处理上。http://www.cqvip.com//QK/95939X/199806/2972441.html送人玫瑰, ...2018-2-8 05:40 - 人工智能-AI - 人工智能论文版
基于汉语句模的中文分词算法
0 个回复 - 423 次查看 摘要:讨论了在汉语信息计算机处理中的中文分词问题.综合考虑可行性和准确性,提出了旨在降低分词难度和提高分词精度的基于汉语句模理论的处理策略.实验表明,该方法是可行的和具有广阔发展空间的.http://www.cqvip.co ...2018-2-8 03:00 - DL-er - 人工智能论文版
基于中文分词的电子病历数据挖掘技术
0 个回复 - 561 次查看 摘要:电子病历中存在海量非结构化数据,其中隐含的信息对于医学研究与应用均具有重要的意义。文章通过比较各类中文分词器的优劣,结合词典扩充技术,挖掘出真实电子病历中的疾病与药品信息,并对疾病与疾病、疾病与药品 ...2018-2-7 16:40 - AIworld - 人工智能论文版
基于实例的中文分词-词性标注方法的应用研究
0 个回复 - 356 次查看 摘要:通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有 ...2018-2-2 13:20 - 论文库 - 人工智能论文版
智能化中文机械分词组件的设计
0 个回复 - 461 次查看 摘要:分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果。在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法, ...2018-2-2 12:20 - 人工智能-AI - 人工智能论文版
藏语自动分词中的数词识别方法研究
0 个回复 - 486 次查看 摘要:藏语自动分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的 ...2018-2-1 19:39 - AIworld - 人工智能论文版
基于交叉覆盖算法的中文分词
0 个回复 - 486 次查看 摘要:中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合 ...2018-2-1 03:20 - 人工智能-AI - 人工智能论文版
基于动态规划算法单字估价值的中文自动分词研究
0 个回复 - 388 次查看 摘要:提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估 ...2018-1-30 12:40 - 论文库 - 人工智能论文版
中文分词现状及未来发展
0 个回复 - 760 次查看 摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求。本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流 ...2018-1-28 22:40 - 人工智能-AI - 人工智能论文版
基于LSTM网络的序列标注中文分词
0 个回复 - 594 次查看 摘要:当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点.针对以上问题进行了研究,提出基于LSTM(longs ...2018-1-28 01:19 - 论文库 - 人工智能论文版
基于统计的开放式汉语自动分词
0 个回复 - 406 次查看 摘要:汉语自动分词在面向大规模真实文本时,仍然存在很多困难。本文在传统的语料库方法的基础上,提出一种基于开放性语料库的汉语自动分词方法。建立开放性语料库,并引入开放式知识库学习和评价机制。实验结果表明 ...2018-1-26 14:20 - 论文库 - 人工智能论文版
统计机器翻译中文分词优化技术研究
0 个回复 - 673 次查看 摘要:研究分词在统计机器翻译中的影响因素,分析不同分词对机器翻译词对齐模型的影响,提出基于粒度约束和子串标注的分词优化方法,并通过优化分词提高机器翻译的效果。原文链接:http://www.cqvip.com//QK/93371X/2 ...2018-1-26 00:19 - AIworld - 人工智能论文版
中文分词中未登录词分布规律及处理方法研究
0 个回复 - 477 次查看 摘要:本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大 ...2018-1-25 19:20 - 人工智能-AI - 人工智能论文版
中文分词和词性标注联合模型综述
0 个回复 - 750 次查看 摘要:中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究.由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注.然而管道 ...2018-1-25 09:40 - DL-er - 人工智能论文版
傣文自动分词系统的设计与实现
0 个回复 - 520 次查看 摘要:傣文自动分词是傣文信息处理中的基础工作,是后续进行傣文输入法开发、傣文自动机器翻译系统开发、傣文文本信息抽取等傣文信息处理的基础,受限于傣语语料库技术,傣文自然语言处理技术较为薄弱.本文首先对傣文特 ...2018-1-25 08:20 - AIworld - 人工智能论文版
面向舆情发现系统的中文语料分词研究
0 个回复 - 1255 次查看 摘要:中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系 ...2018-1-25 04:00 - 论文库 - 人工智能论文版
基于知识融合的CRFs藏文分词系统
0 个回复 - 392 次查看 摘要:藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在 ...2018-1-25 02:59 - AIworld - 人工智能论文版
基于条件随机场的中文短文本分词方法
0 个回复 - 360 次查看 摘要:中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型 ...2018-1-24 20:20 - 论文库 - 人工智能论文版
基于规则和统计的日语分词和词性标注的研究
0 个回复 - 502 次查看 摘要:日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了 ...2018-1-24 12:40 - 人工智能-AI - 人工智能论文版
机器翻译中汉语词语切分的现状——汉语分词与汉英机器翻译研究系列之一
0 个回复 - 543 次查看 摘要:汉语词语的切分是汉语自然语言处理和汉外机器翻译研究的一个难题。本文首先回顾了汉语词语切分的历史,评述了其主要的技术,然后对现有的汉英翻译软件的汉语分词系统进行测评。文章显示.汉语作为一种意合型、 ...2018-1-24 06:40 - 人工智能-AI - 人工智能论文版
基于中文分词和词频统计的图书在线评论文本分析
0 个回复 - 1023 次查看 摘要:网上书店除了提供品类繁多的图书外,还为读者呈现出丰富的在线评论。如何从海量书评中提取对网上书店、出版社或消费者有用的信息成为一个亟待研究的问题。通过自然语言处理的工具之一中文分词技术对图书在线评论 ...2018-1-24 04:20 - 论文库 - 人工智能论文版
基于CRF的古汉语分词标注模型研究
0 个回复 - 623 次查看 摘要:中文分词是自然语言处理的重要研究范畴,当前关于古汉语的分词研究尚有待探索。文章基于条件随机场(CRF)模型探究了古汉语文献的自动分词,并设计了2组对比实验,对包含有27部经典先秦典籍的古汉语语料库进行了词 ...2018-1-24 03:40 - DL-er - 人工智能论文版
基于Multigram语言模型的主动学习中文分词
0 个回复 - 520 次查看 摘要:分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型。提出了一种基于置 ...2018-1-23 04:40 - a智多星 - 人工智能论文版
一种快速高效的中文分词算法
0 个回复 - 387 次查看 摘要:对最大匹配法的缺陷、设计的中文分词算法的特点作了简单介绍,详细说明了一种快速高效的中文分词算法的词库建立方法和算法的实现过程,对分词中遇到的问题提出了相应的解决办法,实验证明,该算法具有较高的分 ...2018-1-22 19:00 - DL-er - 人工智能论文版
作战命令的分词技术研究
0 个回复 - 363 次查看 摘要:作战命令的分词技术研究是作战命令自动理解的重要基础,就作战命令的分词问题提出了2种数学模型。利用数据融合方法建立了2个和3个成熟汉语分词系统构成的词法分析器,并通过仿真分析对2种方法进行了比较,最终 ...2018-1-22 09:40 - DL-er - 人工智能论文版
基于FAQ的智能答疑系统中分词模块的设计
0 个回复 - 463 次查看 摘要:在基于FAQ的智能答疑系统中,分词处理是基础和关键。分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹 ...2018-1-22 06:40 - 人工智能-AI - 人工智能论文版
基于层次分析法的中文分词算法改进
0 个回复 - 384 次查看 摘要:首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个 ...2018-1-22 02:40 - 论文库 - 人工智能论文版
中文分词研究
0 个回复 - 670 次查看 摘要:中文分词是中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果。本文对于已有的基于词典,基于统计,基于理解的分词方法进行了详细的阐述和讨论,分析了它 ...2018-1-22 02:39 - 论文库 - 人工智能论文版
汉语分词和词性标注一体化分析的方法研究
0 个回复 - 394 次查看 摘要:提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器.初步的开放测试表明,该分析器的分词准确率和词性 ...2018-1-21 13:20 - AIworld - 人工智能论文版
基于EM算法的汉语自动分词方法
0 个回复 - 658 次查看 摘要:汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型, ...2018-1-21 10:20 - AIworld - 人工智能论文版
基于字位信息的中文分词方法研究
0 个回复 - 451 次查看 摘要:分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀 ...2018-1-13 01:19 - 论文库 - 人工智能论文版
基于门循环单元神经网络的中文分词
0 个回复 - 359 次查看 摘要:目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神 ...2018-1-12 09:00 - DL-er - 人工智能论文版
使用无监督学习改进中文分词
0 个回复 - 516 次查看 摘要:针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未 ...2018-1-12 02:00 - AIworld - 人工智能论文版
基于表示学习的中文分词算法探索
0 个回复 - 369 次查看 摘要:分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改 ...2018-1-9 13:00 - a智多星 - 人工智能论文版