结果:找到“中文 分词”相关内容96个,排序为按回复时间降序,搜索更多相关帖子请点击“高级
【推荐 2021更新】数字化转型MDA词频分析2001-2021 管理层经营讨论与分析词频占比
151 个回复 - 9799 次查看 数字化转型MDA词频分析2001-2021[hr]全流程构建以及最新版本袁淳数据:https://bbs.pinggu.org/thread-11243044-1-1.html 1、数据来源:基于上市公司年报种的管理层分析与讨论部分2、时间跨度:2001-2021年 ...2022-9-26 15:31 - a1010967149 - 现金交易版
【推荐 2021更新】企业数字化转型 (袁淳) 数字 2001-2021
146 个回复 - 9693 次查看 企业数字化转型词频 2001-2021 提供python程序+词频结果文件+最终可用文件 已购买过老版本的同学直接找我领取, 最新全流程袁淳版本请看最新贴: 全流程构建以及最新版本袁淳数据:https://bbs.pinggu.o ...2022-9-25 18:54 - a1010967149 - 现金交易版
【2021最新】数字化转型 企业数字化(已知最全版本 吴非 袁淳等)4种数据全部2021
169 个回复 - 29133 次查看 数字化转型数据合集整理了基本上最常见的数字化转型的度量方式,全部都是目前为止最为常用的顶刊数据用法,具体数据说明如下(全部为2021最新版本) (已购买的朋友直接找我领取) 一、吴非版本(2007-2021) ...2022-9-25 16:56 - a1010967149 - 现金交易版
自己写的python中文分词、去停、替换、保留特有词性、保存的函数
7 个回复 - 3338 次查看 自己写的python中文分词、去停、替换、保留特有词性、保存的代码。每一个功能都写成了函数的形式。只要换一下传入的数据,就可以自己使用。特别适合初学者,容易看懂,拿来就能用。代码基本上都是原创,有自己的思路 ...2017-4-16 20:19 - xiaochong1a - 现金交易版
安装Rtools及jiebaR中文分词包的教程
5 个回复 - 10257 次查看 因为在安装jiebaR这个包时,有人说可以直接在r cran上安装了,也就是用install.packages()这个函数来安装。 不过试了一下,还是不行。所以按照先安装Rtools然后再安装devtools及jiebaR的顺序来安装了。 这个包可 ...2014-11-29 16:15 - jiangbeilu - R语言论坛
数据挖掘-中文分词相关文章
6 个回复 - 3522 次查看 2013-4-11 16:11 - blue3034 - 数据分析与数据挖掘
一个基于字典匹配的中文分词程序JAVA代码
1 个回复 - 4003 次查看 本程序基于字典匹配而分词,速度可能比较慢,我还需要改进,不过不管怎么样,先把程序发上来。 备注:mapDemo是词典,在主方法当中调用。2013-12-17 21:15 - zhukovasky - MATLAB等数学软件专版
数据挖掘-中文分词方面的文章
0 个回复 - 1263 次查看 关于ICTCLAS分词方面的文章2013-4-11 16:05 - blue3034 - 数据分析与数据挖掘
用HMM做中文分词
0 个回复 - 2361 次查看 自然语言处理之中文分词 基于大规模语料库的机器学习方法,这是目前应用比较广泛、效果较好的解决方案.用到的统计模型是HMM。2013-2-21 15:13 - shucai2003 - 数据分析与数据挖掘
Nvivo中文分词问题
3 个回复 - 550 次查看 大佬们,在用Nvivo做中文词频分析的时候,有的分词是错误的,比如“卡拉胶”变成了“卡拉”,这个有没有什么方法进行修改啊?用的是Nvivo12plus2022-8-25 10:47 - Annabeth7 - Stata专版
文本分析|中文分词、英文分词和关键词提取
0 个回复 - 592 次查看 复制链接到浏览器可看【文本分析|中文分词、英文分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc jieba中文分词库,《Hamle ...2022-9-29 20:07 - 独岛 - Stata专版
如何用R语言进行2-gram中文分词
2 个回复 - 1268 次查看 例如句子:我爱北京。 可以划分为: 我 我爱 爱北 北京 京2018-11-6 11:38 - maiweijie4321 - R语言论坛
为什么R语言中文分词结果总是U开头的数字串?
1 个回复 - 1011 次查看 请教各位大神,刚刚学习R语言文本分析,用jiebaR和Rwordseg对中文语句分词之后的结果都是以\u开头的数字串,而不是中文字词,请问是哪里出了问题呢? 我在options-code-saving-default text coding里已经选择了UTF- ...2021-4-18 22:15 - 妥筱楠 - R语言论坛
R语言jiebaR中文分词报错
2 个回复 - 1934 次查看 Read 19 items > engine=worker() > word_seg=segment(word,engine) 2019-11-06 23:23:14 ../inst/include/lib/PreFilter.hpp:21 ERROR decode failed. 批量处理一批txt文档,有的报错,有的就分词成功,请 ...2019-11-6 23:28 - tiangy2019 - R语言论坛
R语言中文分词如何只提取自定义字典存在的词组
1 个回复 - 780 次查看 我先自己制定了一个分词的词典,然后对需要分词的字段按词典存在的词组进行分词提取,字典不存在的忽略不分词不提取。 例如,我的词典为:(“计算机”,“软件工程”,“中外合作”,“电气类”) 需要分词的字 ...2019-12-25 17:43 - 1794549457 - 灌水吧
常用的中文分词工具总结
2 个回复 - 1705 次查看 jieba[1]、THULAC[2]、SnowNLP[3]、NLPIR[4]、CoreNLP[5]、pkuseg[6]中科院分词工具pyn/pir和pyLTP等 [1]Sun, J. (2012). Jieba. . [2]Maosong Sun, Xinxiong Chen, Kaixu Zhang, Zhipeng Guo, and Zhiyuan ...2019-5-31 17:35 - wxs-shuang - Forum
【学习笔记】对于中文而言,由于基于汉字的翻译效果很差,因而分词是必须解决 ...
0 个回复 - 466 次查看 对于中文而言,由于基于汉字的翻译效果很差,因而分词是必须解决的问题,也就是说如果不做分词分词做得不好,即便用统计方法,效果也会很糟糕。 在统计机器翻译时代,因为各模块都是互相独立训练的,导致错误传播的 ...2019-9-2 20:57 - zhangjx1997 - Forum
python中文分词jieba总结
1 个回复 - 2303 次查看 1. GitHub:https://github.com/fxsjy/jieba2.分词[hr] [*]jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 [*]jieba.cut_for_search ...2018-7-3 13:42 - jpld - python论坛
python中文分词jieba总结(下)
1 个回复 - 1343 次查看 基本思想: [*]将待抽取关键词的文本进行分词 [*]以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 [*]计算图中节点的PageRank,注意是无向带权图 使用示例:见 test/demo.py [*]词性标注 ...2018-7-3 13:43 - jpld - python论坛
R的中文分词处理包Rwordseg的安装说明(吐血推荐,十分详尽)
2 个回复 - 3765 次查看 最近在学习文本挖掘,需要R中的中文分词包Rwordseg,苦恼于这个JB包十分的难安装啊,搞了大半个星期终于装好了,现分享如下,一方面记下自己的学习成果,以免以后忘记,另一方面给需要Rwordseg包的学习者交 ...2016-11-8 22:17 - 伪数据分析师 - 爱问频道
一种改进的MM中文分词算法
0 个回复 - 392 次查看 摘要:对汉语的特点和分词概念作了简单介绍,详细说明了常用的分词算法,在此基础上,提出了一种改进的Ⅲ中文分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准 ...2018-2-12 16:20 - 论文库 - 人工智能论文版
中文分词与词性标注研究
0 个回复 - 684 次查看 摘要:分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分 ...2018-2-10 14:00 - 论文库 - 人工智能论文版
三分钟学会 Python 中文分词与词云绘制——以豆瓣《至爱梵高》影评为例
4 个回复 - 1926 次查看 以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文 学习完本节课程,你将学会如何将任意中文文本生成词云。 工具库与语料准备 首先,我们需要导入所需的工具库,并对jupyter ...2018-2-2 11:04 - casey_c - python论坛
基于分词信息的中文机构名简称自动生成方法
0 个回复 - 631 次查看 摘要:在日常生活中,中文组织机构名简称被广泛使用。作为新词的重要来源之一,简称的识别和生成已成为自然语言处理领域研究的重点之一。分析中文组织机构名简称生成的特点,提出一种基于中文分词信息的组织机构名简称生 ...2018-2-9 11:20 - a智多星 - 人工智能论文版
基于统计分词中文网页分类
0 个回复 - 365 次查看 摘要:本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类.因特网上不同类型和来源的文本内容用词风格和类型存 ...2018-2-8 12:40 - DL-er - 人工智能论文版
基于汉语句模的中文分词算法
0 个回复 - 427 次查看 摘要:讨论了在汉语信息计算机处理中的中文分词问题.综合考虑可行性和准确性,提出了旨在降低分词难度和提高分词精度的基于汉语句模理论的处理策略.实验表明,该方法是可行的和具有广阔发展空间的.http://www.cqvip.co ...2018-2-8 03:00 - DL-er - 人工智能论文版
基于中文分词的电子病历数据挖掘技术
0 个回复 - 562 次查看 摘要:电子病历中存在海量非结构化数据,其中隐含的信息对于医学研究与应用均具有重要的意义。文章通过比较各类中文分词器的优劣,结合词典扩充技术,挖掘出真实电子病历中的疾病与药品信息,并对疾病与疾病、疾病与药品 ...2018-2-7 16:40 - AIworld - 人工智能论文版
基于实例的中文分词-词性标注方法的应用研究
0 个回复 - 357 次查看 摘要:通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有 ...2018-2-2 13:20 - 论文库 - 人工智能论文版
智能化中文机械分词组件的设计
0 个回复 - 461 次查看 摘要:分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果。在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法, ...2018-2-2 12:20 - 人工智能-AI - 人工智能论文版
基于交叉覆盖算法的中文分词
0 个回复 - 487 次查看 摘要:中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合 ...2018-2-1 03:20 - 人工智能-AI - 人工智能论文版
基于动态规划算法单字估价值的中文自动分词研究
0 个回复 - 389 次查看 摘要:提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估 ...2018-1-30 12:40 - 论文库 - 人工智能论文版
中文分词现状及未来发展
0 个回复 - 760 次查看 摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求。本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流 ...2018-1-28 22:40 - 人工智能-AI - 人工智能论文版
基于LSTM网络的序列标注中文分词
0 个回复 - 594 次查看 摘要:当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点.针对以上问题进行了研究,提出基于LSTM(longs ...2018-1-28 01:19 - 论文库 - 人工智能论文版
统计机器翻译中文分词优化技术研究
0 个回复 - 675 次查看 摘要:研究分词在统计机器翻译中的影响因素,分析不同分词对机器翻译词对齐模型的影响,提出基于粒度约束和子串标注的分词优化方法,并通过优化分词提高机器翻译的效果。原文链接:http://www.cqvip.com//QK/93371X/2 ...2018-1-26 00:19 - AIworld - 人工智能论文版
中文分词中未登录词分布规律及处理方法研究
0 个回复 - 477 次查看 摘要:本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大 ...2018-1-25 19:20 - 人工智能-AI - 人工智能论文版
中文分词和词性标注联合模型综述
0 个回复 - 751 次查看 摘要:中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究.由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注.然而管道 ...2018-1-25 09:40 - DL-er - 人工智能论文版
面向舆情发现系统的中文语料分词研究
0 个回复 - 1255 次查看 摘要:中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系 ...2018-1-25 04:00 - 论文库 - 人工智能论文版
基于条件随机场的中文短文本分词方法
0 个回复 - 360 次查看 摘要:中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型 ...2018-1-24 20:20 - 论文库 - 人工智能论文版
基于中文分词和词频统计的图书在线评论文本分析
0 个回复 - 1023 次查看 摘要:网上书店除了提供品类繁多的图书外,还为读者呈现出丰富的在线评论。如何从海量书评中提取对网上书店、出版社或消费者有用的信息成为一个亟待研究的问题。通过自然语言处理的工具之一中文分词技术对图书在线评论 ...2018-1-24 04:20 - 论文库 - 人工智能论文版
基于Multigram语言模型的主动学习中文分词
0 个回复 - 520 次查看 摘要:分词中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型。提出了一种基于置 ...2018-1-23 04:40 - a智多星 - 人工智能论文版
一种快速高效的中文分词算法
0 个回复 - 388 次查看 摘要:对最大匹配法的缺陷、设计的中文分词算法的特点作了简单介绍,详细说明了一种快速高效的中文分词算法的词库建立方法和算法的实现过程,对分词中遇到的问题提出了相应的解决办法,实验证明,该算法具有较高的分 ...2018-1-22 19:00 - DL-er - 人工智能论文版
基于层次分析法的中文分词算法改进
0 个回复 - 384 次查看 摘要:首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个 ...2018-1-22 02:40 - 论文库 - 人工智能论文版
中文分词研究
0 个回复 - 670 次查看 摘要:中文分词中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果。本文对于已有的基于词典,基于统计,基于理解的分词方法进行了详细的阐述和讨论,分析了它 ...2018-1-22 02:39 - 论文库 - 人工智能论文版
基于字位信息的中文分词方法研究
0 个回复 - 452 次查看 摘要:分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀 ...2018-1-13 01:19 - 论文库 - 人工智能论文版
基于门循环单元神经网络的中文分词
0 个回复 - 359 次查看 摘要:目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神 ...2018-1-12 09:00 - DL-er - 人工智能论文版
使用无监督学习改进中文分词
0 个回复 - 517 次查看 摘要:针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未 ...2018-1-12 02:00 - AIworld - 人工智能论文版
基于表示学习的中文分词算法探索
0 个回复 - 370 次查看 摘要:分词中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改 ...2018-1-9 13:00 - a智多星 - 人工智能论文版
基于python的中文分词的实现及应用
0 个回复 - 550 次查看 摘要:中文分词的实现及应用属于自然语言处理范畴,完成的是中文分词在Python语言环境下的实现,以及利用这个实现的一个应用程序接口和一个中文文本处理的应用。设计共分为五个部分,分别是:分词模块、包装模块、应用程 ...2018-1-2 10:00 - AIworld - 人工智能论文版
面向未登录领域词切分的中文分词技术研究
0 个回复 - 401 次查看 摘要:本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的 ...2017-12-31 08:40 - AIworld - 人工智能论文版
基于中文分词的文本自动校对算法
0 个回复 - 624 次查看 摘要:中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。依据中文分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召 ...2017-12-30 14:00 - 论文库 - 人工智能论文版
基于M~3N的中文分词与命名实体识别一体化
0 个回复 - 376 次查看 摘要:中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分 ...2017-12-30 11:00 - 论文库 - 人工智能论文版
中文分词算法研究与分析
0 个回复 - 516 次查看 摘要:中文分词作为搜索引擎以及自然语言处理的重要组成部分,是当前这一领域的研究热点和难点之一。文中首先分析了中文分词的特点,包含基于字符串匹配分词算法、基于统计分词算法、基于理解分词算法这三大类的各种中 ...2017-12-30 02:00 - a智多星 - 人工智能论文版
基于表示学习的中文分词
0 个回复 - 556 次查看 摘要:为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结 ...2017-12-29 19:00 - DL-er - 人工智能论文版
中文分词算法优化研究
0 个回复 - 405 次查看 摘要:对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固 ...2017-12-28 11:20 - AIworld - 人工智能论文版
基于双向长短时记忆模型的中文分词方法
0 个回复 - 572 次查看 摘要:中文分词中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双 ...2017-12-28 09:00 - 论文库 - 人工智能论文版
基于字分类的中文分词的研究
0 个回复 - 466 次查看 摘要:中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字, ...2017-12-27 19:20 - 人工智能-AI - 人工智能论文版
关于中文分词问题数据结构模型的讨论
0 个回复 - 449 次查看 摘要:在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模 ...2017-12-27 01:20 - a智多星 - 人工智能论文版
基于双层哈希表的中文分词算法优化
0 个回复 - 489 次查看 摘要:采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。原文链接:http:// ...2017-10-30 03:19 - 论文库 - 人工智能论文版
搜索引擎之中文分词技术研究
0 个回复 - 584 次查看 摘要:近年来,网络发展迅猛,出现了很多新的网络名词,如云计算、虚拟技术和互联网+等,国家也非常重视中国互联网的发展。2015年5月21日互联网金融大会在乌镇召开,共同探讨了"互联网金融+"新机遇与行业发展。在这样 ...2017-10-30 03:00 - a智多星 - 人工智能论文版
中文合成词识别及分词修正
0 个回复 - 506 次查看 摘要:提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度 ...2017-10-28 03:20 - 论文库 - 人工智能论文版
基于中文信息处理的古代汉语分词研究
0 个回复 - 504 次查看 摘要:本文在计算机语言处理与古代汉语词汇研究的交叉学科领域进行了新的探索,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。统计结果显示,古代汉语双音词比重自先秦以来以一种 ...2017-10-26 08:40 - DL-er - 人工智能论文版
基于双数组Trie树中文分词研究
0 个回复 - 680 次查看 摘要:对双数组Trie树(Double—ArrayTrie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点 ...2017-10-26 08:00 - DL-er - 人工智能论文版
中文自动分词系统的研究与实现
0 个回复 - 707 次查看 摘要:所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格 ...2017-9-29 08:20 - a智多星 - 人工智能论文版
几何命题处理中的中文分词技术
0 个回复 - 398 次查看 摘要:如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点.而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作.该文通过对几何 ...2017-9-25 16:00 - 论文库 - 人工智能论文版
面向专利文献的中文分词技术的研究
0 个回复 - 718 次查看 摘要:针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了 ...2017-9-24 10:00 - a智多星 - 人工智能论文版
中文分词典的最大匹配索引法
0 个回复 - 628 次查看 摘要:提高自然语言词典的检索速度是提高计算机处理系统速度的重要途径,考虑到汉语语词的切分中使用词典的特点,参考“Trie索引”方法,提出了一种多层次的词典索引结构和最大匹配待渣汉字串的检索方法,使用这 ...2017-9-24 05:20 - a智多星 - 人工智能论文版
一种中文自然语言表达交通信息的跨阶分词算法
0 个回复 - 397 次查看 摘要:在分析中文分词算法和交通信息自然语言表达特点基础上,提出了一种自然语言表达交通信息的跨阶匹配分词算法,以适应动态出行信息服务对数字形式结构化实时交通信息的迫切需求。该算法充分考虑了交通信息自然语 ...2017-9-23 17:20 - a智多星 - 人工智能论文版
《资讯处理用中文分词规范》设计理念及规范内容
0 个回复 - 570 次查看 摘要:《资讯处理用中文分词规范》有下列两个突破:(1)提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作自动翻译、资讯检索等自 ...2017-9-23 13:40 - 论文库 - 人工智能论文版
自然语言处理技术中的中文分词研究
0 个回复 - 499 次查看 摘要:中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词都是不可或缺的环节。随着互联网在中国的兴起,对中文信息处理提出更高要求,即在语义层面上处理中文 ...2017-9-23 06:00 - a智多星 - 人工智能论文版
中文分词算法在自然语言处理技术中的研究及应用
0 个回复 - 629 次查看 摘要:中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联网在中国的兴起,更对中文信息处理提出要求,即在语义层面 ...2017-9-23 04:40 - 人工智能-AI - 人工智能论文版
自然语言处理中的中文自动分词技术
0 个回复 - 649 次查看 摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求。本文说明了自动分词中存在的两个最大困难和解决方法。对各种分词算法进行介绍,并对各种算法进 ...2017-9-23 00:20 - 人工智能-AI - 人工智能论文版
一种优化的用于中文分词的CRF机器学习模型
0 个回复 - 870 次查看 摘要:目前效果最好的中文分词方法是基于字标注的机器学习方法。作为中文分词领域使用最广泛并且效果最好的机器学习模型,条件随机场(CRF)模型进行机器学习的代价很高,非常耗费时间和内存。通过对条件随机场机器学习 ...2017-9-16 03:20 - a智多星 - 人工智能论文版
R语言中文分词包jiebar
1 个回复 - 1101 次查看 jiebaR有没有办法跟mmseg4j一样分词不切成字符串 就是切成“我 爱 中国 天安门”这样 用空格分词 分完之后依旧是一整个字符串2017-7-28 14:48 - xm123155 - R语言论坛
R分词函数segmentCN,csv文件8M,15万行中文文本。Rstudio一直运行停不了
1 个回复 - 1667 次查看 64位,16G内存。memory.limit设为102400.分词函数运行一个小时了,还没分完。是什么情况?2017-7-11 16:31 - chaunceyzhou - R语言论坛
大数据中文分词:NLPIR大数据挖掘系统
1 个回复 - 2602 次查看 词法分析是自然语言处理的基础与关键。灵玖软件在多年研究工作积累的基础上,研制出了NLPIR分词挖掘系统,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微 ...2016-9-21 15:36 - 2794994234 - python论坛
请问进行R语言的中文挖掘的相关分词包以及其他包有哪些?
6 个回复 - 3165 次查看 各位朋友好: 本人最近想做一下,R中文挖掘,但是不知道有哪些分词包和相关的处理包。 下载了几个都显示我的R版本3.2.2不可用。 如下图2015-12-22 09:46 - goodge - R语言论坛
R语言中文分词报错求指点
4 个回复 - 3708 次查看 >word12015-11-25 14:44 - 中国火箭 - R语言论坛
大数据中文分词:黄金眼 WEB 大数据搜索与挖掘云服务系统
1 个回复 - 1202 次查看   黄金眼云服务系统在客户端不需要安装。因为本系统是采用 B/S 架构设计的软件系统,支持 HTML5 最新技术,所以建议您使用最新版本谷歌浏览器或者 360 浏览器访问本系统。  (1)黄金眼虽不用安装,但需对谷歌浏览 ...2016-9-1 16:42 - 2794994234 - python论坛
大数据语义分析:灵玖中文分词分词处理
0 个回复 - 1756 次查看  在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再 ...2016-11-9 15:43 - 2794994234 - python论坛
R语言中文分词请教
30 个回复 - 16400 次查看 请教一下,用R中的Rwordseg包进行中文分词,segmentCN函数分词后构建corpus,再构建tdm词条文档矩阵,可最终结果始终是这样的,求解。。。。谢谢[/backcolor]案\n除了 1 案\n正\n在 ...2014-10-29 11:07 - yuanhangzhe - R语言论坛
大数据中文分词:灵玖汉语智能分词系统
1 个回复 - 842 次查看  汉语词法分析系统中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应 ...2016-9-6 15:51 - 2794994234 - python论坛
灵玖大数据中文分词:信息智能过滤与内容审计系统
0 个回复 - 1158 次查看   信息智能过滤与内容审计系统(IFCA 系统)是灵玖中科软件自主研发的信息智能过滤与内容审计系统,可以快速便捷地匹配大量自定义的关键字、词,达到净化网络空间,提取情报的目的, 确保社会与个人的信息内容。   ...2016-8-30 16:15 - 2794994234 - python论坛
灵玖大数据中文分词:ELINT 网络舆情挖掘系统
0 个回复 - 2095 次查看   随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论、影响受众的影响力,网上形成的 舆论热点不断,频繁地成为社会热点乃至引起重大舆论危机。网络舆情监测需要在互联网的海量信息中监测关注的舆情,工作时效性要 ...2016-8-29 15:16 - 2794994234 - python论坛
灵玖大数据搜索应用:中文分词新词发现系统
0 个回复 - 1177 次查看   在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。据中国语言文字工 ...2016-8-25 15:42 - 2794994234 - python论坛
R语言中文挖掘方面中文分词后转化为文档词频矩阵后出现空格和换行的问题
12 个回复 - 8596 次查看 使用Rwordseg包进行中文分词,然后用tm包中的Corpus转换语料库,利用DocumentTermMartix进行文档词频转换,悲剧的发现词频中有很多空格和换行符,各位大侠,应该如何解决呢?谢谢。 具体代码如下: c.vec2015-11-12 22:04 - weberxu - R语言论坛