结果:找到“分词”相关内容212个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
Economics in One Lesson一课经济学英文原著及部分词汇分享
11 个回复 - 3224 次查看
A million copy seller, Henry Hazlitt’s Economics in One Lesson is a classic economic primer. But it is also much more, having become a fundamental influence on modern “libertarian” economics of the ...
2018-8-3 09:05 - msc6630731 - 外语学习
Predictably Irrational怪诞行为学原版书及部分词汇整理
3 个回复 - 2289 次查看
Predictably Irrational: The Hidden Forces That Shape Our Decisions is a 2008 book by Dan Ariely, in which he challenges readers' assumptions about making decisions based on rational thought. Ariel ...
2018-8-1 08:58 - msc6630731 - 外语学习
Romeo and Juliet(1597)罗密欧与朱丽叶英文原著及部分词汇分享
0 个回复 - 2927 次查看
Romeo and Juliet is a tragedy written by William Shakespeare early in his career about two young star-crossed lovers whose deaths ultimately reconcile their feuding families. It was among Shakespeare' ...
2018-8-2 09:49 - msc6630731 - 外语学习
A Christmas Carol圣诞颂歌及部分词汇整理分享
6 个回复 - 3544 次查看
A Christmas Carol is a novella by English author Charles Dickens first published by Chapman & Hall on 17 December 1843. The story tells of sour and stingy Ebenezer Scrooge's ideological, ethical, ...
2018-7-31 06:44 - msc6630731 - 外语学习
安装Rtools及jiebaR中文分词包的教程
5 个回复 - 10256 次查看
因为在安装jiebaR这个包时,有人说可以直接在r cran上安装了,也就是用install.packages()这个函数来安装。
不过试了一下,还是不行。所以按照先安装Rtools然后再安装devtools及jiebaR的顺序来安装了。
这个包可 ...
2014-11-29 16:15 - jiangbeilu - R语言论坛
Nvivo中文分词问题
3 个回复 - 550 次查看
大佬们,在用Nvivo做中文词频分析的时候,有的
分词是错误的,比如“卡拉胶”变成了“卡拉”,这个有没有什么方法进行修改啊?用的是Nvivo12plus
2022-8-25 10:47 - Annabeth7 - Stata专版
文本分析|中文分词、英文分词和关键词提取
0 个回复 - 592 次查看
复制链接到浏览器可看【文本分析|中文
分词、英文
分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc
jieba中文
分词库,《Hamle ...
2022-9-29 20:07 - 独岛 - Stata专版
文本分词
5 个回复 - 1267 次查看
python中如何导入一个文件夹中的文件进行
分词,结束后,再自动导入同一个文件夹的另一个文件,在
分词,如此循环往复,毕业论文需要,跪求大神指导
2022-2-11 21:43 - 15560169761 - python论坛
为什么R语言中文分词结果总是U开头的数字串?
1 个回复 - 1008 次查看
请教各位大神,刚刚学习R语言文本分析,用jiebaR和Rwordseg对中文语句
分词之后的结果都是以\u开头的数字串,而不是中文字词,请问是哪里出了问题呢?
我在options-code-saving-default text coding里已经选择了UTF- ...
2021-4-18 22:15 - 妥筱楠 - R语言论坛
请问R如何自定词典进行分词
40 个回复 - 22388 次查看
我有这样一列的数据,R语言中Rwordseg包分不出来,我如何自定词库(淘宝,....)对这列文本进行规范,哪位大哥能指教一下小弟..
2014-3-28 00:44 - 朽木七根 - R语言论坛
R语言 Rwordseg分词问题
0 个回复 - 679 次查看
用 insertWords 之后还是不能对新词进行正确的划分,这是包的问题吗?
> insertWords("甲状腺")
> segmentCN("甲状腺是重要的器官")
[1] "甲" "状腺" "是" "重要" "的" "器官"
2020-5-29 12:19 - 跳蚤侠 - R语言论坛
R语言jiebaR中文分词报错
2 个回复 - 1932 次查看
Read 19 items
> engine=worker()
> word_seg=segment(word,engine)
2019-11-06 23:23:14 ../inst/include/lib/PreFilter.hpp:21 ERROR decode failed.
批量处理一批txt文档,有的报错,有的就
分词成功,请 ...
2019-11-6 23:28 - tiangy2019 - R语言论坛
R语言中文分词如何只提取自定义字典存在的词组
1 个回复 - 779 次查看
我先自己制定了一个
分词的词典,然后对需要
分词的字段按词典存在的词组进行
分词提取,字典不存在的忽略不
分词不提取。
例如,我的词典为:(“计算机”,“软件工程”,“中外合作”,“电气类”)
需要
分词的字 ...
2019-12-25 17:43 - 1794549457 - 灌水吧
常用的中文分词工具总结
2 个回复 - 1702 次查看
jieba[1]、THULAC[2]、SnowNLP[3]、NLPIR[4]、CoreNLP[5]、pkuseg[6]中科院
分词工具pyn/pir和pyLTP等
[1]Sun, J. (2012). Jieba. .
[2]Maosong Sun, Xinxiong Chen, Kaixu Zhang, Zhipeng Guo, and Zhiyuan ...
2019-5-31 17:35 - wxs-shuang - Forum
每秒20W次并发分词检索, 架构如何设计?
1 个回复 - 646 次查看
CDA数据分析师[/backcolor]:数据科学、人工智能从业者的在线大学。
[/backcolor][/backcolor]数据科学(Python/R/Julia)数据分析、机器学习、深度学习 Q群:874447702[/backcolor][/backcolor]常见的文本检索方案 ...
2019-9-12 17:02 - 时光人 - JAVA语言开发技术
如何分词?
6 个回复 - 888 次查看
请教大家,比如我有一列文本数据(如下英文,只是某个单元格的内容),每个单元格都有这么多文字。我现在想把文本中的Conclusions这个关键词之后的文字保留,并单独作为一列,Conclusions之前的文字都舍弃。这用R该怎 ...
2019-8-19 16:29 - lanhong1993 - R语言论坛
结巴分词的时候出现错误
1 个回复 - 1110 次查看
大神救命啊,不知道该怎么改
代码:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
import jieba.analyse
import openpyxl
if __name__ == "__main__":
wbk = open ...
2019-3-12 09:36 - frida372997240 - python论坛
结巴分词对csv文件分词问题
2 个回复 - 4005 次查看
fenci = read.csv('/Users/vigossdawn/Desktop/
分词.csv',encoding = 'UTF-8')
engin4 = worker(bylines = TRUE,encoding = 'UTF-8')
jieguo = segment(fenci,engin4)
以上部分是代码,读取csv文件,csv中每个 ...
2018-9-27 16:32 - xunxunyulove - R语言论坛
python中文分词jieba总结
1 个回复 - 2302 次查看
1. GitHub:https://github.com/fxsjy/jieba2.
分词[hr]
[*]jieba.cut 方法接受三个输入参数: 需要
分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
[*]jieba.cut_for_search ...
2018-7-3 13:42 - jpld - python论坛
python中文分词jieba总结(下)
1 个回复 - 1343 次查看
基本思想:
[*]将待抽取关键词的文本进行
分词
[*]以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
[*]计算图中节点的PageRank,注意是无向带权图
使用示例:见 test/demo.py
[*]词性标注
...
2018-7-3 13:43 - jpld - python论坛
用R进行分词到转向量的时候总是出错是怎么回事?
6 个回复 - 7560 次查看
用R语言进行
分词,文本文档在转向量的时候总是出现错误:
此外: Warning message:
In strsplit(msg, "\n") : 输入的字符串1不适用于此语言环境
将文本文档改为UTF-8的格式运行还是会出现提示:
Error ...
2016-1-7 10:50 - 羊乖乖 - R语言论坛
汉语自动分词中的神经网络技术研究
0 个回复 - 444 次查看
摘要:本文讨论了人工神经网络技术应用于汉语自动
分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。送人玫瑰,手留余香~如您已下载到该资源,可在回 ...
2018-2-15 23:20 - AIworld - 人工智能论文版
一种改进的MM中文分词算法
0 个回复 - 392 次查看
摘要:对汉语的特点和
分词概念作了简单介绍,详细说明了常用的
分词算法,在此基础上,提出了一种改进的Ⅲ中文
分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准 ...
2018-2-12 16:20 - 论文库 - 人工智能论文版
中文分词与词性标注研究
0 个回复 - 683 次查看
摘要:
分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前
分词和词性标注研究与应用成果的基础上,对中文
分词和词性标注的基本方法进行了分类和探讨。首先在分 ...
2018-2-10 14:00 - 论文库 - 人工智能论文版
利用上下文信息解决汉语自动分词中的组合型歧义
0 个回复 - 428 次查看
摘要:组合型歧义切分字段一直是汉语自动
分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。 ...
2018-2-10 13:40 - AIworld - 人工智能论文版
二次分词歧义的解决方法
0 个回复 - 410 次查看
摘要:在自然语言处理系统的应用过程中,很多系统允许用户自由挂接一部或多部领域词典。挂接领域词典的方法不同,在
分词中引起二次
分词歧义的比率是不同的,因此,通过实验,比较了两种挂接领域词典方法在
分词中引起二次分 ...
2018-2-9 18:20 - 人工智能-AI - 人工智能论文版
基于分词信息的中文机构名简称自动生成方法
0 个回复 - 630 次查看
摘要:在日常生活中,中文组织机构名简称被广泛使用。作为新词的重要来源之一,简称的识别和生成已成为自然语言处理领域研究的重点之一。分析中文组织机构名简称生成的特点,提出一种基于中文
分词信息的组织机构名简称生 ...
2018-2-9 11:20 - a智多星 - 人工智能论文版
基于统计分词的中文网页分类
0 个回复 - 365 次查看
摘要:本文将基于统计的二元
分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行
分词,进而进行网页的分类.因特网上不同类型和来源的文本内容用词风格和类型存 ...
2018-2-8 12:40 - DL-er - 人工智能论文版
自动分词中的歧义处理
0 个回复 - 397 次查看
摘要:从自动
分词中歧义产生的根源上对歧义进行了新的分类,并给出了处理每一类歧义的方法,提出自动
分词中的歧义研究应集中在对第二类歧义的处理上。http://www.cqvip.com//QK/95939X/199806/2972441.html送人玫瑰, ...
2018-2-8 05:40 - 人工智能-AI - 人工智能论文版
基于汉语句模的中文分词算法
0 个回复 - 423 次查看
摘要:讨论了在汉语信息计算机处理中的中文
分词问题.综合考虑可行性和准确性,提出了旨在降低
分词难度和提高
分词精度的基于汉语句模理论的处理策略.实验表明,该方法是可行的和具有广阔发展空间的.http://www.cqvip.co ...
2018-2-8 03:00 - DL-er - 人工智能论文版
基于中文分词的电子病历数据挖掘技术
0 个回复 - 561 次查看
摘要:电子病历中存在海量非结构化数据,其中隐含的信息对于医学研究与应用均具有重要的意义。文章通过比较各类中文
分词器的优劣,结合词典扩充技术,挖掘出真实电子病历中的疾病与药品信息,并对疾病与疾病、疾病与药品 ...
2018-2-7 16:40 - AIworld - 人工智能论文版
基于实例的中文分词-词性标注方法的应用研究
0 个回复 - 356 次查看
摘要:通过实验证明基于实例的中文
分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的
分词-词性标注不仅具有 ...
2018-2-2 13:20 - 论文库 - 人工智能论文版
智能化中文机械分词组件的设计
0 个回复 - 461 次查看
摘要:
分词是计算机系统对自然语言处理的第一步,
分词的方法与准确率将显著影响自然语言的处理效果。在分析机械
分词技术的基础上,提出构建智能化机械
分词组件的思想,论述构建智能化中文
分词组件的基本思路与方法, ...
2018-2-2 12:20 - 人工智能-AI - 人工智能论文版
藏语自动分词中的数词识别方法研究
0 个回复 - 486 次查看
摘要:藏语自动
分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动
分词过程中,通过判断待切分的 ...
2018-2-1 19:39 - AIworld - 人工智能论文版
基于交叉覆盖算法的中文分词
0 个回复 - 486 次查看
摘要:中文
分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文
分词。将中文
分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合 ...
2018-2-1 03:20 - 人工智能-AI - 人工智能论文版
基于动态规划算法单字估价值的中文自动分词研究
0 个回复 - 388 次查看
摘要:提出一种基于动态规划算法单字估价值的中文自动
分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估 ...
2018-1-30 12:40 - 论文库 - 人工智能论文版
中文分词现状及未来发展
0 个回复 - 760 次查看
摘要:中文自动
分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的
分词方法提出了更高要求。本文从中文
分词的研究现状出发,首先列举了一些具有代表性的典型
分词系统,比较了当今主流 ...
2018-1-28 22:40 - 人工智能-AI - 人工智能论文版
基于LSTM网络的序列标注中文分词法
0 个回复 - 594 次查看
摘要:当前主流的中文
分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点.针对以上问题进行了研究,提出基于LSTM(longs ...
2018-1-28 01:19 - 论文库 - 人工智能论文版
基于统计的开放式汉语自动分词
0 个回复 - 406 次查看
摘要:汉语自动
分词在面向大规模真实文本时,仍然存在很多困难。本文在传统的语料库方法的基础上,提出一种基于开放性语料库的汉语自动
分词方法。建立开放性语料库,并引入开放式知识库学习和评价机制。实验结果表明 ...
2018-1-26 14:20 - 论文库 - 人工智能论文版
统计机器翻译中文分词优化技术研究
0 个回复 - 673 次查看
摘要:研究
分词在统计机器翻译中的影响因素,分析不同
分词对机器翻译词对齐模型的影响,提出基于粒度约束和子串标注的
分词优化方法,并通过优化
分词提高机器翻译的效果。原文链接:http://www.cqvip.com//QK/93371X/2 ...
2018-1-26 00:19 - AIworld - 人工智能论文版
中文分词中未登录词分布规律及处理方法研究
0 个回复 - 477 次查看
摘要:本文以较大规模汉语语料库为基础,对中文
分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大 ...
2018-1-25 19:20 - 人工智能-AI - 人工智能论文版
中文分词和词性标注联合模型综述
0 个回复 - 750 次查看
摘要:中文
分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究.由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行
分词,然后使用
分词阶段的结果进行词性标注.然而管道 ...
2018-1-25 09:40 - DL-er - 人工智能论文版
傣文自动分词系统的设计与实现
0 个回复 - 520 次查看
摘要:傣文自动
分词是傣文信息处理中的基础工作,是后续进行傣文输入法开发、傣文自动机器翻译系统开发、傣文文本信息抽取等傣文信息处理的基础,受限于傣语语料库技术,傣文自然语言处理技术较为薄弱.本文首先对傣文特 ...
2018-1-25 08:20 - AIworld - 人工智能论文版
面向舆情发现系统的中文语料分词研究
0 个回复 - 1255 次查看
摘要:中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料
分词方法。它通过采用层叠隐马尔科夫模型将中文
分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系 ...
2018-1-25 04:00 - 论文库 - 人工智能论文版
基于知识融合的CRFs藏文分词系统
0 个回复 - 392 次查看
摘要:藏文
分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未
分词的语料进行
分词,针对基于条件随机场
分词结果中存在 ...
2018-1-25 02:59 - AIworld - 人工智能论文版
基于条件随机场的中文短文本分词方法
0 个回复 - 360 次查看
摘要:中文
分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文
分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的
分词方法。该方法首先利用机器学习中的条件随机场模型 ...
2018-1-24 20:20 - 论文库 - 人工智能论文版
基于规则和统计的日语分词和词性标注的研究
0 个回复 - 502 次查看
摘要:日语
分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语
分词和词性标注方法,使用基于单一感知器的联合
分词和词性标注算法作为基本框架,在其中加入了 ...
2018-1-24 12:40 - 人工智能-AI - 人工智能论文版
基于中文分词和词频统计的图书在线评论文本分析
0 个回复 - 1023 次查看
摘要:网上书店除了提供品类繁多的图书外,还为读者呈现出丰富的在线评论。如何从海量书评中提取对网上书店、出版社或消费者有用的信息成为一个亟待研究的问题。通过自然语言处理的工具之一中文
分词技术对图书在线评论 ...
2018-1-24 04:20 - 论文库 - 人工智能论文版
基于CRF的古汉语分词标注模型研究
0 个回复 - 623 次查看
摘要:中文
分词是自然语言处理的重要研究范畴,当前关于古汉语的
分词研究尚有待探索。文章基于条件随机场(CRF)模型探究了古汉语文献的自动
分词,并设计了2组对比实验,对包含有27部经典先秦典籍的古汉语语料库进行了词 ...
2018-1-24 03:40 - DL-er - 人工智能论文版
基于Multigram语言模型的主动学习中文分词
0 个回复 - 520 次查看
摘要:
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导
分词方法为基本框架,使用EM算法建立n元multigram语言模型。提出了一种基于置 ...
2018-1-23 04:40 - a智多星 - 人工智能论文版
一种快速高效的中文分词算法
0 个回复 - 387 次查看
摘要:对最大匹配法的缺陷、设计的中文
分词算法的特点作了简单介绍,详细说明了一种快速高效的中文
分词算法的词库建立方法和算法的实现过程,对
分词中遇到的问题提出了相应的解决办法,实验证明,该算法具有较高的分 ...
2018-1-22 19:00 - DL-er - 人工智能论文版
作战命令的分词技术研究
0 个回复 - 363 次查看
摘要:作战命令的
分词技术研究是作战命令自动理解的重要基础,就作战命令的
分词问题提出了2种数学模型。利用数据融合方法建立了2个和3个成熟汉语
分词系统构成的词法分析器,并通过仿真分析对2种方法进行了比较,最终 ...
2018-1-22 09:40 - DL-er - 人工智能论文版
基于FAQ的智能答疑系统中分词模块的设计
0 个回复 - 463 次查看
摘要:在基于FAQ的智能答疑系统中,
分词处理是基础和关键。
分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统
分词模块采取普通词典和专业词典混合的词典设计方案,
分词算法采用正向最大匹 ...
2018-1-22 06:40 - 人工智能-AI - 人工智能论文版
基于层次分析法的中文分词算法改进
0 个回复 - 384 次查看
摘要:首先简要介绍了中文
分词的应用领域,指出中文
分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械
分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个 ...
2018-1-22 02:40 - 论文库 - 人工智能论文版
中文分词研究
0 个回复 - 670 次查看
摘要:中文
分词是中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果。本文对于已有的基于词典,基于统计,基于理解的
分词方法进行了详细的阐述和讨论,分析了它 ...
2018-1-22 02:39 - 论文库 - 人工智能论文版
汉语分词和词性标注一体化分析的方法研究
0 个回复 - 394 次查看
摘要:提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器.初步的开放测试表明,该分析器的
分词准确率和词性 ...
2018-1-21 13:20 - AIworld - 人工智能论文版
基于EM算法的汉语自动分词方法
0 个回复 - 658 次查看
摘要:汉语自动
分词是中文信息处理中的基础课题。本文首先对汉语
分词的基本概念与应用,以及汉语
分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动
分词的零阶马尔可夫模型, ...
2018-1-21 10:20 - AIworld - 人工智能论文版
基于字位信息的中文分词方法研究
0 个回复 - 451 次查看
摘要:分析中文自动
分词的现状,介绍和描述几种不同的
分词思想和方法,提出一种基于字位的
分词方法。此
分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀 ...
2018-1-13 01:19 - 论文库 - 人工智能论文版
基于门循环单元神经网络的中文分词法
0 个回复 - 359 次查看
摘要:目前,学术界主流的中文
分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神 ...
2018-1-12 09:00 - DL-er - 人工智能论文版
使用无监督学习改进中文分词
0 个回复 - 516 次查看
摘要:针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文
分词改进算法.使用基准
分词器对未标注的语料进行
分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未 ...
2018-1-12 02:00 - AIworld - 人工智能论文版
基于表示学习的中文分词算法探索
0 个回复 - 369 次查看
摘要:
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文
分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改 ...
2018-1-9 13:00 - a智多星 - 人工智能论文版