结果:找到“map reduce”相关内容80个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
Mahout数据挖掘工具讲义
0 个回复 - 821 次查看
数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联
R,SAS,SPSS等典型应用场景为 实验室工具
处理数据量 ...
2018-6-7 12:14 - daka123 - 现金交易版
[免费书籍]基于MapReduce进行文本挖掘
6 个回复 - 5972 次查看
Data-Intensive Text Processing with MapReduce
Authors: Jimmy Lin and Chris Dyer
Abstract: Our world is being revolutionized by data-driven methods: access tolarge amounts of data has generated new i ...
2010-7-2 19:59 - oneforall - Hadoop论坛
MapReduce代码8个例子
2 个回复 - 3213 次查看
MapReduce代码8个例子
包括:
设置分区、分组
添加额外的文件jar包方法
同一个文件多个MapReduce共同运行
单词索引的方法
找共同好友的方法
引用另外的类等
2018-4-9 09:05 - LiZara - Hadoop论坛
mrjob: the Python MapReduce library
7 个回复 - 1565 次查看
mrjob: the Python MapReduce librarymrjob is a Python 2.6+/3.3+ package that helps you write and run Hadoop Streaming jobs.Stable version (v0.5.6) documentation[/backcolor]Development version documenta ...
2016-10-12 08:11 - Nicolle - winbugs及其他软件专版
Hadoop MapReduce with Python and Hive
17 个回复 - 1994 次查看
Hadoop MapReduce with Python and Hive**** 本内容被作者隐藏 ****
A tutorial for writing a MapReduce program for Hadoop in python, and using Hive to do MapReduce with SQL-like queries.This uses the Had ...
2016-10-12 08:19 - Nicolle - winbugs及其他软件专版
利用变分推理和MapReduce进行主题缩放建模
0 个回复 - 202 次查看
摘要翻译:
潜在Dirichlet分配(LDA)是研究文档集合的一种流行的主题建模技术。由于大规模数据集的日益普遍,需要提高LDA推理的可扩展性。本文提出了一种在MapReduce框架中容纳大量语料库的方法&~\emph{MapReduce LDA ...
2022-4-12 08:15 - 何人来此 - Forum
什么是Map Reduce编程及其运作方式
0 个回复 - 559 次查看
什么是Map Reduce编程及其运作方式
数据科学是一项研究,它使用各种工具和技术从数据中提取有意义的见解,以促进业务增长。尽管它是在计算机出现时诞生的,但最近的炒作是由于生成了大量的非结构化数据以及现代计算 ...
2020-9-3 16:47 - 时光永痕 - 数据分析与数据挖掘
MapReduce 程序执行的详细过程
2 个回复 - 4992 次查看
MapReduce 执行过程 1.Job类初始化JobClient实例,JobClient中生成JobTracker的RPC实例,这样可以保持与JobTracker的通讯,JobTracker的地址和端口等都是外部配置的,通过Configuration对象读取并且传入。
2.Job ...
2014-4-17 09:59 - 凡星有梦 - MATLAB等数学软件专版
Apache Mahout: Beyond MapReduce
2 个回复 - 2032 次查看
Product Details
[*]Paperback: 232 pages
[*]Publisher: CreateSpace Independent Publishing Platform; 1 edition (February 18, 2016)
[*]Language: English
[*]ISBN-10: 1523775785
[*]ISBN-13: 978-1523 ...
2016-6-20 05:48 - Lisrelchen - mahout论坛
基于MapReduce的分布式EM算法的研究与应用
0 个回复 - 434 次查看
摘要:EM(Expectation-Maximization)算法在机器学习和自然语言处理方面应用非常广泛。随着电子信息技术的高速发展,人们更加需要从大量的数据信息中提出更多有价值的知识,用于后续的研究工作。但是,传统的应用到机器 ...
2018-2-9 16:00 - a智多星 - 人工智能论文版
基于MapReduce的机器学习并行化研究与实现
0 个回复 - 516 次查看
摘要:在大数据时代,待分析数据的体量巨大,种类繁多,数据价值密度低并且有很多实时数据要求快速处理,使用人力来处理这些数据是不可能的,因此必须使用机器学习方法。然而,如果使用传统的机器学习算法对这些数据进行处 ...
2018-2-8 00:39 - DL-er - 人工智能论文版
基于MapReduce框架下的数据挖掘方法研究
0 个回复 - 474 次查看
摘要:大规模数据处理分析工作,在单个处理节点上部署时往往会遇到机器性能局限所带来的计算瓶颈。如今,技术更加先进且成本低廉的分布式计算平台为这一问题带来了改善的解决方案。文章运用MapReduce框架这一优势,研究 ...
2018-2-3 01:59 - a智多星 - 人工智能论文版
基于MapReduce的并行聚类算法设计与实现
0 个回复 - 337 次查看
摘要:针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法 ...
2018-1-27 20:00 - 人工智能-AI - 人工智能论文版
基于MapReduce的多文档自动文摘的设计与实现
0 个回复 - 469 次查看
摘要:多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自 ...
2018-1-25 10:00 - 论文库 - 人工智能论文版
词类共现频率的MapReduce并行生成方法
0 个回复 - 494 次查看
摘要:语料库在自然语言处理(NLP)领域的应用越来越广泛,词类共现频率的统计是其研究内容之一。针对词类共现的计算特点,给出了基于MapReduce编程模型实现的并行方法,即pairs和stripes方法。虽然stripes模式性能明 ...
2018-1-23 07:40 - 人工智能-AI - 人工智能论文版
基于改进的Map/Reduce及模式空间划分的数据挖掘
0 个回复 - 412 次查看
摘要:为通过Map/Reduce基于键/值对以处理数据集与模式集的多对多的对应关系的方式实现数据挖掘,解决在较复杂的类型的模式的挖掘中存在的由组合爆炸导致的模式集过大的问题,提出了通过模式空间划分实现将处理数据集与 ...
2018-1-19 00:40 - 论文库 - 人工智能论文版
MRI:面向并行迭代的MapReduce模型
0 个回复 - 569 次查看
摘要:机器学习领域内的多数模型均需要通过迭代计算以求解其最优参数,而MapReduce模型在迭代计算中的缺陷不足导致其在迭代计算中无法得到广泛应用。为解决上述矛盾,基于MapReduce模型提出并实现了一种可用于模型参 ...
2017-12-28 00:20 - 论文库 - 人工智能论文版
文本处理中的MapReduce技术
0 个回复 - 470 次查看
摘要:用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界 ...
2017-12-27 14:40 - DL-er - 人工智能论文版
基于机器学习的 MapReduce 资源调度算法
0 个回复 - 626 次查看
摘要:针对 MapReduce 中允许
map 和 shuffle 阶段重叠的优化模型需要自适应性的问题,提出了基于此模型的机器学习的资源调度算法,利用贝叶斯分类器依据作业对系统资源的需求和系统环境的匹配程度对作业进行调度,并 ...
2017-9-29 08:40 - 人工智能-AI - 人工智能论文版
MapReduce原理及其在自然语言处理中的应用研究
0 个回复 - 468 次查看
摘要:针对目前海量数据处理在处理速度、存储空间、容错性、访问时间等方面存在的问题,对Google MapReduce编程模型的原理、执行流程等进行分析,从MapReduce与索引构建、统计机器翻译、聚类算法、文本分类四个方面, ...
2017-9-24 22:59 - 论文库 - 人工智能论文版
基于MapReduce的海量数据挖掘技术研究
0 个回复 - 481 次查看
摘要:MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集 ...
2017-9-24 18:40 - a智多星 - 人工智能论文版
一种基于MapReduce模型的高效频繁项集挖掘算法
0 个回复 - 807 次查看
摘要:由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量.在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题.关于数据挖掘(Data Mining)的算法在很多领域 ...
2017-9-20 01:59 - a智多星 - 人工智能论文版
基于MapReduce的数据挖掘平台设计与实现
0 个回复 - 568 次查看
摘要:MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理。然而,MapReduce欠缺对多数据源、组件复用以及数据可视化支持,这些缺点使用户在运用MapReduce框架进行数据挖掘时暴露出开发效率低下,重 ...
2017-9-17 22:00 - DL-er - 人工智能论文版
基于机器学习的MapReduce资源调度算法
0 个回复 - 772 次查看
摘要:针对MapReduce中允许
map和shuffle阶段重叠的优化模型需要自适应性的问题,提出了基于此模型的机器学习的资源调度算法,利用贝叶斯分类器依据作业对系统资源的需求和系统环境的匹配程度对作业进行调度,并不断更 ...
2017-9-15 17:20 - AIworld - 人工智能论文版
python-map-reduce[自学笔记]
1 个回复 - 925 次查看
add = lambda x,y : x + y
add(1,2)
filter(bool_func,seq):此函数的功能相当于过滤器。调用一个布尔函数bool_func来迭代
遍历每个seq中的元素;返回一个使bool_seq返回值为true的元素的序列。
filter(la ...
2016-3-11 13:35 - longgb246 - python论坛
Mapreduce 134 Success Secrets
0 个回复 - 1007 次查看
Map
reduce 134 Success Secrets - 134 Most Asked Questions on Map
reduce - What You Need to Know Paperback – February 24, 2014
by Kenneth Holman (Author)
MapReduce' is a software design type for ...
2015-3-17 10:40 - Lisrelchen - winbugs及其他软件专版
Optimizing Hadoop for MapReduce
1 个回复 - 1064 次查看
Optimizing Hadoop for MapReduce
Khaled Tannir
February 2014
This book is the perfect introduction to sophisticated concepts in MapReduce and will ensure you have the knowledge to optimize job per ...
2015-4-11 10:40 - Lisrelchen - winbugs及其他软件专版
MapReduce 程序执行的详细过程
1 个回复 - 1191 次查看
MapReduce 执行过程 1.Job类初始化JobClient实例,JobClient中生成JobTracker的RPC实例,这样可以保持与JobTracker的通讯,JobTracker的地址和端口等都是外部配置的,通过Configuration对象读取并且 ...
2015-3-11 14:31 - 凡星有梦 - 经管代码库
Programming MapReduce with Scalding
2 个回复 - 1333 次查看
[*]Programming MapReduce with Scalding
[*]By: Antonios Chalkiopoulos
[*]Publisher: Packt Publishing
[*]Pub. Date: June 25, 2014
[*]Print ISBN-13: 978-1-78328-701-7
[*]Web ISBN-13: 978-1-78328 ...
2015-6-27 23:45 - Nicolle - winbugs及其他软件专版
用MapReduce+HDFS为数据去重
1 个回复 - 2706 次查看
随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。
重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除 ...
2015-3-1 08:09 - olympic - Hadoop论坛
Map-Reduce实现矩阵乘法
1 个回复 - 2190 次查看
矩阵P=MN,p_ik=sum_{j}m_ij*n_jk,把矩阵M看成关系R(I,J,V),把矩阵N看成关系R(J,K,W).
M,N有公共属性J,M中每个元组(i,j,v)N中的每个元组(j,k,w),两个关系的自然链接会产生元组(i,j,k,v*w),接下来进行分组聚合运 ...
2015-2-12 22:25 - EchoEstelle - Hadoop论坛
Map-Reduce实现五类关系代数运算
0 个回复 - 2026 次查看
1.选择运算
Map函数:对R中的每个元组t,检查它是否满足条件C。如果满足就产生键值对
(t,t).
Reduce函数:Reduce函数作用类似于恒等式,仅仅将每个键值对传递到输出部分。
2.投影运算
...
2015-2-12 19:15 - EchoEstelle - 爱问频道
关于hadoop mapreduce的问题
2 个回复 - 977 次查看
reduce进行到20%左右就卡着不动了 然后报Too many fetch-failures 这个错误 然后程序整个运行完需要进一个小时,单机只要不到5分钟就能搞定 请问应该怎么解决呀 /etc/hosts设置的应该没有什么问题 master机与slav ...
2015-1-13 16:54 - 暂时糖 - Hadoop论坛
关于mapreduce中shuffle的问题
0 个回复 - 847 次查看
我运行任务成功了以后,通过查看日志,发现shuffle的过程特别长,一开始我以为是内存小的问题,将计算机的内存从2G提到了4G,再进行测试的时候,速度的确提高了,多机由原来的240s提到220s左右,但是单机运算由140s到 ...
2015-1-22 16:41 - 暂时糖 - Hadoop论坛
MapReduce2.0源码分析与实战编程
0 个回复 - 4615 次查看
MapReduce2.0源码分析与实战编程 ,非扫描,文字版(10章内容,全)
下载: http://pan.baidu.com/s/1sjK53sx
简介:
《
mapreduce 2.0源码分析与编程实战》比较系统地介绍了新一代
mapreduce 2.0的理论体系、 ...
2014-12-23 01:29 - hq333 - Hadoop论坛
如何配置Hadoop得以开始Mapreduce编程?
3 个回复 - 4202 次查看
得到理解:
1.软件框架具备了若干如同但尚不够称为一个完整软件的功能
2.大部分网上的问题不得精要、浮在水面
3.编程可以在Unix,Linux或者Windows的Cygwin中进行,Cygwin的核是Unix的
4.让用Hadoop的方式在Cy ...
2014-10-3 01:50 - EchoEstelle - 爱问频道
Map/Reduce架构能用于文本聚类么?
4 个回复 - 2868 次查看
最近一直在看Map/Reduce的东西,按照
mapreduce
也实现了字数统计的分布式处理,明白了其中的原理。于是想,能否将此方法用于文本聚类上来(我自己写了一个简单的文本聚类方法,依据2文档中出现相同字符的频率,效率 ...
2010-5-4 16:18 - googya - 数据分析与数据挖掘