结果:找到“大数据集”相关内容22个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
大数据集!环保数据集!
3 个回复 - 1196 次查看
大数据集!环保数据集!(1)污染排放21个相关指标1、数据来源:社区分享2、时间跨度:1990-2019年3、区域范围:全国307个地级市4、指标说明:工业废水排放量(万吨)、工业废水排放达标量(万吨)、工业二氧化硫去除量( ...
2021-10-24 19:44 - 前面有个华夏银行 - 现金交易版
开始使用在大数据集群中安装Jupyter的PySpark开发
0 个回复 - 700 次查看
开始使用在
大数据集群中安装Jupyter的PySpark开发
众所周知,Jupyter,Apache Zeppelin或最近推出的Cloud Data Lab和Jupyter Lab等数据科学工具是日常工作必不可少的,因此如何结合轻松开发模型的能力和
大数据集群的 ...
2020-10-27 20:03 - 时光永痕 - 数据分析与数据挖掘
基于网络大数据集的数据挖掘思考
0 个回复 - 577 次查看
摘要:网络大数据是大数据中的一部分,因社交网络等的快速发展促使网络大数据越来越受到人类的关注。网络大数据有其自己的特点,对其进行分析和深度数据挖掘将会给人类社会带来巨大的价值,尤其有利于新兴行业的诞生和发 ...
2018-2-3 21:20 - AIworld - 人工智能论文版
[转载] 用R处理大数据集
13 个回复 - 15717 次查看
R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析
大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。内存限制主要取决于R的build版(32位还 ...
2014-12-6 09:10 - Nicolle - R语言论坛
基于单元的快速的大数据集离群数据挖掘算法
0 个回复 - 855 次查看
摘要:提出基于单元的快速的
大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD—tree)进行索引,数据集中大部分位于高密度区 ...
2017-9-19 03:00 - 人工智能-AI - 人工智能论文版
如何随机抽取一个大数据集中的部分纪录?
13 个回复 - 22583 次查看
案例文件:ggplot2包中的diamonds数据集,含54000个纪录。我想随机抽取一个小样本(如50),怎样用R软件做?
我是用diamonds[1:50]做的,再将其复制到txt中,再用read.table函数读到R里,一来太曲折了,二来只是 ...
2012-1-21 12:53 - 耕耘使者 - R语言论坛
CDA大数据集成研讨会
7 个回复 - 5411 次查看
CDA俱乐部线下分享沙龙
大数据集成研讨会
微信添加CDA为好友(ID:joinlearn),拉你入500人数据分析师交流群
本期活动主题:
大数据集成研讨会
活动时间:
3月11号9:00--16:30
活动地点:
北京市朝阳区北四环 ...
2016-2-24 17:29 - littlelianglian - 学术资源/课程/会议/讲座
sas 如何一次性删除整个大数据集中,属于某个小数据集的变量?
2 个回复 - 3405 次查看
例如我有一个数据集X, 它有变量vara,varb,varc. 我需要一个数据集Y, 它有变量varm, varn,varl. 再假设变量间的关系为:varm=vara+1,varn=sum(vara,varb), varl=varc.
于是一般来说写程序如下:
data Y (dro ...
2015-6-9 21:02 - Bontique - SAS专版
R语言怎么处理大数据集
2 个回复 - 1333 次查看
对于大的数据集,R语言是怎么处理,内存没可能不断叠加的吧
例如:计算机内存只有4G,数据集有8G,而且会不断增加,这应该怎么处理,有什么包可以处理
大数据集,怎么用
网上有说ff包、bigmemory包可以用,但没看到 ...
2014-12-27 22:26 - luvtsing - R语言论坛
超大数据集(142G)如何打开/保存?
20 个回复 - 5588 次查看
如题,生成了一个142G的文件out.sas7bdat,之前就把它放在临时文件目录下,现在要打开它,SAS报错,具体为:
Error:锁对“work.out.data”不可用,work.out cannot be opened. Do you want to select a different ...
2013-3-10 12:27 - zmls - SAS专版
SAS分割超大数据集
10 个回复 - 4746 次查看
请问:我有一个12G的大数据,想按照id(从1 to 206)分成206个小文件,用循环可以做到。但是发现每次都要把这个大文件全部先读入,再根据where语句筛选出想要的id的观测值,很耗时间。各位,有更快些的方法吗?
2013-1-10 09:28 - jianke22 - SAS专版