云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

  • 62 次阅读
  • 3 次下载
  • 2025/7/15 10:48:56

利用工商信息、企业基本信息、税务信息等记录,我们可以构建出一个网络拓扑结构,以构建企业的相应属性标签,属性标签可以反向标记回企业,从而企业具有群体属性。

图3-14企业聚类图

聚类分析时数据挖掘的一个重要分支,目标是将数据对象分组成为多个类或簇,在同一个类中的对象之间有较高的相似度,而不同类中的对象差别较大。早期的聚类多采用无监督方式,但随着数据挖掘领域的扩展,很多的行业问题,需要有监督的数据挖掘技术。

图3-15基于内存计算的分布式聚类算法

48

算法目标是模块度函数,该函数定义为簇内实际连接数目与随机连接情况下蔟内期望连接数目之差,用来衡量企业项目的划分质量,整个过程自底向上进行。

图3-16 聚类算法模块图

图3-17 聚类算法模块图

内存计算(In-Memory Processing),实质上就是CPU直接

49

从内存而非硬盘上读取数据,并对数据进行计算、分析。尤其是对于复杂的模型,往往需要较多迭代次数才能收敛,而基于磁盘的分析方式(Hadoop上的Mahout)则IO开销巨大。 (2)基于内存计算的分布式分类算法

分类问题是机器学习中的经典问题,文本、语音、图像等各种领域都有广泛应用。拟针对具备核密度技术的分类方法实现基于内存的分布式算法。所参考的方法是DLR:Density-based Logistic Regression (Chen et al. KDD 2013)

图3-18 分类算法模块图

(3)高维度异构数据的降维算法

数据和维数之间往往有相关性,用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。

50

图3-19高纬度异构数据的降维算法

3.7大数据存储设计

3.7.1数据分级存储 (1)数据分级存储原则

数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。

(2)数据融合与分级存储实施

将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。

将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。

51

  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

利用工商信息、企业基本信息、税务信息等记录,我们可以构建出一个网络拓扑结构,以构建企业的相应属性标签,属性标签可以反向标记回企业,从而企业具有群体属性。 图3-14企业聚类图 聚类分析时数据挖掘的一个重要分支,目标是将数据对象分组成为多个类或簇,在同一个类中的对象之间有较高的相似度,而不同类中的对象差别较大。早期的聚类多采用无监督方式,但随着数据挖掘领域的扩展,很多的行业问题,需要有监督的数据挖掘技术。 图3-15基于内存计算的分布式聚类算法 48 算法目标是模块度函数,该函数定义为簇内实际连接数目与随机连接情况下蔟内期望连接数目之差,用来衡量企业项目的划分质量,整个过程自底向上进行。 <

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com