新闻客户端
2016-02-17 18:16:15 93 举报
AI智能生成
登录查看完整内容
大数据是指规模庞大、复杂多样的数据集合,通常难以通过传统的数据处理工具进行捕捉、管理和处理。这些数据集合包括结构化数据、半结构化数据和非结构化数据。大数据的特点可以用”3V”来描述:数据的体积巨大,数据的速度快,以及数据的多样性。此外,还有一些其他特点,如数据的价值潜力和数据的真实性。大数据技术涵盖了数据采集、存储、处理、分析和可视化等方面,它们的发展和应用对于各行各业都具有重要意义。通过对大数据的挖掘和分析,人们可以获得更深入的洞察,做出更准确的决策,并发现隐藏在数据中的商机和价值。
作者其他创作
大纲/内容
新闻客户端
数据仓库
数据仓库维护
业务层面
便捷性
高效
覆盖
产品
运营
客户端
数据层面
稳定
监控
日记量监控
调度监控
备份监控
脚本监控
及时
备份
数据备份
脚本备份
准确
数据清洗
数据过滤
结构清晰
数据逻辑模型
应用层
汇总层
流水层
基础层
缓冲层
可扩展性
维护管理
扩展
人工
自动化配置
大数据平台
AWS EMR
分布式离线计算框架
hadoop
核心组件
Map/Reduce
hdfs
yarn
应用场景
常用架构
rsync+hadoop+hive+yarn
rsync+hadoop+hbase+yarn+zookeepe
常用场景
大量的用户行为数据
常规报表开发
临时的计算需求
优点
扩展性强、横向扩展数千个节点
可分布式并行计算
开源项目、生态圈活跃,开源组件多如:hbase、mathout等
缺点
单输入单输出、任务内串行,中间结果IO消耗
无法响应秒级别的响应
分布式基于内存计算框架
spark
Scala
mapreduce
RDD
streaming
scala+spark+hadoop+yarn
数据挖掘
机器学习
多次操作特定数据集的应用场合
中间结果存储在内存上
快速迭代
无法满足异步更新状态如:增量修改
消耗内存较大通常1G的数据消耗5G的内存
集群不稳定、只适合做计算,不适合做服务
数据仓库工具
hive
数据仓库建立
数据分析
自定义UDF函数,完成复杂的分析逻辑
语法与mysql类似
自定义map/reduce的个数,从而调整并行计算的效率
可以兼容hadoop、spark的计算框架使用
表之间无法update操作
storm-分布式实时计算框架
Spout/Bolt/Topology
Zookeepe
JZMQ
Kafka+Storm+Redis+Mysql
flume+kafka+Storm+HDFS/Hbase
实时推送
实时反馈
快速响应
可分布式
存在单点故障
多进程锁难维护
数据库
MYSQL
优化索引
存储空间
热备
RDS
权限
集群管理
资源管理
任务调度管理
用户权限管理
版本迭代
相关数据协助
相关开发工作
统计协议
统计报表
数据分析报告
定义问题
收集整理信息
问题分解
初步问题分析
深层次的问题分析
问题假设
分支问题
选取分析方法
分析工具
Rapid
SAS
excel
分析方法
描述性统计分析
推断统计分析
变量分析方法提取
数据挖掘分析
数据提取整理
选取分析所需的相关数据
指定数据提取的需求
数据质量的评估
数据的清洗处理
分析结果及结论
确定表达的主题
分析角度:重心思想
文字表达:“一图二表三文字”
逻辑结构:“论点、论据、论证”
确定对比的关系
版本之间对比
时间对比
ABTest对比
相关性对比
其他对比
选择图型
折线图
饼图
百分比柱状图
其他图
选择呈现结果模式
综合式
简报式
其他
实施及建议措施
问题1建议措施
问题2建议措施
问题3建议措施
数据挖掘层面
实施效果评估及报告整理
效果评估的跟进
整体报告的总结
新闻推荐
新闻推荐一期
算法
TFIDF
标签初始化
人工审核
余弦相似度
挂靠率
挂准率
系统
切词系统
词库系统
扩展性形成闭环
标签库系统
用户使用方便
新闻后台管理系统
数据接口
重连
队列
效果评估
ABTEST
离线数据预测
用户使用预测
存在问题
问题描述
相应改进方案
改进方案
人力评估
可行性评估
方案验证的方法
方案评估的报告
新闻推荐二期
用户模型模块
用户数据
行为特征数据
用户属性数据
相似用户
行为相似
新闻话题相似
新闻模型模块
推荐引擎
话题新闻推荐引擎
标签新闻推荐引擎
相似新闻推荐引擎
产品自定义新闻
热门新闻
最新新闻
优质新闻
订阅新闻
自媒体新闻
关联模块
匹配计算
用户与新闻匹配
过滤、分组
产品需求
实时响应需求
排名
API模块
稳定性
压力测试
响应速度
扩展性
安全性
传输加密
实时模块
架构搭建
传输日记层
计算逻辑层
数据存储层
接口API
相似度算法
Jaccard系数
文本算法
LDA
聚类算法
K-means
排名检索算法
Rank
整体评估
评估指标
覆盖率
准确率
查全率
实时率
评估方法
离线数据测试
用户使用体验报告
评估报告
预期结果
执行方案评估
验证方案的指标
数据统计
易维护性
系统稳定
数据稳定
报表监控
数据浮动监控
数据产出及时
数据准确
操作便捷
数据可视化
数据注释清楚
用户配置
临时报表
0 条评论
回复 删除
下一页