新闻客户端
2017-06-20 13:59:15 19 举报
AI智能生成
新闻客户端的框架结构图,对新闻客户端软件产品进行分析,个应用功能介绍。
作者其他创作
大纲/内容
新闻推荐
新闻推荐一期
算法
TFIDF
标签初始化
人工审核
余弦相似度
挂靠率
挂准率
系统
切词系统
监控
稳定
词库系统
稳定
扩展性形成闭环
标签库系统
用户使用方便
新闻后台管理系统
用户使用方便
数据接口
稳定
监控
重连
队列
监控
效果评估
ABTEST
离线数据预测
用户使用预测
存在问题
问题描述
相应改进方案
改进方案
人力评估
可行性评估
方案验证的方法
方案评估的报告
新闻推荐二期
用户模型模块
用户数据
行为特征数据
用户属性数据
相似用户
行为相似
新闻话题相似
新闻模型模块
推荐引擎
话题新闻推荐引擎
标签新闻推荐引擎
相似新闻推荐引擎
产品自定义新闻
热门新闻
最新新闻
优质新闻
订阅新闻
自媒体新闻
关联模块
匹配计算
用户与新闻匹配
过滤、分组
产品需求
实时响应需求
排名
API模块
稳定性
压力测试
响应速度
扩展性
安全性
传输加密
实时模块
架构搭建
传输日记层
计算逻辑层
数据存储层
接口API
压力测试
响应速度
算法
相似度算法
余弦相似度
Jaccard系数
文本算法
TFIDF
LDA
聚类算法
K-means
排名检索算法
Rank
整体评估
评估指标
覆盖率
准确率
查全率
实时率
评估方法
ABTEST
离线数据测试
用户使用体验报告
评估报告
预期结果
存在问题
改进方案
执行方案评估
验证方案的指标
数据统计
统计协议
扩展性
易维护性
统计报表
稳定
系统稳定
数据稳定
监控
报表监控
数据浮动监控
数据产出及时
准确
数据准确
操作便捷
数据可视化
数据注释清楚
可扩展性
用户配置
临时报表
高效
准确
数据仓库
数据仓库维护
业务层面
便捷性
高效
覆盖
产品
运营
客户端
数据层面
稳定
监控
日记量监控
调度监控
备份监控
脚本监控
及时
备份
数据备份
脚本备份
准确
数据清洗
数据过滤
结构清晰
数据逻辑模型
应用层
汇总层
流水层
基础层
缓冲层
可扩展性
维护管理
扩展
人工
自动化配置
大数据平台
AWS EMR
分布式离线计算框架
hadoop
核心组件
Map/Reduce
hdfs
yarn
应用场景
常用架构
rsync+hadoop+hive+yarn
rsync+hadoop+hbase+yarn+zookeepe
常用场景
大量的用户行为数据
常规报表开发
临时的计算需求
优点
扩展性强、横向扩展数千个节点
可分布式并行计算
开源项目、生态圈活跃,开源组件多如:hbase、mathout等
缺点
单输入单输出、任务内串行,中间结果IO消耗
无法响应秒级别的响应
分布式基于内存计算框架
spark
核心组件
Scala
yarn
mapreduce
RDD
streaming
应用场景
常用架构
scala+spark+hadoop+yarn
常用场景
数据挖掘
机器学习
多次操作特定数据集的应用场合
优点
中间结果存储在内存上
快速迭代
数据集类型多,如:union,join,group by等直接使用
缺点
无法满足异步更新状态如:增量修改
消耗内存较大通常1G的数据消耗5G的内存
集群不稳定、只适合做计算,不适合做服务
数据仓库工具
hive
应用场景
数据仓库建立
数据分析
扩展
自定义UDF函数,完成复杂的分析逻辑
优点
语法与mysql类似
自定义map/reduce的个数,从而调整并行计算的效率
可以兼容hadoop、spark的计算框架使用
缺点
表之间无法update操作
storm-分布式实时计算框架
核心组件
Spout/Bolt/Topology
Zookeepe
JZMQ
应用场景
常用架构
Kafka+Storm+Redis+Mysql
flume+kafka+Storm+HDFS/Hbase
常用场景
实时推送
实时反馈
优点
快速响应
可分布式
缺点
存在单点故障
多进程锁难维护
数据库
MYSQL
优化索引
存储空间
热备
RDS
权限
存储空间
集群管理
资源管理
任务调度管理
用户权限管理
数据分析
版本迭代
相关数据协助
产品
运营
客户端
相关开发工作
统计协议
统计报表
数据分析报告
定义问题
5W:where,what,why,when,who
2H:How many ,How much
收集整理信息
问题分解
初步问题分析
深层次的问题分析
问题假设
分支问题
选取分析方法
分析工具
Rapid
SAS
excel
分析方法
描述性统计分析
推断统计分析
变量分析方法提取
数据挖掘分析
数据提取整理
选取分析所需的相关数据
指定数据提取的需求
数据质量的评估
数据的清洗处理
分析结果及结论
确定表达的主题
分析角度:重心思想
文字表达:“一图二表三文字”
逻辑结构:“论点、论据、论证”
确定对比的关系
版本之间对比
时间对比
ABTest对比
相关性对比
其他对比
选择图型
折线图
饼图
百分比柱状图
其他图
选择呈现结果模式
综合式
简报式
其他
实施及建议措施
业务层面
问题1建议措施
问题2建议措施
问题3建议措施
数据挖掘层面
实施效果评估及报告整理
效果评估的跟进
整体报告的总结
收藏
收藏
0 条评论
下一页