数据分析、挖掘相关整理
2023-04-23 23:53:17 1 举报
AI智能生成
数据分析、挖掘相关整理
作者其他创作
大纲/内容
数据挖掘主要任务
1.关联分析:
简单关联、时序关联、因果关联
2.预测
分类问题:决策树、最近邻分类、朴素贝叶斯分类、人工神经网络、支持向量机
回归问题:线性回归、逻辑回归、多项式回归
3.聚类分析
划分方法:将给定的具有n个对象的集合,构建数据的k个分区。大部分的划分方法基于距离进行数据对象的划分。
层次方法:创建给定数据对象集的层次分解。层次方法分为凝聚(自底向上)的方法和分裂(自顶而下)的方法。
基于密度的方法:只要邻域中的密度超过某个阈值,就进行簇的增长,可以用来过滤噪声或离群点,发现任意形状的簇。
基于网格的方法
4.离群点检测
基于统计的检测方法:箱线图分析、平均值、最大最小值分析和统计学3σ
基于距离的检测方法:KNN
基于密度的检测方法:
基于聚类的检测方法
Q&A:聚类分析与分类分析的区别?
聚类分析的目的是发现数据中潜在的类别或结构,不需要事先定义类别或规则,而是根据数据本身的相似性或距离来划分,属于非监督式学习。
分类分析的目的是根据已知的类别或标签来预测新数据的归属,需要事先定义类别或规则,然后根据数据的特征或属性来判断,属于监督式学习。
数据挖掘主要技术
统计学:判别分析、主成分分析、因子分析、相关分析、多元回归分析
机器学习
监督学习:利用一直某种特性的样本(x,y)作为训练集,建立数学模型,求解f:x->y预测未知样本。分类的标签是离散的,回归的标签是连续的。
半监督学习:利用少量标注了的样本和大量未标注的样本进行训练和测试。
一般基于三种假设:平滑假设、聚类假设、流行假设
非监督学习:训练数据集只有x而没有标签y,目的是试图提取数据中隐含的结构和规律。
主动学习:用较少的训练样本获得较好的分类器,主要通过一定算法查询最有用的未标记样本,再由专家标记,然后用查询到的样本训练分类模型提高模型的精确度。
强化学习:输入模型作为对模型的反馈,不像监督模型那样,输入模型仅作为一个检查模型正确与否的方式。
数据分析主要工具
数据收集:MySQL、八爪鱼大数据、ParseHub、问卷星
数据分析:SPSS、MatLab、R、Python
数据可视化:Visio、Tableau、Qlik、Echarts
Q&A
描述性统计、推断行统计的区别?
描述性统计学是研究如何收集、整理、展示和总结数据的特征的一门学科。它可以用图表或数值的方式来简化和概括数据,但不涉及对数据的推断或预测。
描述性统计学是研究如何收集、整理、展示和总结数据的特征的一门学科1。它可以用图表或数值的方式来简化和概括数据,但不涉及对数据的推断或预测2。
推断性统计学是研究如何根据样本数据去推断总体数量特征的方法1。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性,并给出以概率形式表述的结论2。
机器学习是人工智能的一个子领域,它研究如何让计算机通过数据和算法来自动地学习和改进3。它更关注最小化预测误差的某种度量,比如模型的泛化能力、预测的准确率或召回率3。
描述性统计、推断性统计和机器学习之间有一定的联系和区别。描述性统计是对数据进行基本处理和分析的前提,推断性统计是对数据进行深入理解和解释的方法,机器学习是对数据进行高效利用和应用的技术。
(1)定义
(2)性质
(3)计算
(4)🔷例题
题目类型①
@例题
总结 @💡
题目类型②
@例题
总结 @💡
...
推断性统计学是研究如何根据样本数据去推断总体数量特征的方法。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性,并给出以概率形式表述的结论
错1 @错题
错解❌
正解✔
总结 @💡
错2 @错题 ❓
错解❌
正解✔
总结 @💡
统计学习、深度学习与机器学习的区别?
统计学习是理论驱动的,对数据分布进行假设,以强大的数学理论支撑解释因果,注重参数推断(Inference)。统计学习的优点是它有强大的数学理论支撑,可以对数据分布进行假设和检验,可以解释变量之间的因果关系,可以评估模型参数的显著性和健壮性,可以在小规模数据上得出可信的结论。统计学习的缺点是它对数据分布有较强的假设,可能不适用于复杂和非线性的现实问题,也可能无法处理高维和大规模的数据。
机器学习是数据驱动的,依赖于大数据规模预测未来,弱化了收敛性问题,注重模型预测(Prediction)。机器学习的优点是它是数据驱动的,可以利用大数据规模提高预测效果,可以设计灵活和强大的模型或目标函数,可以提高算法效率和可扩展性。机器学习的缺点是它对数据质量和数量有较高的要求,可能忽视了数据中潜在的结构或规律,也可能牺牲了模型的可解释性和可信度。
深度学习与机器学习的区别?(一般来讲,机器学习包含深度学习)
数据类型:机器学习通常处理的是结构化数据,即有明确的标签或类别的数据,如表格、数值、文本等。深度学习通常处理的是非结构化数据,即没有明确的标签或类别的数据,如图像、音频、视频等。
特征提取:机器学习依赖于人工设计和选择合适的特征来描述数据,这可能需要专业知识和经验。深度学习可以自动从原始数据中提取特征,无需人工干预,这可以减少人为误差和偏见。
学习方式:机器学习通常使用监督学习或半监督学习的方法,即需要有标签的数据来训练模型,并通过反馈来调整模型参数。深度学习可以使用无监督学习或自监督学习的方法,即不需要有标签的数据来训练模型,并通过自我生成目标来调整模型参数。
模型结构:机器学习通常使用浅层或线性的模型结构,如决策树、支持向量机、逻辑回归等。深度学习通常使用深层或非线性的模型结构,如神经网络、卷积神经网络、循环神经网络等。
所有之间的联系
描述性统计是对数据进行基本处理和分析的前提,推断性统计是对数据进行深入理解和解释的方法,机器学习是对数据进行高效利用和应用的技术。
数据挖掘与数据分析的区别?
目的:数据分析的目的是根据分析目标,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据挖掘的目的是从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识。
数据:数据分析处理的数据通常是有明确需求或假设的,而数据挖掘处理的数据通常是海量且复杂多变的。
方法:数据分析主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法;而数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
结果:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读。而数据挖掘输出模型或规则,并且可相应得到模型得分或标签,如流失概率值、总和得分、相似度、预测值等。
0 条评论
下一页