• 买来的棕子,何来的计划经济? 2019-04-24
  • 中国首位“地球卫士终身成就奖”得主诞生! 2019-04-17
  • 世界杯模式开启 锦江乐园夜市延长至凌晨两点 2019-04-10
  • 海南福彩组织人员开展思想教育专题辅导会 2019-04-10
  • 回复@老老保老张工:这不是歪想也,谁敢保证你害羞的时候没有任务?你不上报别人怎么计划? 2019-03-23
  • 【学习时刻】北大经济研究所常务副所长苏剑:“稳”字当头,用改革稳定企业家和百姓信心 2019-03-11
  • 回复@IP比ID好:都被咱用上了?你们咋不会用呢?难道把现实中的悲催带到了论坛? 2019-01-31
  • 从房价多年以来的变化,是说明了这个问题的!…… 2019-01-13
  • 天津交管部门护航中考 轻微交通违法教育后及时放行 2019-01-09
  • 北京公安消防总队防火监督部部长李云浩谈高层建筑消防安全综合治理 2019-01-09
  • 简直不要命!男子开车窗偷摸狮子遭狂吼吓破胆 2018-11-22
  • 超九成人有手机不良用眼习惯(健康互联网) 2018-11-22
  • 提高认识 聚焦“精准” 坚决打赢脱贫攻坚战 2018-11-21
  • 医院建在“云端”上(聚焦·互联网医院新观察(上)) 2018-11-21
  • 泽州去年“免费教育”资金达5211万元 2018-11-20
  • 您所在位置终于破了11选5出号规律 > 海量文档  > 医学 > 医学基础

    山东彩票下载:第11章数据挖掘概述11IntroductiontoDataMining.ppt 116页

    本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

    • 支付并下载
    • 收藏该文档
    • 百度一下本文档
    • 修改文档简介
    全屏预览

    下载提示

    1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
    2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
    3.登录后可充值,立即自动返金币,充值渠道很便利
    数据挖掘系统接口 第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口 第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。 PMML是数据挖掘系统与预测模型系统之间的一个标准接口。 如何选择数据挖掘系统 不同的数据挖掘系统相似性较小 不同的功能??楹头椒?处理的数据集不同 如何选择数据挖掘系统(续) 数据类型(关系、文本、事务、时间序列、空间) 系统问题(运行的操作系统) 数据源(ODBC、多关系数据源) 数据挖掘的功能和方法 数据挖掘系统和数据库或数据仓库系统的结合 可伸缩性(数据库的大小和维度) 可视化工具 数据挖掘查询语言和图形用户接口 数据挖掘系统发展趋势 集成 第二代、第三代、以及第四代数据挖掘和预测模型系统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。 嵌入 另一方面,二、三、四代数据挖掘技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术(embedded technology)。 数据挖掘算法 粗糙集 聚类 关联规则 决策树 模糊集 神经网络和支持向量机 回归分析 粗糙集(Rough Set) 粗糙集理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具。 粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。 粗糙集可以用于对信息系统的属性进行约简,即求出原有属性集合的一个子集,该子集具有与原属性集合相同的分类能力。 粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。 聚类(Clustering) 聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 聚类分析 从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主要集中在基于距离和基于相似度的聚类方法。 从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。 聚类分析 数据挖掘中的聚类分析 数据挖掘关心聚类算法的如下特性:处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。 主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。 关联规则 Agrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。 所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。 几年来,在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 Apriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则。 决策树 决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。 决策树(续) 决策树是一个类似树形结构的流程图,每个内部节点表明在一个属性上的测试,树枝描述测试结果,叶子节点指明分类或分类的分布情况。 构造决策树的方法采用自上而下递归的方式,如果训练例子集合中的所有例子是同类的,就将其作为一个叶子节点,节点内容为该类别的标记。 否则,根据某种策略确定一个测试属性,并按属性的各种取值把实例集合划分为若干个子集合,使每个子集上的所有实例在该属性上具有相同的属性值。 然后,再依次递归处理各个子集,直到得到满意的分类属性为止。 模糊集 美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。 模糊集合论用隶属程度来描述差异的中介过渡,是一种用精确的数学

    发表评论

    请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
    用户名: 验证码: 点击我更换图片

    ?2010-2013 终于破了11选5出号规律 www.qerj.net在线文档投稿赚钱网. All Rights Reserved 蜀ICP备08101938号

  • 买来的棕子,何来的计划经济? 2019-04-24
  • 中国首位“地球卫士终身成就奖”得主诞生! 2019-04-17
  • 世界杯模式开启 锦江乐园夜市延长至凌晨两点 2019-04-10
  • 海南福彩组织人员开展思想教育专题辅导会 2019-04-10
  • 回复@老老保老张工:这不是歪想也,谁敢保证你害羞的时候没有任务?你不上报别人怎么计划? 2019-03-23
  • 【学习时刻】北大经济研究所常务副所长苏剑:“稳”字当头,用改革稳定企业家和百姓信心 2019-03-11
  • 回复@IP比ID好:都被咱用上了?你们咋不会用呢?难道把现实中的悲催带到了论坛? 2019-01-31
  • 从房价多年以来的变化,是说明了这个问题的!…… 2019-01-13
  • 天津交管部门护航中考 轻微交通违法教育后及时放行 2019-01-09
  • 北京公安消防总队防火监督部部长李云浩谈高层建筑消防安全综合治理 2019-01-09
  • 简直不要命!男子开车窗偷摸狮子遭狂吼吓破胆 2018-11-22
  • 超九成人有手机不良用眼习惯(健康互联网) 2018-11-22
  • 提高认识 聚焦“精准” 坚决打赢脱贫攻坚战 2018-11-21
  • 医院建在“云端”上(聚焦·互联网医院新观察(上)) 2018-11-21
  • 泽州去年“免费教育”资金达5211万元 2018-11-20
  • 怎样查彩票中奖 七乐彩杀号天齐网 新时时彩倍投计算 北京赛车培训机构 任选9场开奖规则 河南快赢481软件破解版 十分彩网可信吗 381818白小姐中特网 重庆幸运农场好假啊! 北京赛车三期资金分配 腾讯分分彩走势图分析 淮安彩票中奖 快乐十分走势 老时时彩开奖k线图 浙江体彩6+1预测 小财神彩票论坛