• 善行者五周年,不忘初心,2018再出发 2019-07-17
  • 我们为什么不接受师生恋?-光明时评 2019-07-17
  • 最后一句有点看不懂。 2019-07-13
  • 浙产纸尿裤能叫板国际大牌吗 2019-07-13
  • 比亚迪召回10000余辆腾势汽车 安全气囊存隐患 2019-06-19
  • 中外学者齐聚拉萨 首届中国西藏拉萨阿里象雄文化国际学术研讨会召开 2019-06-18
  • 如果旅行青蛙穿越到宋朝 会寄回怎样的明信片? 2019-06-16
  • 浪鲸林学舟:新标识布局品牌全球化,做“性感”的卫浴产品 2019-06-09
  • “悬赏广告”不应侵犯隐私权 2019-05-24
  • 甘肃省酒泉市:推行“一办四室一中心”工作模式 2019-05-24
  • 欧盟将对美国28亿欧元产品加征关税 报复清单针对性强 2019-05-18
  • 国家粮食和物资储备局局长张务锋:在更高层次上保障国家粮食安全 2019-05-18
  • [世界杯]格兰奎斯特操刀点球 助瑞典小胜韩国 2019-05-16
  • 买来的棕子,何来的计划经济? 2019-04-24
  • 中国首位“地球卫士终身成就奖”得主诞生! 2019-04-17
  • 您所在位置终于破了11选5出号规律 > 海量文档  > 医学 > 医学基础

    山东11选五开奖结果查:第11章数据挖掘概述11IntroductiontoDataMining.ppt 116页

    本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

    • 支付并下载
    • 收藏该文档
    • 百度一下本文档
    • 修改文档简介
    全屏预览

    下载提示

    1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
    2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
    3.登录后可充值,立即自动返金币,充值渠道很便利
    数据挖掘系统接口 第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口 第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。 PMML是数据挖掘系统与预测模型系统之间的一个标准接口。 如何选择数据挖掘系统 不同的数据挖掘系统相似性较小 不同的功能??楹头椒?处理的数据集不同 如何选择数据挖掘系统(续) 数据类型(关系、文本、事务、时间序列、空间) 系统问题(运行的操作系统) 数据源(ODBC、多关系数据源) 数据挖掘的功能和方法 数据挖掘系统和数据库或数据仓库系统的结合 可伸缩性(数据库的大小和维度) 可视化工具 数据挖掘查询语言和图形用户接口 数据挖掘系统发展趋势 集成 第二代、第三代、以及第四代数据挖掘和预测模型系统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。 嵌入 另一方面,二、三、四代数据挖掘技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术(embedded technology)。 数据挖掘算法 粗糙集 聚类 关联规则 决策树 模糊集 神经网络和支持向量机 回归分析 粗糙集(Rough Set) 粗糙集理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具。 粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。 粗糙集可以用于对信息系统的属性进行约简,即求出原有属性集合的一个子集,该子集具有与原属性集合相同的分类能力。 粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。 聚类(Clustering) 聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 聚类分析 从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主要集中在基于距离和基于相似度的聚类方法。 从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。 聚类分析 数据挖掘中的聚类分析 数据挖掘关心聚类算法的如下特性:处理不同类型属性的能力、对大型数据集的可扩展性、处理高维数据的能力、发现任意形状簇的能力、处理孤立点或“噪声”数据的能力、对数据顺序的不敏感性、对先验知识和用户自定义参数的依赖性、聚类结果的可解释性和实用性、基于约束的聚类等。 主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。 关联规则 Agrawal 针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。 所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。 几年来,在基于关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 Apriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则。 决策树 决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。 决策树(续) 决策树是一个类似树形结构的流程图,每个内部节点表明在一个属性上的测试,树枝描述测试结果,叶子节点指明分类或分类的分布情况。 构造决策树的方法采用自上而下递归的方式,如果训练例子集合中的所有例子是同类的,就将其作为一个叶子节点,节点内容为该类别的标记。 否则,根据某种策略确定一个测试属性,并按属性的各种取值把实例集合划分为若干个子集合,使每个子集上的所有实例在该属性上具有相同的属性值。 然后,再依次递归处理各个子集,直到得到满意的分类属性为止。 模糊集 美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。 模糊集合论用隶属程度来描述差异的中介过渡,是一种用精确的数学

    发表评论

    请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
    用户名: 验证码: 点击我更换图片

    “原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556

  • 善行者五周年,不忘初心,2018再出发 2019-07-17
  • 我们为什么不接受师生恋?-光明时评 2019-07-17
  • 最后一句有点看不懂。 2019-07-13
  • 浙产纸尿裤能叫板国际大牌吗 2019-07-13
  • 比亚迪召回10000余辆腾势汽车 安全气囊存隐患 2019-06-19
  • 中外学者齐聚拉萨 首届中国西藏拉萨阿里象雄文化国际学术研讨会召开 2019-06-18
  • 如果旅行青蛙穿越到宋朝 会寄回怎样的明信片? 2019-06-16
  • 浪鲸林学舟:新标识布局品牌全球化,做“性感”的卫浴产品 2019-06-09
  • “悬赏广告”不应侵犯隐私权 2019-05-24
  • 甘肃省酒泉市:推行“一办四室一中心”工作模式 2019-05-24
  • 欧盟将对美国28亿欧元产品加征关税 报复清单针对性强 2019-05-18
  • 国家粮食和物资储备局局长张务锋:在更高层次上保障国家粮食安全 2019-05-18
  • [世界杯]格兰奎斯特操刀点球 助瑞典小胜韩国 2019-05-16
  • 买来的棕子,何来的计划经济? 2019-04-24
  • 中国首位“地球卫士终身成就奖”得主诞生! 2019-04-17
  • 弗赖堡对多特蒙德预测 记忆盛宴电子游艺 千斤顶或更好100手电子游戏 北京pk10提前预测 天津时时彩开奖几期 四川快乐12开奖结果走势图下 江苏快3计划软件免费下载 斗破苍穹海报 360老时时彩走势 0809nba开拓者vs湖人 山东老十一选五走势图 快乐时时彩计划表 三分赛车开奖是全国统一的吗 棋牌游戏中心下载 云南快乐十分走势一牛 辽宁福彩3d出号走势图