admin 管理员组文章数量: 887021
ETL
转载:.htm?fr=aladdin
转载:.html
稍微整理了下关于ETL和CDC增量抽取。
ETL:
Extract(萃取)-Transform(转置)-Load (加载),常用于数据仓库,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
CDC:
Change Data Capture(改变数据捕获)是oracle在数据库级别实现的增量抽取解决方案之一。
CDC能够帮助你识别从上次提取之后发生变化的数据。
利用CDC,在对源表进行INSERT、UPDATE或 DELETE等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。
目前,最为常用的ETL增量数据处理方式有三种:1.时间戳(弱点:要求业务系统的表必须一个可以标识新旧数据的字段)
2.日志对比
3.全面数据对比(弱点:高网络负载、性能代价高、无法反映数据的历史状态)
4.触发器(优点:抽取性能高。缺点:需要业务表建立触发器,对业务系统有一定的影响。)
CDC的两个模式:
同步:同步CDC主要是采用触发器记录新增数据,基本能够做到实时增量抽取。
异步:异步CDC通过分析已经commit的日志记录来得到增量数据信息,有一定的时间延迟,并且提供了到Oracle Streams的接口。
同步CDC在企业版或者标准版中都可以使用,异步CDC则只包含在企业版中。
CDC的发布订立模型:
CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。
CDC几个概念:
源表(Source Table),业务数据库的需要捕获数据的源表
变化表(Change Table) ,保存从源表捕获的变化数据(包括各种DML产生的数据)
变化集(Change Set),是保证事务一致性的数据集合。一个变化集对应多个变化表
订阅视图(Subscription View),提供给读取变化表数据的视图
订阅窗口(Subscription Window) ,定义了查看变化数据的时间范围.就象一个观察变化数据的滑动窗口。变化数据处理完成后,可以对清除订阅窗口。
本文标签: ETL
版权声明:本文标题:ETL 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1693442877h222289.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论