“时间戳增量”和“快照增量”是数据交换产品增量识别源端数据库增量数据的两种策略。


时间戳增量:

在识别源端增量数据的时候,要求源表必须有一个递增的字段,作为识别增量数据的依据;

第一次运行时,抽取全部的源端数据,程序会记录增量字段的最大值;

第二次运行时,程序以上次运行时增量字段的最大值作为识别增量数据最小值,同样记录此次同步数据时数据中的增量字段最大值;

后面的执行也是一样;

优点:效率高;

缺点:要求源表必须有递增字段;

哪些字段可以成为增量字段?请见:http://www.datax.club/doc/view/115

 

快照增量:

针对没有增量字段的情况,想要实现增量同步的一种方式是快照增量;

大概原理是初次同步数据时,程序对源端全量数据进行了hash镜像落地,就像照了个相片一样,后面每次执行同步任务识别增量数据时 ,程序拿hash镜像和源表数据进行比对,就可以识别出增量数据了;

优点:没有增量字段,也能实现数据的增量识别;

缺点:算法涉及镜像比对和文件落地,效率稍逊时间戳增量,需要文件存储空间存储快照文件。