幸好看了一些这方面的中文字资料,所以翻译起来才不那么痛苦,O(∩_∩)O~英文水平和时间有限,所以只参加了16章并行、集群和分区方面的工作,总体感觉还算顺利,其中有些句子还是真难懂的,不过凭着上下文的猜测,总算没有差之千里,幸好有玉米帮助,才真正搞清楚那些意思。
总体来说kettle在集群方面还是做了一些工作,但还是有些问题不明白,例如3.2之前所有的转换step都会继承Thread,如下:
public class BaseStep extends Thread implements VariableSpace, StepInterface{
}
到了4.0就取消了,如下:
public class BaseStep implements VariableSpace, StepInterface, LoggingObjectInterface{
}
也就是说4.0版本的kettle中的step将不会启用新线程执行了, 这一重大改变会使得转换里面的step将按设计的顺序执行,但就KETTLE的作者MATT的个人观点,说这没有什么不同:
(这里面有讨论http://forums.pentaho.com/archive/index.php/t-71328.html)
集群能使得kettle的执行可以水平扩展,对于大数据量的处理,这一点尤其重要,但确实很难做好,因为涉及到机器之间的协调,理想状态是让处理的数据像游泳池通道一样,尽量不相互影响,直到数据处理流程完成,所以引入了分区的概念,这里面的分区是不是个玩物,还需要考验,O(∩_∩)O~ 能迈出这一步就不容易了 值得赞赏!
请问你看过哪些这方面的资料,Kettle Solution这本在哪下载?
我没有,这篇文章都是别人给的复印图我的