关于Kettle Solution 一书的翻译

幸好看了一些这方面的中文字资料,所以翻译起来才不那么痛苦,O(∩_∩)O~英文水平和时间有限,所以只参加了16章并行、集群和分区方面的工作,总体感觉还算顺利,其中有些句子还是真难懂的,不过凭着上下文的猜测,总算没有差之千里,幸好有玉米帮助,才真正搞清楚那些意思。

总体来说kettle在集群方面还是做了一些工作,但还是有些问题不明白,例如3.2之前所有的转换step都会继承Thread,如下:

public class BaseStep extends Thread implements VariableSpace, StepInterface{

}

到了4.0就取消了,如下:

public class BaseStep implements VariableSpace, StepInterface, LoggingObjectInterface{

}

也就是说4.0版本的kettle中的step将不会启用新线程执行了, 这一重大改变会使得转换里面的step将按设计的顺序执行,但就KETTLE的作者MATT的个人观点,说这没有什么不同:

(这里面有讨论http://forums.pentaho.com/archive/index.php/t-71328.html

集群能使得kettle的执行可以水平扩展,对于大数据量的处理,这一点尤其重要,但确实很难做好,因为涉及到机器之间的协调,理想状态是让处理的数据像游泳池通道一样,尽量不相互影响,直到数据处理流程完成,所以引入了分区的概念,这里面的分区是不是个玩物,还需要考验,O(∩_∩)O~ 能迈出这一步就不容易了 值得赞赏!

已有2 条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>