2010数据仓库建设总结

分析系统捣鼓一年以来,由于公司投入有限,估计只花了30%的时间在上面,主要在以下几方面有所进展:
1、 规范化。在一定程度上引用了数据仓库建设的思想,主要有:

a) 数据库的配置,数据表的建立、命名的规范。
b) 开发流程的规范。
c) 报表展现的规范,如OLAP报表、公式报表


2、 性能调优。1年中也实践了一系列的性能调优方法

a) 索引,例如位图索引 例如:快递100中有应用
b) 数据表分区,例如:网页点击流日志表
c) 物化视图,汇总中有大量使用
d) ETL抽取流程中,处理逻辑尽可能的简化
e) 应用层缓存的利用

3、 自动化。主要为全面了解决系统运行及用户使用的一些状况

a) 加入了用户日志的跟踪,全面了解用户行为,清除一些死功能,这一点对于系统的价值体现很有帮助
b) 对夜晚的数据抽取可以失败后的手动调度、错误日志监控

建设过程中,也暴露了一系列的问题,在此做个汇总:
1、 新分析字段的增加困扰。由于没有将源数据全部加载到分析系统,所以如果要分析新的字段数据,则需要再重新装载所有数据。业界数据仓库里面是直接将源数据几乎全盘导入,主要由于我们当前数据量比较小才没使用。这一点需要在建模方面重点考量!
2、 OLAP性能不容乐观。我们的OLAP由于使用的是开源项目,对于小批量数据可以接受,但数据量到达1000万级,用户第一次查看,速度非常慢。是否可以引入商业工具?
3、 元数据缺乏。分析系统的技术元数据和业务元数据缺乏,当前系统因为比较小,所以暂时人为理解可以接受。如果MOP接入,将进一步加大业务建模人员和开发人员的理解负担,需要总体蓝图的绘制,然后细致到某个业务主题。
4、 数据含义的不统一。当前分析的维度很多不统一,尤其MOP过来后,存在不同的地区、类目维度、指标含义等,都需要步伐一致。
5、 报表格式多样。产品分析部门往往希望有像EXCEL一样的web报表。行列都可随业务可变,但是这样一来就增加了定制化的开发成本。是否可以形成统一框架?报表工具是否更有优势?



已有2 条评论

    • 能说说你们具体的情况么?脏数据主要存在 数据级和业务级 2种类型:
      数据级:检查数据是否符合存储格式,数据是否抽取完整等等。
      业务级:检查数据在相应的业务场景是否符合相应的业务逻辑。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>