2010数据仓库建设总结

分析系统捣鼓一年以来，由于公司投入有限，估计只花了30%的时间在上面，主要在以下几方面有所进展：
1、规范化。在一定程度上引用了数据仓库建设的思想，主要有：

a) 数据库的配置，数据表的建立、命名的规范。
b) 开发流程的规范。
c) 报表展现的规范，如OLAP报表、公式报表

2、性能调优。1年中也实践了一系列的性能调优方法

a) 索引，例如位图索引例如：快递100中有应用
b) 数据表分区，例如：网页点击流日志表
c) 物化视图，汇总中有大量使用
d) ETL抽取流程中，处理逻辑尽可能的简化
e) 应用层缓存的利用

3、自动化。主要为全面了解决系统运行及用户使用的一些状况

a) 加入了用户日志的跟踪，全面了解用户行为，清除一些死功能，这一点对于系统的价值体现很有帮助
b) 对夜晚的数据抽取可以失败后的手动调度、错误日志监控

建设过程中，也暴露了一系列的问题，在此做个汇总：
1、新分析字段的增加困扰。由于没有将源数据全部加载到分析系统，所以如果要分析新的字段数据，则需要再重新装载所有数据。业界数据仓库里面是直接将源数据几乎全盘导入，主要由于我们当前数据量比较小才没使用。这一点需要在建模方面重点考量！
2、 OLAP性能不容乐观。我们的OLAP由于使用的是开源项目，对于小批量数据可以接受，但数据量到达1000万级，用户第一次查看，速度非常慢。是否可以引入商业工具？
3、元数据缺乏。分析系统的技术元数据和业务元数据缺乏，当前系统因为比较小，所以暂时人为理解可以接受。如果MOP接入，将进一步加大业务建模人员和开发人员的理解负担，需要总体蓝图的绘制，然后细致到某个业务主题。
4、数据含义的不统一。当前分析的维度很多不统一，尤其MOP过来后，存在不同的地区、类目维度、指标含义等，都需要步伐一致。
5、报表格式多样。产品分析部门往往希望有像EXCEL一样的web报表。行列都可随业务可变，但是这样一来就增加了定制化的开发成本。是否可以形成统一框架？报表工具是否更有优势？

已有2 条评论

您好，我想知道关于脏数据你们是怎么解决的呢，现在这事真是头疼。

ahuoo says:

2011年4月23日 at 上午10:11

能说说你们具体的情况么？脏数据主要存在数据级和业务级 2种类型：
数据级：检查数据是否符合存储格式，数据是否抽取完整等等。
业务级：检查数据在相应的业务场景是否符合相应的业务逻辑。

回复

发表评论取消回复

电子邮件地址不会被公开。必填项已用*标注

姓名 *

电子邮件 *

站点

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

您可以使用这些HTML标签和属性： <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

2010数据仓库建设总结

已有2 条评论

发表评论 取消回复

发表评论取消回复