分析系统捣鼓一年以来,由于公司投入有限,估计只花了30%的时间在上面,主要在以下几方面有所进展:
1、 规范化。在一定程度上引用了数据仓库建设的思想,主要有:
1、 规范化。在一定程度上引用了数据仓库建设的思想,主要有:
a) 数据库的配置,数据表的建立、命名的规范。
b) 开发流程的规范。
c) 报表展现的规范,如OLAP报表、公式报表
b) 开发流程的规范。
c) 报表展现的规范,如OLAP报表、公式报表
2、 性能调优。1年中也实践了一系列的性能调优方法
a) 索引,例如位图索引 例如:快递100中有应用
b) 数据表分区,例如:网页点击流日志表
c) 物化视图,汇总中有大量使用
d) ETL抽取流程中,处理逻辑尽可能的简化
e) 应用层缓存的利用
b) 数据表分区,例如:网页点击流日志表
c) 物化视图,汇总中有大量使用
d) ETL抽取流程中,处理逻辑尽可能的简化
e) 应用层缓存的利用
3、 自动化。主要为全面了解决系统运行及用户使用的一些状况
a) 加入了用户日志的跟踪,全面了解用户行为,清除一些死功能,这一点对于系统的价值体现很有帮助
b) 对夜晚的数据抽取可以失败后的手动调度、错误日志监控
b) 对夜晚的数据抽取可以失败后的手动调度、错误日志监控
建设过程中,也暴露了一系列的问题,在此做个汇总:
1、 新分析字段的增加困扰。由于没有将源数据全部加载到分析系统,所以如果要分析新的字段数据,则需要再重新装载所有数据。业界数据仓库里面是直接将源数据几乎全盘导入,主要由于我们当前数据量比较小才没使用。这一点需要在建模方面重点考量!
2、 OLAP性能不容乐观。我们的OLAP由于使用的是开源项目,对于小批量数据可以接受,但数据量到达1000万级,用户第一次查看,速度非常慢。是否可以引入商业工具?
3、 元数据缺乏。分析系统的技术元数据和业务元数据缺乏,当前系统因为比较小,所以暂时人为理解可以接受。如果MOP接入,将进一步加大业务建模人员和开发人员的理解负担,需要总体蓝图的绘制,然后细致到某个业务主题。
4、 数据含义的不统一。当前分析的维度很多不统一,尤其MOP过来后,存在不同的地区、类目维度、指标含义等,都需要步伐一致。
5、 报表格式多样。产品分析部门往往希望有像EXCEL一样的web报表。行列都可随业务可变,但是这样一来就增加了定制化的开发成本。是否可以形成统一框架?报表工具是否更有优势?
您好,我想知道 关于脏数据你们是怎么解决的呢,现在这事真是头疼。
能说说你们具体的情况么?脏数据主要存在 数据级和业务级 2种类型:
数据级:检查数据是否符合存储格式,数据是否抽取完整等等。
业务级:检查数据在相应的业务场景是否符合相应的业务逻辑。