BI数据系统入门知识

分类: 互联网 > 其他

一、什么是数据

1.1 数据是一种资源

①数据很有用,本身具备价值

②数据在使用的时候,需要经过加工,加工之后才能产生更大的价值

③资源需要被管理,不然就会出问题

1.2 DW/BI系统

关于数据仓库概念的标准定义业内认可度比较高的,是由Bill Inmon提出的定义:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

①在逻辑意义上,主题是对应企业中某一宏观分析领域所涉及的分析对象

②数据仓库的数据,不能只有实时的,必须要有数据沉淀

③DW需要支持管理决策

④DW与BI的关系

1.3 DW产品设计框架

①Who - 目标用户

数据产品的目标用户是谁,此处需要注意的问题是,用户的多样性,即同一个数据产品可能有不同的用户,需要针对不同的用户分析其需求;

②Why - 用户痛点

数据产品要解决的用户的核心需求问题即为用户痛点,即用户究竟要用这个产品来干嘛,这里涉及到交互以及本身功能的痛点

③What - 产品目标

数据产品实现的业务目标,此处是指通过系统的建设,简单来说就是这个功能或者这个数据能提供怎样的商业价值 

④Where - 数据来源

数据产品需要引入的数据源有哪些,接入渠道是什么?数据库表有哪些?字段属性有哪些?数据实体间关系如何?

⑤When - 数据频率

维度指标的刷新频率如何?数据引入的延迟有多长时间?

⑥How - 维度指标

数据产品的分析对象有哪些?对象间的层级关系如何?每一个数据对象需要计算的维度指标有哪些?统计口径怎样?需要用到哪些算法?


二、数据从何而来

2.1 采集数据的基础思路

①user-seesion-pageview-hit的数据层级

②hit不仅仅是点击事件,基本上各类业务和功能数据都可以归类到hit当中

③JS脚本—数据采集接口—进入队列—数据处理—日志数据入库—各种预处理

 

2.2 数据分层处理

日志数据:用于问题排查,生成预处理表的基础

大表数据:用于业务统计、三方使用、离线分析等

报表数据:应用层面,具体报表的数据,可视化等

 

三、数据到哪里去

3.1 事实表与维表

△指标:

衡量目标的数值 例如:转化率为10%

△维度:

看问题的角度,如:从国家维度来看,XX国这个指标怎样怎样

3.2 数据结构

①星型结构

星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)

②雪花型结构

雪花模式是星型模式的扩展,其中某些维表被规范化,进一步分解到附加表(维表)中

3.3 四步建模

①选择业务过程:

组织完成的微观活动:入检索、竞价、展现、点击

②声明粒度:

如何描述事实表中每个行的内容:如客户单词检索

③标识维度

业务人员如何描述来自业务过程度量事件的数据?

④标识事实

过程的度量是什么?时间、IP、来源、受理者等

3.4 常见的维度和统计口径

来源维度(UTM)

②其他常见维度

国家   用户等级   订单类型   页面   具体的业务模块

③其他常见指标

会话数:会话是一群在给定时间内用户记录的交互

浏览量:该网页被浏览的次数,也称PV(Page View)

平均停留时间:该会话/页面的平均停留时间

进入次数:该页面作为会话着陆页的次数

跳出率:该网页是会话中“唯一网页”的会话占该网页开始的所有会话的百分比

退出率:该网页是会话中“最后一页”的浏览占该网页总浏览量的百分比,也称退出百分比

每次会话浏览页数:平均每个会话的PV数,也称访问深度

小结

1 . 设计数据产品的时候和设计普通产品一样,需要关注用户实际需求

2 . 对入库数据需要根据规则进行划分,尽量避免直接查询原始数据

3 . 区分清楚指标与维度的定义和关系,有助于建立数据模型


四、如何优化查询

4.1 获取数据

①术语session

session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息。

②session过期时间

24分钟

③数据接收优化

逻辑处理都放在了前端进行处理

后端接收后写入队列

定时从队列里取数据入库

1、数据预处理

按照时间维度、地区维度等等提前跑好数据

2、索引建立

索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。

3、sql查询优化

必须要命中索引

4、热点数据处理

统计用的原始数据表只保留最近1-3个月的数据


五、算法优化案例

关联规则(apriori algorithm)

关联规则的目的在于在一个数据集中找出各项之间的关系,也称之为购物篮分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,买面包的顾客,有60%的可能也会买牛奶。

△置信度 (Confidence)

置信度表示了这条规则有多大程度上值得可信。比如说,今天有5个订单是购买面包的,在这5个订单里,同时购买面包和牛奶的订单有3个,那么牛奶对于面包的置信度就等于P(牛奶|面包)=3/5=60%

△支持度 (Support)

支持度是指在所有订单中,既有面包又有牛奶的概率。比如说,今天一共有300个订单,那么同时会买面包和牛奶的支持度就等于3/300=1%。

也就是说,买了面包的顾客60%可能会买牛奶,但发生这种情况的概率是1%。



来源:原创 发布时间:2022-04-27 20:02:06
User Image
来自广东省深圳市的网友2022-05-17 16:25:23 学习了,谢谢~