概率统计
关于正态分布的说法正确的是
- 正态分布具有集中性和对称性
- 正态分布的均值和方差能够决定正态分布的位置和形态
- 标准正态分布的均值为0,方差为1
- 正态分布的偏度为0,峰度为3
[来自:小红书2020校招数据分析笔试题卷一]
老王有两个孩子,已知至少有一个孩子是在星期二出生的男孩。问:两个孩子都是男孩的概率是多大?
- 星期二出生的男孩的概率=$\frac{1}{2}\times\frac{1}{7}=\frac{1}{14}$
- 星期二出生的女孩的概率=$\frac{1}{2}\times\frac{1}{7}=\frac{1}{14}$
- 非星期二出生的男孩的概率=$\frac{1}{2}\times\frac{6}{7}=\frac{6}{14}$
- 非星期二出生的女孩的概率=$\frac{1}{2}\times\frac{6}{7}=\frac{6}{14}$
记
- 事件A=两个孩子至少有一个孩子是星期二出生的男孩
- 事件B=两个孩子都是男孩
\begin{aligned}
P(A)&=1-P(两个孩子都不是星期二出生的男孩)\
&= 1-(1-\frac{1}{14})(1-\frac{1}{14})\
&= \frac{27}{196}\
P(AB)&=P(两个都是男孩且至少有一个是在星期二出生的男孩)\
&=P(两个孩子都是星期二出生的男孩)+P(一个男孩是星期二出生的,另一个不是星期二出生的男孩)\
&=\frac{1}{14}\cdot\frac{1}{14}+2\cdot\frac{1}{14}\cdot\frac{6}{14}\
&=\frac{13}{196}
\end{aligned}
则要求的概率为
\begin{aligned}
P(B|A)&=\frac{P(AB)}{P(A)}\
&=\frac{13}{196}/\frac{27}{196}\
&=\frac{13}{27}
\end{aligned}
[来自:小红书2020校招数据分析笔试题卷一]
假设有三个人同时参加这场笔试,假设满分为1,三个人的得分符合分布U(0,1)。那么三个人最低分的期望为?
假设三人的的成绩分别为$X_1,X_2,X_3$,则三人的最低分为$Y=\min{X_1,X_2,X_3}$。
\begin{equation}
\begin{aligned}
F_Y(y)&=P(Y\leq y)=1-P(Y>y)\
&=1-P(X_1>y)P(X_2>y)\cdots P(X_n>y)\
&=1-\left[1-F_X(y) \right]^n
\end{aligned}
\end{equation}
求导得到
$$f_Y(y)=f_X(y)\left[1-F_X(y) \right]{n-1}=n(1-y){n-1}$$
所以期望为
\begin{equation}
\begin{aligned}
E(Y)&=\int_0^1 yf_Y(y)\mathrm{d}y\
&= -\left[y(1-y)n|_01-\int_01(1-y)n\mathrm{d}y \right]\
&= -\frac{1}{1+n}(1-y){n+1}|_01=\frac{1}{1+n}
\end{aligned}
\end{equation}
所以三个人最低分的期望为$\frac{1}{4}$。
[来自:小红书2020校招数据分析笔试题卷一]
通常可以通过关联规则挖掘来发现啤酒和尿布的关系, 那么如果对于一条规则A →B, 如果同时购买A和B的顾客比例是4/7, 而购买A的顾客当中也购买了B的顾客比例是1/2, 而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则A →B的支持度(support)和置信度(confidence)分别是多少?
由已知条件可知
$$P(A\cap B)=\frac{4}{7},\quad P(B|A)=\frac{1}{2},\quad P(A|B)=\frac{1}{3}$$
则支持度support$(A\rightarrow B)=P(A\cap B)=\frac{4}{7}$,置信度Confidence$(A\rightarrow B)=P(B|A)=\frac{1}{2}$。
[来自:网易2018校招数据分析师笔试卷]
从数字集合${1,2,3,4,… ,20}$中选出4个数字的子集,如果不允许两个相连的数字出现在同一集合中,那么能够形成多少个这种子集?
答案:2380
插空法:把4个数插到16个数形成的17个空格中
$$C_{17}^4=2380$$
[来自:网易2018校招数据分析师笔试卷]
将4个不一样的球随机放入5个杯子中,则杯子中球的最大个数为3的概率是?
答案:$\frac{16}{125}$
- 总体情况:每个球都可以任选一个杯子,共$5^4$种可能结果
- 杯子中球的最大个数为3,则任选一个杯子装3个球$C_51$,再从剩下的4个杯子中选一个($C_41$)放剩下的那个球(因为4个球都不一样,所以这个球有$C_4^1$种可能)。
$$\frac{C_51C_41C_41}{54}=\frac{16}{125}$$
[来自:网易2018校招数据分析师笔试卷]
抽样调查
抽样调查遵循的原则是:随机原则
[来自:小红书2020校招数据分析笔试题卷一]
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。
抽样调查的特点:
- 经济性
- 时效性强
- 适应面光
- 准确性高
机器学习
三种常见的聚类算法:
- K-means聚类、K-中心点聚类、CLARANS算法、DIANA算法、BIRCH算法、Chameleon算法
- EM算法
- OPTICS算法、DBSCAN算法
[来自:小红书2020校招数据分析笔试题卷一]
在数理统计中,一般通过增加抽样次数取平均来使得预估误差减小,在机器学习中也有类似的模型处理,如随机森林,通过引入随机样本并且增加决策树的数据,对于随机森林主要降低预估的哪个方面值
答案:预估方差。
- 降低偏差:在一棵树数上增加深度,增加叶子节点个数(增加模型的复杂度)
- 降低方差:提高模型的泛化能力;增加数据
[来自:网易2018校招数据分析师笔试卷]
时间序列
SQL
某电商有100家店铺,每家店铺每天销售商品和销售额gmv的数据存放在purchase表中,现需统计5月和6月,总gmv中,两个月分别的贡献前50% gmv的店铺名
1 | SELECT CONCAT('2019M', month), seller_name |
[来自:小红书2020校招数据分析笔试题卷一]
基础算法
将一个整数序列整理为升序,两趟处理后序列变为10,12,21,9,7,3,4,25,则采用的排序算法可能是
答案:A.插入排序。
- 插入排序:第n趟前n+1个有序
- 选择排序:第n趟前n个位置正确
- 快速排序:第n趟有n个元素位置正确
- 堆排序:第n趟前或后n个位置正确
[来自:网易2018校招数据分析师笔试卷]