0%

数据分析 | 费米问题

Fermi Problem

费米问题

  • 全国一年消费多少猪肉?
  • 芝加哥有多少个调音师?
  • 北京有多少个加油站?
  • 估算中国K12课外英语辅导的市场
  • 一个正常成年人有多少根头发?
  • 估算一下北京有多少理发店?
  • 一辆公交车里能装下多少个煎饼果子?
  • 你知道厦门一天的燃油税费是多少吗?
  • 怎样估算北京市餐馆的数量?
  • 怎样估算深圳市学生的数量?
  • 怎样估算上海市理发师的数量?
  • 上海有多少辆出租车?
  • 北京市每天有多少人乘坐地铁?
  • 公司楼下的星巴克一年的咖啡收益?
  • 深圳有多少个学校?
  • 北京有多少个产品经理?
  • 上海有多少辆本田汽车?
  • 广州白云区有多少间7-11便利店?
  • 北京胡同巷子的煎饼摊一年能卖多少个烧饼?
  • ……

在产品、运营、数据分析相关的面试中,经常会遇到上述这类问题,这类问题英文称之为Fermi Problem,即费米问题

估算

费米问题的估算通常有

  • :资本市场对青睐的公司或行业的潜力预测
  • :某场运营活动的前期市场调研

首先,要与面试官/需求方明确统计口径

  • 估算北京市餐馆的数量?
    • 餐馆的范围是哪些?
    • 包括无门店的外卖、街边摊大排档吗?
    • “北京”是包括所有区划吗?
    • ……
  • 估算深圳市学生的数量?
    • 学生的范围是哪些?
    • 只算九年制义务教育阶段的在校生吗?
    • 幼儿园学生、大专、高校生要考虑吗?
    • ……
  • 估算上海市的理发师数量?
    • “理发师”是指只做洗剪吹的理发师吗?
    • 包括只做美发、染烫、造型的理发师吗?
    • ……

进行费米问题估算时,重要的是——将难获得的数据拆分为易获得的数据

大致流程:

graph TD;
    假设推算模型,并列出需要的数据-->确认并预估已知数据;
    确认并预估已知数据-->进行毛估算;

估算分析方法主要有:

  • 供需角度
    • 需求端
    • 供给端
    • 供需端

\begin{equation}
\begin{aligned}
理发师数量&=需求÷供给\
&=上海市每天需要剪发的人数÷每个理发师每天理发客户量 \
&=\frac{上海人口}{人均剪发周期(天)}÷\frac{理发师每日平均工作时间}{每个客户所需的理发时间} \
\end{aligned}
\end{equation}

  • 自顶向下 Top-down、bottom-up

估算深圳市的九年义务教育阶段的学生数量
假设人均寿命为75岁
\begin{equation}
\begin{aligned}
学生数量&=深圳市人口 \times 中小学生适龄人口比例 \
&= 深圳市人口\times\frac{6-14岁人口}{0-75岁人口} \
\end{aligned}
\end{equation}

  • 同类推断

估算深圳市的九年义务教育阶段的学生数量
假设九年义务教育入学率为100%
假设高中入学率为90%
\begin{aligned}
学生数量&=深圳市每年高考人数\times9\
&= \frac{全国每年高考人数}{全国人口}\times深圳市人口\times9
\end{aligned}
每年的高考学生中,有部分不是应届高考生,更细致的估算时需要考虑剔除

示例

全国一年消费多少猪肉

需求端

  1. 确定估算模型
    $$全国一年消费猪肉量=每人每天消费的猪肉量\times 全国人数\times 一年的天数$$
  2. 估算模型中的数据是否已知?若仍有未知,继续拆解
  • 全国人数$N$(已知)
  • 一年的天数$n$(365或366)
  • 每人每天消费的猪肉量(未知)
    $$每人每天消费的猪肉量=每人每天消耗的肉量\times 猪肉在肉类食材中的占比$$
    • 估算:平均每人每天的肉类消耗量为200g
    • 估算:肉类=猪肉+牛肉+羊肉+鸡鸭+水产+…,假设猪肉在肉类食材中的占比为50$%$
      $$每人每天消费的猪肉量=200g\times 50%=100g$$
  1. 数据整合,粗略估计
    \begin{equation}
    \begin{aligned}
    全国一年消费猪肉量&=每人每天消费的猪肉量\times 全国人数\times 一年的天数\
    &= 每人每天消耗的肉量\times 猪肉在肉类食材中的占比\times 14亿\times 365天\
    &= 200g \times 50 % \times 14亿\times 365天
    \end{aligned}
    \end{equation}

更细致的分析:

  • 市场调查:采用问卷调查形式,调查人均每日消耗肉量及猪肉的占比,然后选取中位数
  • 市场细分:前面考虑的是全国,可以按不同区域划分分别估算再进行整合,也可以考虑按消费者的不同年龄划分分别估算再进行整合

芝加哥有多少钢琴调音师

供给端

  1. 假设推算模型,列出需要的数据
    \begin{aligned}
    调音师数量&=需求÷供给\
    &=每年需要调音的钢琴总数÷每个调音师的工作效率
    \end{aligned}
  2. 确认并预估已知数据
    即:判断公式中的数据是否已知,若仍有数据未知,则继续拆解。
  • 在芝加哥生活的人数(900万)
  • 芝加哥平均每个家庭人数(2人)
  • 大约20个家庭中有一个家庭有定期给钢琴调钢琴的需要
  • 钢琴定期调音平均每1年进行一次
  • 每个调音师完成一台钢琴的调音工作平均需要花费2小时
  • 每个调音师每天工作8小时,一周工作5天,一年工作50周
  1. 进行粗略估算
    $$每年需要调音的钢琴数量=\frac{900万}{2}\frac{1}{20}\frac{1}{1年}=22.5万台$$
    $$每个调音师的工作效率=\frac{8小时\times5天\times50周}{2小时/台}=1000$$
    \begin{aligned}
    调音师数量&=\frac{每年需要调音的钢琴数量}{每个调音师的工作效率}\
    &= 22.5万台÷1000=225名
    \end{aligned}

北京有多少个加油站

需求端

  1. 假设推算模型
    \begin{aligned}
    加油站数&=需求÷供给\
    &=\frac{每天需加油的车辆数}{每个加油站平均每天可加油车辆数}
    \end{aligned}
  2. 确认并预估已知数据
    • 北京每天需加油的车辆数$C$
    • 北京人口(2150万人)
      - 平均每个家庭4个人
      - 平均每个家庭1台车
      - 每台车平均5天需加油一次
      $$北京每天需加油的车辆数=2150万÷4\times1÷5=107.5万台$$
    • 每个加油站平均每天可加油车辆数
    • 每个加油站平均加油桩个数(4个)
      - 加油站平均每天工作14小时
      - 每小时加油桩利用率60%
      - 每个桩加一次油耗时5分钟
      $$每个加油站平均每天可加油车辆数=4\times14 \times 60 %÷\frac{5分钟}{60分钟}=403.2$$
  3. 进行粗略估算
    \begin{aligned}
    加油站数&=\frac{每天需加油的车辆数}{每个加油站平均每天可加油车辆数}\
    &= \frac{107.5万}{403.2}\approx2666个
    \end{aligned}

中国K12课外英语辅导的市场

供需端

K12:Kindergarten through twelfth grade

  1. 需求端分析
    $$市场规模=参与英语培训的学生人数\times 平均每人英语培训年均花费$$
    • 在校中小学生人数
    • 中国人口(14亿)
    • 人均寿命(75岁)
    • 假设人口按照岁数均匀分布
    • 九年义务教育入学率100%,高中入学率90$%$
      $$K12阶段人群数=14亿\times\frac{9+3\times90%}{75}=2.184亿$$
    • 参与课外培训率(60%)
    • 参与课外培训学生中参与英语辅导率(60%)
    • 英语辅导年均培训费用(2000元/人)
      $$市场规模=2.184亿\times60 % \times 60 % \times 2000元=1572.48亿元$$

    参与英语培训的人中很大一部分是为了考研、留学的大学生,上述分析没有考虑到这一部分需求

  2. 供给端分析
    $$市场规模=K12教育英语老师每天辅导学生人次\times人均辅导费用$$

深圳市的丰田汽车数量

层级拆解:

  1. 深圳市汽车
  2. 丰田汽车

思路1:Top-down

  1. 假设深圳全市共有机动车300万辆
  1. 在深圳市多地采样,记录每100辆车中丰田车的占比,最后取占比的平均值(假设为25%)
    $$300万辆\times 25 %=75万辆$$

思路2:Bottom-up

  1. 假设已知“深圳全市有特斯拉汽车3万辆”(与丰田横向同层)
  1. 在深圳市多地采样,记录每100辆汽车中,特斯拉汽车的占比为1%、丰田车的占比为25%
    $$\frac{3万辆}{1 % }\times 25 % =75万辆$$

不同方法可以灵活运用、相互验证。

此外:

  • 对丰田汽车进行采样时,要怎么选择地点呢?
    • 选取车流密集区域
    • 口岸、机场、商场等是否会影响数据的真实性?
    • 若只取口岸附近的车流密集区域,占比可能会偏高
    • 应该取多少个采样地点呢?
  • 怎样进行对特斯拉汽车的采样
    • 特斯拉可以充电,若选采样地点是“特斯拉充电桩”附近,则会造成数据偏高
    • 特斯拉在深圳属于什么定位?

深圳的便利店数量

首先需要确定“便利店”的定义:

  • 包括
    未完

数据

  • 如果所有数据开放,应该找哪些数据源?
  • 怎样筛选数据源或找数据源?
  • ……

估算北京市的餐馆(门店)的数量

  • 官方数据源
  • 国家统计局
  • 工商局餐饮类营业执照
  • ……
  • 互联网企业数据源
  • 美团点评数据
  • 地图采样统计
  • ……
  • 产业链上下游
  • 盐的消耗量
  • 可出租商铺量
  • ……

未完

参考资料

Thank you for your approval.

欢迎关注我的其它发布渠道