计量经济学中混频数据的处理
从若干学术论文中总结出的一些混频数据处理技术、模型与使用案例,希望为卖方的宏观研究提供来自学术界的思路。为了顾及实践中的可操作性,忽略了一些结构过于复杂的技术或模型。
计量经济学中混频数据的处理
集成与插值
集成
标准的集成方法根据低频数据的周期对高频数据做平均或累加,另一种方法是根据低频数据的周期选取高频数据的最新值。
插值
插值方法不常用,实施分两步:
- 低频数据映射到高频时间索引上,缺失值用插值补全;
- 在增广数据及上拟合模型参数。
可能需要考虑度量增加插值数据带来的误差。
桥接等式
由于统计数据的发布有时间延迟,在实际使用预测模型时可能某些高频数据尚未发布,这时就需要桥接等式补全未发布的数据。
桥接等式是用于连接高频数据和低频数据的线性回归,桥接等式:
\[y_{t_q} = \alpha + \sum_{i=1}^{j}\beta_i(L)x_{it_q} + u_{t_q}\]其中,$\beta_i(L)$ 是一个阶数为 $k$ 的滞后多项式,$x_{it_q}$ 是集成后的高频指标。
桥接等式的实施分两步:
- 对高频数据建立预测模型,并将预测数据集成,与低频数据的频率保持一致;
- 将集成后的数据放入桥接等式中做回归。
高频数据上的预测模型通常是自回归模型。
案例
- 《Using Monthly Data to Predict Quarterly Output》
作者针对真实 GDP(RGDP)建立了一个 ARX 预测模型,其中 X 分别是就业(EMP)和消费(CONS)。由于外部变量的发布频率为月度,模型中实际使用的数据为月度数据的季度平均。
在使用模型做预测时,若只能获得上个季度的部分月度数据,则先对月度数据建立单变量预测模型(滚动建模,保持参数估计的样本数一致),预测剩余月份的数据,再将已知数据和预测数据放在一起计算季度平均,最后放进 ARX 模型中。
混合数据抽样(Mixed-Data Sampling,MIDAS)
“桥接等式”并未真正解决将高、低频数据纳入到一个统一模型框架下的问题,数据的集成不可避免。 MIDAS 巧妙地应用“集约参数化”的手段使得高频数据在无需集成的前提下可以作为低频数据的解释变量。在某些情形下,若选择的高频数据是来自金融市场的交易数据,则可以实现对低频数据的实时预测。
符号约定:
- $t_q$,低频数据的时间索引;
- $t_m$,高频数据的时间索引;
- $m$,低频周期关于高频周期的倍数(例如,季度数据关于月度数据的倍数等于 3,月度数据关于周度数据的倍数等于 4);
- $w$,高频数据相对于低频数据能够提前的时间(以高频数据的时间索引为准,$w \lt m$),这意味着可以提前 $m-w$ 进行预测。
- 规定 $y_{t_q} = y_{t_m},\forall t_m = mt_q$
基本 MIDAS
提前 $h_q$ 步的预测模型:
- 单变量
- 多变量
其中,$h_q=h_m/m$,$b(L_m;\theta) = \sum_{k=0}^K c(k;\theta) L_m^k$,$L_m^k x_{t_m}^{(m)} = x_{t_m-k}^{(m)}$,$x_{t_m +w}^{(m)}$ 是从高频数据 $x_{t_m}$ 中的跳跃采样。
预测值为:
\[\hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \hat \beta_1 b(L_m;\hat \theta)x_{T_m^x}^{(m)} \\ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \sum_{i=1}^N \hat \beta_i b(L_m;\hat \theta_i)x_{i,T_m^x}^{(m)}\]对 $c(k;\theta)$ 的集约参数化(Parameterization in a Parsimonious Way)是 MIDAS 的关键,常用选择有两个:
- Exponential Almon Lag
- Beta Lag
Exponential Almon Lag
\[c(k;\theta) = \frac{\exp(\theta_1 k + \cdots + \theta_Q k^Q)} {\sum_{k=1}^K \exp(\theta_1 k + \cdots + \theta_Q k^Q)}\]Beta Lag
\[c(k;\theta_1,\theta_2) = \frac{f(\frac kK;\theta_1,\theta_2)} {\sum_{k=1}^K f(\frac kK;\theta_1,\theta_2)}\]其中,$f(x,a,b) = \frac{x^{a-1}(1-x)^{b-1}\Gamma (a+b)}{\Gamma(a)\Gamma(b)}$,$\Gamma(a) = \int_0^\infty e^{-x}x^{a-1}dx$
其他集约参数化
\[c(k;\theta) = \frac 1K\] \[c(k;\theta) = \frac{g(\frac kK, \theta)}{\sum_{k=1}^K g(\frac kK, \theta)}\]其中,$g(k,\theta) = \frac{\Gamma(k+\theta)}{\Gamma(k+1)\Gamma(\theta)}$ \(c(k;\theta) = \frac{\theta^k}{\sum_{k=1}^\infty \theta^k}, \mid \theta \mid \le 1\)
AR-MIDAS
AR-MIDAS 中一阶自回归模型最为常见。
- 一步模型
- 多步模型
递归式的参数估计
- 估计对应的基本 MIDAS 模型,得到残差估计 $\hat \varepsilon_{t_m}$;
- 并算出 $\lambda$ 的初始值 $\lambda_0$,$\hat\lambda_0 = (\sum \hat \varepsilon_{t_m+w-h_m}^2)^{-1}\sum \hat \varepsilon_{t_m} \hat\varepsilon_{t_m+w-h_m}$;
- 构造新变量 $y_{t_m}^{\ast} = y_{t_m} - \hat\lambda_0y_{t_m-h_m}$ 以及 $x_{t_m + w - h_m}^{*(3)} = x_{t_m + w - h_m}^{(3)} - \hat\lambda_0 x_{t_m-( h_m - w)-h_m}^{(3)}$
- 对 $y_{t_m}^{\ast} = \beta_0 + \beta_1 b(L_m;\theta)x_{t_m + w - h_m}^{*(3)} + \varepsilon_{t_m}$ 应用 NLS,得到估计 $\hat \theta_1$ 和 新的残差;
- 重复 2、3、4 步,直到估计值 $\hat \lambda$ 和 $\hat \theta$ 稳定。
案例
- 《Macroeconomic Forecasting With Mixed-Frequency Data》
作者使用月度数据工业产值(IP)、就业(EMP)和设备开工率(CU)联合产出增速(季度数据)建立一个 AR-MIDAS 模型,预测下季度产出增速。
- 《Should Macroeconomic Forecasters Use Daily Financial Data and How》
作者将大量来自金融市场的每日数据和许多月度统计数据(集成为季度数据)与 GDP 增长率(季度)联合起来建立 AR-MIDAS 模型,实施策略有两种:
- 用 PCA 提取每日数据和季度数据的主成分,将主成分和 GDP 增长率联合建立 AR-MIDAS 模型;
- 用若干每日数据分别和 GDP 增长率联合建立 AR-MIDAS 模型,得到若干预测结果,再将预测加权平均。
- 《Real-Time Forecasts of Inflation The Role of Financial Variables》
作者挑选了几个来自金融市场的数据与其他若干经济指标(月度数据)联合欧元区 HICP(调和消费者物价指数)建立起 HICP 的 AR-MIDAS 模型,并借助金融市场的数据实现了对 HICP 的实时预测。
金融市场数据包括:
- 短期与长期利率;
- 期限利差;
- 股票指数;
- 商品价格;
- 汇率。
经济指标包括:
- 滞后 1 期的 HICP 数据;
- 滞后 1 期的油价同比;
- 滞后 5 期的核心通胀。
相关软件
- forecast:单变量时间序列预测
- MTS:多变量时间序列预测
- midasr:MIDAS 回归
- statsmodels:回归分析与时序预测
- prophet:单变量时间序列预测
参考文献
- A Survey of Econometric Methods for Mixed-Frequency Data
- Using monthly data to predict quarterly
- Macroeconomic forecasting with mixedfrequency data Forecasting US output growth
- Should Macroeconomic Forecasters Use Daily Financial Data and How
- Real-Time Forecasts of Inflation The Role of Financial Variables