参考文献:
Parker C Z, Jiang L, Cho S, et al. Predicting Material Misstatements Using Machine Learning[J]. The Accounting Review, 2025: 1-38.
研究背景:
重大错报不仅影响投资者信心,也对审计师、监管机构和企业管理层构成挑战。目前多数研究利用已有财务数据识别已发生的错报,而缺乏对未来错报的预测能力。对此,本文构建并验证一个可实时更新的机器学习模型,提前1-2年预测企业是否会发生重大错报,并揭示其关键风险因子。
研究设计:
沿用Bertomeu等(2021)方法,使用2001–2014年Compustat与CRSP交叉数据,共59505个公司–年观测值。结果变量Big R取自Audit Analytics,按8-K表格4.02项披露的重大重述进行二元标记,样本中Big R发生率约6.55%。预测变量分四类:一是沿用原文99个基准变量中的88个(11个因数据不可得而放弃);二是从Compustat Snapshot模块提取530个As-Reported原始财务报表项目及其上期值与变动率,共1590个变量;三是新增19个与审计相关的指标,如行业专长、事务所规模、审计延迟等;四是引入15个10-K文本质量变量,包括可读性和风险词汇占比。
模型设定:
先复制Bertomeu等(2021)的梯度提升回归树GBRT基准模型,将2001-2014年样本按2001-09、10-11、12-14划分为训练、验证和测试集,调参标准为ROC-AUC。接着依次加入As-Reported原始财务指标、追加审计指标、10-K文本质量指标。然后,将算法替换为极端梯度提升XGBoost分类器,采用多子集欠采样解决类别不平衡,并用相同流程重新训练。最后,将静态XGBoost升级为滚动窗口的动态模型,每年用截至上一年末公开的全部重述信息重新训练与调参,以2012-2014为测试期逐年外推,并用ROC-AUC、PR-AUC和F-SCORE综合评估预测性能。
实证结果:
基于动态XGBoost的模型可提前1-2年以超80%的ROC-AUC预测重大错报。SHAP分析表明,综合收益趋近零、未确认税项的应计利息与罚款、境外公司身份、短审计任期、高非审计费用、高股价波动以及董事会内部人比例和忙碌独董比例是错报风险的核心驱动因素。经济后果检验显示,模型筛选的高风险公司在随后1-2年内出现内部控制缺陷、异常审计费用上升以及美证交委介入调查的概率显著高于低风险公司,且区分度优于现有基准。投资组合回测证实,基于1年期预测的多空策略年化夏普比达0.68、Fama-French五因子Alpha达1.2%,说明前瞻预测可提供显著且可操作的风险预警与资源配置依据。
#机器学习 #报表 #文献阅读