本文提出了一个集成三种核心技术的下一代智能优惠券分发系统:基于贝叶斯生存模型的重购概率预测、采用注意力机制的Transformer利润预测模型,以及用于策略持续优化的Dyna-Q强化学习代理。该系统构建了一个自优化的闭环架构,通过贝叶斯生存分析筛选高价值客户,利用Transformer模型预测优惠券投放的净利润收益,并通过Dyna-Q算法在虚拟环境中进行大规模策略探索与优化。
系统首先采用贝叶斯生存模型分析每个客户的购买历史数据,输出其再次购买的概率分布。通过筛选低概率客户,避免在无效渠道上的预算浪费。随后基于注意力机制的Transformer模型接收客户的行为序列数据和候选优惠券信息,预测其下一次订单的净利润。将生存概率与利润预测相乘得到期望利润评分,Dyna-Q代理将此评分作为虚拟奖励信号,在仿真环境中测试不同优惠券策略,通过查找表更新实现对每个客户档案的个性化优惠券推荐。