来源:机器学习初学者
2025年04月10日
请同步关注“学者探讨”微信公众号:
2021年,来自杭州医学院附属浙江省人民医院儿科的Wen-Lan Wang , Xiao-Ming Luo , Qin Zhang , Hai-Qiao Zhu , Guo-Qing Chen , Qin Zhou (通讯作者,音译周琴)在Autoimmunity 期刊发表了一篇论文,题目为:The lncRNA PVT1/miR-590-5p/FSTL1 axis modulates the proliferation and migration of airway smooth muscle cells in asthma。
2025年04月10日
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。
PPO属于在线策略梯度方法的范畴。其基础形式可以用带有优势函数的策略梯度表达式来描述:
策略梯度的基础表达式(包含优势函数)。
这个表达式实际上构成了优势演员-评论家(Advantage Actor-Critic)方法的基础目标函数。PPO算法可以视为对该方法的一种改进和优化。
2025年04月10日
论文提出的GID框架能够自动选择可辨别目标用于知识蒸馏,而且综合了feature-based、relation-based和response-based知识,全方位蒸馏,适用于不同的检测框架中。从实验结果来看,效果十分不错,值得一看
2025年04月09日
Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。
Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。
2025年04月09日
还在愁小论文?不如考虑考虑这个方向:LSTM+时间序列异常检测。
这是个比较活跃且热门的研究方向,因为LSTM具有非常优秀的时序数据深度处理能力,能够灵活适应不同复杂度的数据,给我们提供高精度的预测结果,在处理时序异常检测任务方面遥遥领先。
比如一种新的基于多尺度C-LSTM的异常检测方法,该方法利用了LSTM网络在处理时间序列数据方面的优势,实现了超过99.7%的准确率。