Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization
做自己的老师:通过无监督奖励优化引导蛋白质语言模型
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; MBZUAI ; Hong Kong University of Science and Technology(香港科学理工大学)
专题命中 蛋白质与生物分子 :无监督奖励优化引导蛋白质语言模型生成。
AI总结 提出无监督奖励优化框架,结合模型不确定性和语义一致性作为代理奖励,通过SRO和BRO算法优化PLMs,在无标签数据下实现可控蛋白质生成,性能接近有监督方法。
Comments 24 pages, 2 figures, 13 tables