Membership Inference Attacks against Large Audio Language Models
针对大型音频语言的成员推断攻击
AI总结 首次系统评估大型音频语言模型的成员推断攻击,提出盲基线协议控制分布偏移,发现跨模态记忆仅源于说话人声纹与文本绑定。
Comments Accepted by Interspeech 2026
针对大型音频语言的成员推断攻击
AI总结 首次系统评估大型音频语言模型的成员推断攻击,提出盲基线协议控制分布偏移,发现跨模态记忆仅源于说话人声纹与文本绑定。
Comments Accepted by Interspeech 2026
评估交互式二维可视化作为生物医学时间序列数据标注的样本选择策略
AI总结 针对生物医学时间序列标注困难,比较随机采样、最远优先遍历和基于交互式2D可视化(2DV)的三种样本选择方法,在婴儿运动评估和语音情感识别任务中,2DV在聚合标签时表现最佳,但个体标注者间标签分布差异大,随机采样最安全。
Comments Accepted for publication in Computers in Biology and Medicine (Elsevier)
findsylls: 一种语言无关的音节级语音分词与嵌入工具包
AI总结 提出语言无关的模块化工具包findsylls,统一经典音节检测器和端到端音节切分器,支持音节分割、嵌入提取和多粒度评估,在英语、西班牙语及低资源语言Kono上验证了跨语言可重复实验能力。
Comments 4 pages + 2 for references, disclosures & acknowledgements; to appear in Interspeech 2026; DOI to cite findsylls library: https://doi.org/10.5281/zenodo.20707804
重新思考时间序列的多模态融合:文本模态需要受约束的融合
AI总结 针对多模态时间序列预测中朴素融合方法效果不佳的问题,提出受约束融合方法及受控融合适配器(CFA),通过低秩适配器过滤无关文本信息,在多种数据集和模型上验证了有效性。
Comments KDD Workshop on Mining and Learning from Time Series 2026
ThinkJEPA:赋予潜在世界模型大型视觉-语言推理能力
AI总结 提出ThinkJEPA框架,结合密集JEPA分支与稀疏VLM思考者分支,通过分层金字塔表示提取模块,实现细粒度运动建模与长程语义引导,在手部操作轨迹预测任务上超越基线。
Comments 10 pages, 5 figures
评估结构偏差下的提升建模:对指标稳定性和模型鲁棒性的洞察
AI总结 针对现实营销数据中的多种偏差,设计半合成基准框架,发现TARNet具有鲁棒性,且与ATE对齐的指标更稳定。
Comments Accepted by KDD 26
GOT-JEPA:基于联合嵌入预测架构的通用目标跟踪与模型自适应及遮挡处理
AI总结 提出GOT-JEPA框架,通过预测跟踪模型而非图像特征来提升泛化能力,并设计OccuSolver增强遮挡感知,在七个基准上验证了有效性。
Comments Accepted by IEEE Transactions on Circuits and Systems for Video Technology (TCSVT). This research focuses on learning model adaptation for adverse and dynamic environments, as well as fine-grained occlusion perception for tracking
PACE-RAG:面向临床药物推荐的患者感知上下文与证据约束RAG
AI总结 提出PACE-RAG框架,通过提取患者特定临床特征、检索相关病例并结合当前症状与用药史,实现个性化药物推荐,在帕金森病和MIMIC-IV数据集上取得最优性能。
Comments 32 pages, 18 figures
揭露公平的幻象:审计对分布操纵攻击的脆弱性
AI总结 研究恶意被审计方如何通过分布操纵制造公平假象,提出基于熵和最优传输的操纵策略,并评估统计检验的检测能力,为监管验证提供指导。
通过学习支持函数摊销最大内积搜索
AI总结 提出基于回归的摊销MIPS方法,通过训练神经网络直接预测最优键,利用支持函数的凸性加速搜索,在BEIR基准上显著提升IVF匹配率。
4D表示进展:几何、运动与交互
AI总结 本文综述了4D生成与重建领域,从几何、运动和交互三个核心支柱出发,分析不同4D表示方法的特性、挑战及适用场景,并探讨了大语言模型和视频基础模型在其中的作用。
Comments CGF'26,21 pages. Project Page: https://mingrui-zhao.github.io/4DRep-GMI/
LibriTTS-VI:用于高效语音印象控制的公开语料库与新方法
AI总结 针对数值语音印象控制中缺乏公开语料库和印象泄漏问题,构建首个公开语料库LibriTTS-VI,并提出解耦训练和无参考方法,显著提升控制精度。
Comments Accepted to INTERSPEECH 2026
Phys4D: 从视频扩散模型实现细粒度物理一致的4D建模
AI总结 提出Phys4D流水线,通过三阶段训练(伪监督预训练、物理监督微调、强化学习校正)从视频扩散模型学习物理一致的4D世界表示,显著提升细粒度时空与物理一致性。
具有广义双线性偏好的可证明高效正则化在线RLHF
AI总结 研究在线RLHF中正则化最佳响应最大遗憾最小化问题,通过广义双线性偏好模型证明强凸性可导出多对数遗憾,表明快速遗憾不限于KL散度。
Comments 48 pages, 3 figures (ver3: major revisions; ver2: more colorful boxes, fixed some typos)
上下文环境诱导语言模型中的评估意识
AI总结 本文提出黑盒对抗优化框架,通过优化上下文提示诱导语言模型产生评估意识并策略性低表现(沙袋效应),实验显示优化提示可使算术任务准确率下降高达94个百分点,且沙袋效应主要由评估意识推理驱动。
Position: 模块化记忆是持续学习智能体的关键
AI总结 本文提出通过模块化记忆结合权重内学习与上下文学习,解决持续学习中的灾难性遗忘问题,实现大规模持续适应。
Comments ICML 2026 Position Track Spotlight. This work stems from discussions held at the Dagstuhl seminar on Continual Learning in the Era of Foundation Models (October 2025)
通过分布鲁棒优化学习信度集成
AI总结 提出CreDRO方法,通过分布鲁棒优化学习集成模型,捕获由训练与测试数据分布偏移导致的认知不确定性,在分布外检测和选择性分类任务上优于现有方法。
Comments Accepted by ICML 2026 as Spotlight paper (https://icml.cc/virtual/2026/poster/62862)
X-REFINE:基于XAI的相关性输入过滤与架构微调用于信道估计
AI总结 提出X-REFINE框架,通过分解稳定化LRP epsilon规则联合优化输入过滤和架构微调,在信道估计中实现性能-复杂度-可解释性的优越权衡。
Comments This paper has been accepted for publication in the IEEE Transactions on Vehicular Technology (TVT) as a correspondence paper
通过闭环视觉基础验证弥合自我反思中的模态脱节
AI总结 提出MIRROR框架,通过闭环视觉反思(草稿-批评-区域验证-修订)减少VLM幻觉,并构建ReflectV数据集训练视觉基础的多轮反思。
RooseBERT: 政治语言建模的新协议
AI总结 针对政治语言特殊性,提出领域预训练模型RooseBERT,在大型政治辩论语料上训练,在多项政治分析任务中优于通用模型。
OpenLID-v3:提高近亲语言识别精度的经验报告
AI总结 针对现有语言识别工具对近亲语言和噪声区分困难的问题,通过增加训练数据、合并问题语言变体簇和引入噪声标签扩展OpenLID分类器,提出OpenLID-v3,在多个基准上提升精度。
Comments VarDial'26 workshop at the EACL 2026 conference
ZeroSyl: 用于口语语言建模的简单零资源音节分词
AI总结 提出ZeroSyl,一种无需训练的方法,直接从冻结的WavLM模型中提取音节边界和嵌入,实现竞争性的音节分割性能,并在词汇、句法和叙事基准上优于先前方法。
Comments Accepted to Interspeech 2026
DICE:扩散大语言模型在生成CUDA内核方面表现出色
AI总结 提出CuKe数据集和BiC-RL训练框架,构建DICE系列扩散大语言模型(1.7B/4B/8B),在KernelBench上显著优于同类自回归和扩散模型,实现CUDA内核生成新SOTA。
Comments v2: Expanded with dLLM vs. autoregressive LLM comparisons, ablation studies, and qualitative case studies
大型语言模型会为景观付费吗?从主观选择中推断支付意愿
AI总结 研究在旅行助手场景下,通过多分类逻辑模型分析LLM的主观选择,推断其支付意愿并与人类基准比较,发现LLM在属性层面存在系统偏差且高估支付意愿,但通过条件化偏好可改善。
CausalT5k: 诊断可信因果推理中的拒绝与失败模式——跨越因果阶梯
AI总结 提出CTK基准,通过5,147个案例诊断大语言模型在因果推理中的失败模式,包括因果阶梯、陷阱类型、压力敏感性和拒绝质量等标注,揭示聚合准确率隐藏的缺陷。
Comments 12 pages, 17 tables, 4 figures
TRACE:在电路图上学习计算
AI总结 针对图表示学习在电路功能建模中的架构不匹配问题,提出TRACE,采用层次化Transformer和函数偏移学习,显著超越现有方法。
Brep2Shape:通过自监督变换器对齐边界与形状表示
AI总结 提出Brep2Shape自监督预训练方法,利用双Transformer骨干和拓扑注意力对齐B-rep的抽象边界表示与直观形状表示,在多项下游任务中达到最优精度并加速收敛。
关于在线策略分类中的随机化算法
AI总结 研究在线策略分类中随机化算法的优势,在可实现和不可知场景下分别给出基于Littlestone维度和操纵图最大度的改进界限,并证明随机化可突破确定性算法的下界。
MoSE: 混合可瘦身专家实现高效自适应语言模型
AI总结 提出MoSE架构,每个专家具有可变宽度的嵌套结构,支持在推理时连续调节精度-计算权衡,通过多宽度训练和轻量级测试时训练实现高效自适应。
Comments Accepted to ICML 2026
乐观主义稳定自适应推断的汤普森采样
AI总结 本文通过引入乐观机制(如方差膨胀或均值奖励)稳定汤普森采样,使得各臂拉取次数收敛于确定性尺度,从而在K臂随机bandit中实现渐近有效的Wald推断,并解决了多最优臂的扩展问题。
Comments Accepted in part to COLT 2026