Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation
重新利用语音分类器进行基于引导扩散的语音生成
AI总结 提出将预训练的语音分类器作为扩散生成的主干,通过附加轻量子网络并仅训练该子网络,实现单主干模型的高质量条件语音生成,降低内存和计算成本。
Comments Accepted for publication in the Proceedings of Interspeech 2026
重新利用语音分类器进行基于引导扩散的语音生成
AI总结 提出将预训练的语音分类器作为扩散生成的主干,通过附加轻量子网络并仅训练该子网络,实现单主干模型的高质量条件语音生成,降低内存和计算成本。
Comments Accepted for publication in the Proceedings of Interspeech 2026
SSH-Net: 一种用于竞争风险下预测失效时间分布函数的深度神经网络及其在GPU数据上的应用
AI总结 提出结构化分段风险深度神经网络(SSH-Net),通过将网络结构与数据结构关联,允许不同协变量组通过子网络影响预测,在竞争风险框架下预测失效时间分布函数,仿真和GPU数据验证了准确性。
bioETH-Beacon: 基于全同态EVM的机密基因组信标,支持加密计数、过滤和有界噪声
AI总结 提出基于全同态EVM的智能合约原型bioETH-Beacon,实现加密基因组信标查询,通过加密计数、有界噪声和访问控制抵御成员推理攻击,并优化查询成本。
Comments 11 pages, 6 figures, 8 tables. Research prototype for privacy-preserving genomics using Fully Homomorphic Encryption (FHE) on blockchain (fhEVM)
马尔可夫决策过程中奖励非随机缺失的缺失感知策略的离线评估
AI总结 针对奖励非随机缺失的离线强化学习问题,提出基于未来状态作为影子变量的识别方法,并利用桥函数和min-max估计器恢复条件均值奖励,实现缺失感知策略的离线评估。
Comments Accepted at ICML 2026. 31 pages, 6 figures
PASQA:针对重音错误的合成语音训练的以音高重音为中心的语音质量评估模型
AI总结 提出PASQA模型,通过可控重音合成数据集和伪重音质量分数,结合自监督表示、摩拉条件融合等训练策略,有效评估音高重音正确性,优于传统MOS模型。
Comments Accepted to INTERSPEECH 2026
利用文本无关说话人验证的用户自定义关键词个性化唤醒
AI总结 提出ZP-KWS轻量框架,结合音素监督音频编码器和紧凑说话人编码器,通过乘法后融合实现零样本关键词检测与说话人验证,在多个数据集上将目标误拒率降低高达60%。
Comments Accepted to Interspeech 2026
用于ICU中基于事件的爆发-抑制检测的EEG基础模型评估
AI总结 本研究首次评估EEG基础模型在ICU中无需患者校准的爆发检测性能,REVE-base模型在事件级F1分数上达到0.868,并将每分钟爆发错误率分别降低52.1%和36.2%。
Comments 4 pages, 1 figure. Code available upon publication
AI经济学家代理:一种基于模型的经济分析代理框架,结合RAG、知识图谱和大语言模型
AI总结 提出一种基于RAG的AI经济学家代理框架,利用知识图谱和大语言模型进行经济情景分析,通过代理规划、检索证据、选择模型并生成报告,提高经济叙事的连贯性和可追溯性。
通过声学和韵律扰动研究语音质量评估中的人机差异
AI总结 通过声学退化、韵律错误和说话人特征扰动,发现MOS预测模型对声学退化敏感,但对韵律错误不敏感,且对基频有偏见,而对语速和基频变化不敏感。
Comments Accepted to INTERSPEECH 2026
SIMBA:面向NWP应用的FY-4A GIIRS高光谱红外辐射双向检索正向模拟框架
AI总结 提出SIMBA框架,联合进行大气廓线检索和辐射重建,通过循环一致性约束和双向Mamba模块增强耦合,在FY-4A GIIRS数据上优于多种深度学习基线。
低负担数据增强:通过零样本语音克隆改善构音障碍语音识别
AI总结 针对构音障碍语音数据稀缺和变异性大的问题,提出使用零样本语音克隆(Higgs Audio V2)生成合成数据,微调Whisper-medium模型,在TORGO数据集上达到与真实数据微调相近的词错误率,并显著降低数据收集成本。
Comments Accepted to Interspeech 2026, Sydney, Australia
通过域内数据增强改进构音障碍语音的端到端语音识别
AI总结 针对构音障碍语音识别中数据稀缺和严重程度差异的问题,本文探索了四种数据增强方法(SRM、PM、FM、VTLP)对预训练Wav2Vec2模型进行微调,在不同严重程度上实现了显著的字错误率降低。
预测AI时代的生产率:智力融合人类框架与生产函数理论中缺失的认知中介
AI总结 本文提出智力融合人类(ICH)框架,通过引入四维认知构念“融合能力”(C)作为AI与生产率之间的认知中介,解释了AI投资未能带来相应生产率增长的理论悖论,并基于20个OECD国家的数据分析验证了AI与C的交互作用对全要素生产率变异的解释力。
Comments 78 pages, 3 figures
构音障碍语音识别的系统研究:频谱特征与声学模型
AI总结 本文系统研究不同频谱特征与声学模型的组合,通过引入音高特征和优化训练帧重叠数,在F-TDNN模型上实现孤立词和句子识别相对提升4.65%和4.63%。
跨数据集、年龄和性别泛化:低资源儿童语音识别的微调策略综合分析
AI总结 针对低资源儿童语音识别,系统分析了不同微调策略在跨数据集、年龄和性别泛化上的表现,发现特定策略能显著提升泛化能力。
AURA: 用于LLM作为评判审计的自适应不确定性感知精炼
AI总结 提出AURA框架,通过自适应不确定性感知精炼,在少量人工验证下迭代学习人类一致性信号,优先审核不确定比较,提升LLM评判的可靠性。
变分共识蒙特卡洛用于贝叶斯混合模型
AI总结 提出变分共识蒙特卡洛方法扩展至过拟合贝叶斯混合模型,通过新颖的聚类匹配算法和聚合策略,在联邦学习设置下推断聚类数和所有参数,并在模拟和真实电子健康记录数据上验证了有效性。
一种无求解器的预测后优化训练方法
AI总结 提出一种基于测度变换的决策聚焦学习管道,通过无求解器代理损失实现预测后优化中预测模型的高效训练,理论保证Fisher一致性,训练时间降低数个数量级。
Comments Accepted by ICML 2026
FrequencyFormer: 面向频域视觉Transformer推理的协同设计传感器到处理器流水线
AI总结 提出FrequencyFormer,通过多尺度DCT标记化将图像压缩为频域令牌,结合近传感器LUT硬件和低功耗通信架构,实现高达128倍数据压缩和28.8 TOPS/W能效,兼容多种视觉任务。
标量交互的表征限制:一种干预分解
AI总结 本文证明标量交互指标混淆了唯一性、冗余性和协同性,并提出Stochastic Hi-Fi方法,通过干预掩码推理分解每个特征的U/R/S轮廓,在表格和图像任务中恢复被标量基线遗漏的结构。
全自诊断(FSD): 通过逆问题和算子学习从智能手机视频进行基于物理的可视生物标志物推断
AI总结 提出全自诊断(FSD)框架,结合物理前向模型、信息论可观测性、正则化逆问题、算子学习和随机变分推断,从9秒面部视频恢复生理状态,在59名受试者38812次扫描中验证,血糖MARD达29.86%。
Comments 38,812 paired scans, preliminary longitudinal validation of multichannel visual glucose inference (MARD 17 to 46 percent across cohorts); physics plus information theory plus operator learning framework
JanusMesh: 通过跨空间去噪实现快速零样本3D视觉错觉生成
发表机构 * National Yang Ming Chiao Tung University(国立阳明交通大学)
AI总结 提出一种无需训练的快速框架,通过跨空间双分支去噪和视图条件纹理合成,在3-5分钟内生成高真实感双语义3D视觉错觉,优于现有方法。
Comments ECCV 2026. Project page: https://siang1105.github.io/JanusMesh.github.io/
MemoryWAM:具有持久记忆的高效世界动作建模
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Tsinghua University(清华大学) ; Zhejiang University(浙江大学)
AI总结 提出MemoryWAM,通过混合记忆设计和定制注意力机制,在长时域机器人操作任务中实现高效记忆依赖决策,优于现有VLA和WAM基线。
TimeProVe: 先提出后验证,实现日常活动中的高效长视频时间推理
AI总结 提出TimeProVe框架,先通过轻量模块生成基于动作的候选假设,再调用昂贵VLM验证,在长视频问答中降低75%VLM调用和93%推理成本,性能提升7.3%。
DiffusionGemma 的透明度如何?
发表机构 * Google(谷歌)
AI总结 研究DiffusionGemma在连续潜空间中的推理透明度,通过变量透明度和算法透明度分解,发现可解释的令牌瓶颈将不透明串行深度降至Gemma 4的1.1倍,并揭示扩散特有现象。
Comments 20 main text pages and 6 pages of references and appendices
UNIEGO:代理作为中介的统一自我中心视频表示学习
AI总结 提出分层多教师蒸馏框架UNIEGO,通过代理模型将异构教师知识转化为同质自我中心空间,并采用选择性代理蒸馏自适应筛选可靠监督,在三个自我中心视频理解任务上达到最优。
Thinking in Boxes: 真实图像中的3D编辑变得简单
发表机构 * Indian Institute of Science(印度科学研究所) ; Apple(苹果公司) ; UIUC(伊利诺伊大学厄巴纳-香槟分校) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出使用3D盒子作为结构化规范,通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化,同时保持场景和物体身份,恢复未见的物体区域。
Comments Project Page: https://thinking-in-boxes.github.io/
结构化与分词化分布式用户兴趣上下文以支持生成式推荐
AI总结 提出G2Rec框架,通过统一图建模与语义分词,实现工业级生成式推荐中用户兴趣上下文的全面准确建模。
从效率到泄露——联邦语言模型微调中的隐私后门
AI总结 提出NeuroImprint攻击,恶意参数服务器在参数高效微调中植入隐私后门,通过为每个样本分配独立神经元并限制单次更新,实现高保真重建训练文本。
Easy Reads: 一个使arXiv上的科学论文更易读和更易访问的Python程序
AI总结 针对科学论文排版紧凑、可读性差的问题,提出Easy Reads——一个自动化、端到端的开源Python程序,通过自定义字体大小和列数等格式,从arXiv获取论文并重新排版,提升可读性和可访问性。
Comments 9 pages. Open-source software project available at: https://github.com/Curious-flow/Easy-Reads