Benchmarking Single-Factor Physical Video-to-Audio Generation
单因素物理视频到音频生成的基准测试
AI总结 提出FlatSounds基准,通过控制反事实对和单视频模式测试评估视频到音频模型的物理推理能力,发现模型依赖文本描述而非视觉流,且物理准确性与时序对齐存在权衡。
Comments CVPR 2026
单因素物理视频到音频生成的基准测试
AI总结 提出FlatSounds基准,通过控制反事实对和单视频模式测试评估视频到音频模型的物理推理能力,发现模型依赖文本描述而非视觉流,且物理准确性与时序对齐存在权衡。
Comments CVPR 2026
提升图像质量评估性能:基于深度最大后验估计的无监督分数融合
AI总结 提出一种基于深度最大后验估计的无监督图像质量评估分数融合框架,通过细粒度不确定性估计提高融合预测的准确性并降低不确定性。
Comments 2024 International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024)
不确定性下预测性维护调度的优化:基于场景的理论框架
AI总结 提出一个基于场景的框架,整合日历、使用和剩余寿命预测三种信息,在有限规划期内优化预测性维护调度,并通过期望成本和尾部风险准则评估完整维护计划。
Comments This work has been submitted to the IEEE for possible publication
多馈入HVDC互联的海上交流孤岛故障穿越协调策略
AI总结 针对多馈入HVDC互联的海上交流孤岛,提出一种协调控制策略,通过引入零有功/无功注入和故障后有功下垂控制,实现故障穿越并满足电网规范。
面向脑部应用的集总参数人脑电学模型
AI总结 提出一种基于三壳几何结构的集总参数电路模型,通过径向和切向RC支路模拟脑组织频散特性,验证了模型与半解析球谐参考解的一致性。
Comments 4 pages, 4 figures. To appear in the proceedings of the APS March Meeting 2026, Detroit, Michigan
REACT: 一种用于用户自适应sEMG手势姿态估计的条件框架
AI总结 提出REACT框架,通过轻量级条件机制和特征线性调制(FiLM)在推理时利用少量校准数据个性化预训练模型,实现跨用户sEMG手势姿态估计,在EMG2POSE基准上降低角度误差达3.9%。
Comments 6 pages, 3 figures
广义矩方法在低信噪比高斯潜变量模型中(几乎)具有统计有效性
AI总结 针对低信噪比高斯潜变量模型,证明广义矩方法在最优加权下与最大似然估计具有相同的一阶渐近协方差,从而提供统计有效的替代方案。
基于深度学习的低开销数据相关叠加训练接收机设计
AI总结 针对叠加导频传输中导频-数据耦合导致的性能-复杂度瓶颈,本文提出一种增强型数据相关叠加训练(DDST)框架,结合混合传输方案和基于Vision Transformer的神经接收机,实现非迭代解耦和时变信道下的高效干扰抑制。
Comments This work has been submitted to the IEEE for possible publication
一种全卷积方法用于X射线光子相关光谱中结构动力学数据的去噪
AI总结 提出全卷积去噪自编码器(FC-DAE),用于去噪X射线光子相关光谱中的双时间强度-强度相关函数,支持任意输入尺寸,在低信噪比条件下恢复复杂动力学特征并保持结构保真度。
调频和单音激励揭示松动螺栓连接中的振动声学非线性
AI总结 提出一种通过调频和单音激励结合振动声学技术检测螺栓松动的方法,利用谐波带功率比区分不同预紧状态。
基于涡旋STNO神经元可重构多态MRAM突触用于可扩展内存卷积神经网络
AI总结 提出一种集成多态MRAM突触与涡旋自旋扭矩纳米振荡器神经元的统一架构,通过场线驱动写入通道实现可编程卷积核与池化操作,在多个数据集上达到高精度并显著降低能耗。
Comments 29 pages, 17 Figures and 4 tables
一切都关乎速度:AI对音乐制作工作流程的影响
AI总结 通过民族志研究,探讨AI和自动化工具如何影响音乐制作工作流程,重点关注录音工程师、混音师和制作人的使用体验与态度,并分析速度、可控性与创造性自主权之间的张力及其缓解方法。
Comments Audio Engineering Society Conference Paper - Presented at the AES International Conference on Machine Learning and Artificial Intelligence for Audio 2025 - September 8-10, London, UK
在联邦域泛化下通过因果启发的干预减轻听诊器引起的呼吸音分类中的捷径
AI总结 针对呼吸音分类中听诊器设备差异导致的域偏移问题,提出一种因果启发的多模态联邦域泛化框架,通过内容保持的风格扰动、反事实文本增强和梯度对齐实现设备不变表示,在ICBHI和SPRSound数据集上优于传统方法。
Comments 2 figures, 4 tables, and 5 pages
MELD: 基于梅尔频谱的离散潜变量语音语言建模
AI总结 提出一种在梅尔频谱上联合优化编码器和语音语言模型的离散潜变量模型,在零样本文本转语音和语音转文本任务上优于基于编解码器和其他梅尔频谱基线,并缓解了自回归建模中的长时间静音和单词遗漏问题。
BuilDyn: 面向建筑热动力学建模与控制的激励驱动数据生成
AI总结 本文提出BuilDyn包,通过可定制的激励策略生成控制导向的建筑数据,提升机器学习模型对未见工况的鲁棒性。
区域供热网络的分布式非线性模型预测控制
AI总结 提出一种基于交替方向乘子法的分布式非线性模型预测控制方法,利用图模型优化建筑质量流量吸收,在集中式控制性能和分散式隐私保护之间取得平衡。
Comments 9 pages, 9 figures
脉冲成形滤波器对Zak-OTFS波形雷达感知的影响
AI总结 本文研究Zak-OTFS雷达波形中不同脉冲成形滤波器(sinc、高斯-辛格滤波器)对自模糊函数的影响,发现sinc和GS滤波器主瓣更窄,在多目标密集场景下分辨率更高,而高斯滤波器旁瓣更低,在稀疏场景下性能更好;当采用干扰抑制接收机时,sinc和GS滤波器在两种场景下均优于高斯滤波器。
Comments Submitted to IEEE journal for possible publication
基于最小风险机动能力的远程操作运行设计域
AI总结 本文针对远程操作道路车辆,提出基于最小风险机动能力的运行设计域(ODD)概念,并通过用例验证其可行性。
Comments This is a preprint. The manuscript is under preparation and has not yet been submitted for peer review
通过角度感知聚类和RSMA解决HAPS网络中的干扰问题
AI总结 针对HAPS网络中强视距链路导致的用户间干扰,提出角度感知用户聚类和干扰感知资源块分配框架,并引入速率分割多址接入(RSMA)以缓解同一资源块内的干扰,显著提升用户频谱效率。
低倍率SEM可能足够:用于氧化锆增韧氧化铝多尺度断裂原因分类的可解释深度学习
AI总结 提出一种可解释的视觉变换器工作流,利用低倍率SEM图像对氧化铝基复合材料植入物断裂原因进行自动分类,达到与高倍率相当的准确率。
OTFS调制系统中基于多快照深度去噪的信道估计
AI总结 提出一种基于深度去噪的信道估计框架,将信道状态信息恢复建模为图像复原问题,利用时延-多普勒域信道的结构不变性,通过多帧OTFS快照联合增强轻量级去噪器NAFNet的性能,实现低复杂度、低导频信噪比下的可靠估计,并支持分数时延和多普勒效应。
Comments 5 pages, 3 figures
一种用于对比相位特异性虚拟单色成像的统一深度学习框架
AI总结 提出一种统一深度学习框架,利用对比相位先验信息从单能CT数据合成对比相位特异性虚拟单色50 keV图像,通过新型先验条件架构实现能量转换,并在四个对比相位上验证了其对比增强和泛化能力。
多用户MIMO-FAS中信道估计与端口选择的统一两阶段生成扩散框架
AI总结 提出一个统一的两阶段扩散框架,通过最大后验推断将联合任务分解为连续流扩散模型(用于信道估计)和离散扩散模型(用于端口选择),在低采样率下实现高精度信道恢复和全局最优端口选择。
具身虚拟现实反馈重塑神经表征以支持连续三维运动想象解码
AI总结 本研究通过十名参与者的纵向实验,首次系统探究了具身虚拟现实反馈在实时三维虚拟肢体运动想象控制中的作用,发现VR反馈显著优于屏幕反馈,能提升解码性能并诱发更可解码和泛化的神经表征。
Comments 28 pages, 7 figures, 3 tables. Submitted to Nature Biomedical Engineering. Data to be made available via Zenodo (DOI: 10.5281/zenodo.16047021)
COMET:音频-文本多模态对比嵌入中模态间隙的概念空间剖析
AI总结 提出COMET框架,通过PLS-SVD分解揭示CLAP模型中模态间隙主要由少数共享概念轴贡献,并基于谱截断方法无训练地缓解间隙,实现零样本音频字幕接近全监督性能。
基于扩散的ASR解码策略:基于置信度阈值的系统评估
AI总结 本文系统评估了基于扩散语言模型的ASR中三种解码策略,提出使用基于负对数似然的不确定性度量来监控解码进度,发现基于阈值的策略在准确率和速度上均优于固定步数策略,其中静态阈值策略在匹配自回归解码准确率的同时具有更高效率。
Actor-Identifier-Critic 强化学习用于具有随机丢包的非线性系统的自适应无模型最优控制
AI总结 提出一种 Actor-Identifier-Critic 控制器,通过标识器学习系统动态,处理控制器到执行器和传感器到控制器通道的丢包,实现非线性系统的无模型跟踪控制。
可重构耦合天线用于无线网络
AI总结 本文介绍可重构耦合天线(RCA)技术,通过重新配置低成本耦合器的位置和旋转,利用互耦实现机械波束赋形,以提升无线网络性能,并展示其在波束增益、路径损耗降低、衰落缓解、空间复用增益、干扰抑制和几何增益等方面的优势。
Comments 7 pages
离散Cosserat杆的准静态控制
AI总结 针对使用Cosserat杆建模的软体机器人,基于分段常应变空间离散化方法,利用外部力/力矩作为控制输入,设计应变空间和任务空间的状态反馈线性化控制律,实现末端执行器轨迹跟踪和形状控制。
Comments Submitted to 17th APCA International Conference on Automatic Control and Soft Computing (CONTROLO 2026)
面向智能能源管理的电池状态预测深度学习模型
AI总结 提出一种集成先进神经网络架构和大规模训练数据的深度学习模型,用于预测工业电化学储能系统的未来状态和性能,以支持预测性维护和能源资源优化分配。
Comments 11 pages, 11 figures, Journal