Xiaoxu Zhu

朱晓旭

[个人主页](https://zhuxiaoxu.com/) · zhuxx23@mails.tsinghua.edu.cn · 高级语音算法研发 · 微信:18701538360

教育背景

清华大学
工程管理(信息方向)
2023 - 2025 (Exp.)
M.Eng.
圣彼得堡彼得大帝理工大学
信息学与计算技术
2017 - 2019
M.S.
哈尔滨工业大学
材料成型及其控制工程
2012 - 2016
B.Eng.

工作经历

商汤科技(SenseTime) | 高级语音算法开发
2021.09 - 至今
上海人工智能国家实验室(Shanghai AI Lab) | 算法顾问
2022.06 - 2023.06
猎户星空(猎豹子公司) | 语音算法工程师
2019.10 - 2021.09
西门子(Siemens Saint Petersburg) | 算法实习生
2018.05 - 2019.09

学术论文

Robust Residual Finite Scalar Quantization for Neural Compression
Xiaoxu Zhu, Jiakui Li, Ken Zheng, Guiping Zhong, Huimeng Wang, Shiyin Kang, Dahua Lin
Manuscript in preparation for ICASSP 2026 | PDF
Proposes RFSQ framework that addresses residual magnitude decay problem in finite scalar quantization .

Speaker Disentanglement of Speech Pre-trained Model Based on Interpretability
Xiaoxu Zhu,Junhua Li, Aaron J. Li, Yiming Ren, Baoxiang Li
Manuscript in preparation for ICASSP 2026 | PDF
Introduces interpretability-based approach for speaker disentanglement in speech models using SHAP techniques, reducing timbre residual from 18.05% to near 0% while preserving content integrity.

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
Wenwen Tong, Hewei Guo, Dongchuan Ran, …, Xiaoxu Zhu, …, Shiyin Kang, Lewei Lu | [共一]
Technical Report | pdf
Proposes an open-source 4B-8B omni-modal model for audio-visual multi-turn dialogue, integrates diverse encoders/decoders, boasting strong memory, speech generation and high parameter efficiency.

A polyphone BERT for Polyphone Disambiguation in Mandarin Chinese
Song Zhang, Ken Zheng, Xiaoxu Zhu, Baoxiang Li
Interspeech 2022 | PDF
Develops a Chinese polyphone BERT model by extending pre-trained BERT with 741 new monophonic characters, achieving 2% improvement in polyphone disambiguation accuracy for TTS systems.

Multimodal Sentiment Analysis via Efficient Multimodal Transformer and Modality-Aware Adaptive Training Strategy
C. Ding, D. Zong, B. Li, S. Zhang, X. Zhu, G. Zhong, D. Zhou IEEE/ACM MuSe-Mimic 2023 | PDF
Presents an efficient multimodal transformer with modality-aware training strategy for sentiment analysis, achieving 0.729 Pearson correlation coefficient and ranking 2nd in the MuSe-Mimic challenge.

项目经历

### 大模型语音生成算法 | 2023.4 - 现在 | 商汤科技 负责SenseCosy大语音模型的训练和优化,对S2流式改进实现semantic到audio的低损失流式推理架构;SoVITS方案优化训练调优、流式适配、VQ模块优化等关键工作;多语言方面,实现粤语快速适配,上线商量大模型,测评优于豆包、微软;多子带声码器训练和流式工作,实现声音效果优化,效果满足上线需求已上线商量多模态解决方案; ### 大模型数据处理 | 2023.4 - 2023.9 | 商汤科技 参与设计并搭建语音处理Pipeline,处理近**250万小时**数据,产出约**50万小时**高质量语音大模型数据,涵盖中文、英文、粤语三个语种;中英文对话、有声书、有声剧、播客、直播、儿童剧、高采样率音频; ### 传统语音合成系统 | 2021.9 - 2023.4 | 商汤科技 主导商汤第一代语音合成系统架构设计,基于SME的attention优化Tacotron模型,多子带LPCNet优化推理速度服务数字人、智能车舱、下棋机器人、直播数字人等;多音字优化: 预置多音字embedding方案,提升预测准确率;实时声音转换:搭建实时声音转换平台,实现数字人实时语音转换,上线元宇宙项目和直播数字人; ### 情感语音合成和声码器 | 2021.1 - 2021.9 | 猎户星空 基于GST增加上下文输入到TTS的算法实现在少量开源数据集上实现丰富的TTS情感表达显著提升语音合成的情感表现力和自然度,上线猎豹机器人家族;LPCNet声码器优化: Bunched和Multiband LPCNet算法开发与优化;Bunched单线程推理速度**4.2倍**实时,Multiband推理速度**5.3倍**实时;GRU和condition vector预计算提速约10%,贡献到LPCNet官方仓库;成功上线送餐机器人产品; ### 深度学习语音合成 | 2019.02 - 2019.09 | 西门子 基于Tacotron2开发端到端seq2seq-CWRNN-attention模型(毕业论文),创新性在TTS中使用CWRNN架构,实现字符级别到梅尔波谱级别的高质量映射,MOS测试显示在自然度方面表现优秀; ARTMAP两端逻辑判断和模糊分类的混合架构,手写体字母识别准确率达到**91%**;

发明专利

多音字读音预测网络的训练方法、语音生成方法及装置
CN115273809B
残差网络的训练和语音合成方法、装置、设备及介质
CN112562655A
模型训练和语音合成方法、装置、设备及介质
CN116206591A
一种模型训练和语音合成方法、装置、设备及介质
CN115294955B

科研项目

基于生成式大模型的公路路基突发性灾害预警技术与方法
专题负责人 | 国家自然科学基金委员会高技术研究发展中心 | SQ2024YFB2600035
国家重点课题
基于语义知识图谱的建筑工程标准国际化共性关键技术
项目骨干 | 中国21世纪议程管理中心 | SQ2024YFC3800085
国家重点课题

竞赛获奖

Intel Hackathon - Excellent Work Award
2024
ACM MuSe-Mimic Subchallenge - Second Place
2023

开源贡献

**LPCNet - Pre-compute GRU B Conditioning** *性能优化贡献* | [GitHub Commit](https://github.com/xiph/LPCNet/commit/c1e85f88d908533c5600dbdd800ac589e15747f4)|实现GRU B条件向量预计算,LPCNet推理速度提升约**10%**;通过缓存频繁使用的条件向量,显著减少计算开销;改进实时语音合成性能,为工业级应用提供支持