Blog

Technical blog posts on speech AI, machine learning, and deep learning

基于状态空间模型（SSM）的深度学习理论基础

从经典SSM到Mamba的选择性状态空间模型

1. SSM 什么是状态空间模型？状态空间模型是一种数学框架，用于将一个动态系统（即随时间变化的系统）描述为一组包含输入、输出和状态变量的一阶微分方程（连续时间）或差分方程（离散时间）。该模型的核心思想是，系统的未来演化完全由其当前”状态”以及施加于系统的外部输入所决定。这个”状态”是一个最小的变量集合，它完整地概括了系统在任意时间点的所有历史信息。换句话说，只要你知道系统当前的状...

Posted by Xiaoxu Zhu on August 19, 2025
Deep Learning State Space Models Mamba Speech Synthesis Machine Learning

LoRA：低秩适配的高效参数微调方法

Low-Rank Adaptation of Large Language Models

LoRA：低秩适配的高效参数微调方法简介 LoRA (Low-Rank Adaptation) 是一种高效的大模型参数微调技术，通过低秩分解实现了高效参数微调，且不需要新增 speaker id。这种方法在保持模型性能的同时，大幅降低了可训练参数的数量。核心思想 LoRA的核心思想是通过低秩矩阵分解来近似全参数微调中的权重更新。具体来说，对于预训练模型的权重矩阵，LoRA假设其更...

Posted by 朱晓旭 on July 30, 2025
LoRA 参数微调深度学习大模型低秩分解 Parameter Efficient

【语音合成前端】Unified Mandarin TTS Front-end Based on Distilled BERT Model 论文解读

Unified Mandarin TTS Front-end Based on Distilled BERT Model

Posted by 朱晓旭 on April 16, 2021
Front End BERT TinyBERT knowledge distillation

【语音合成前端】Flavored Tacotron Conditional Learning for Prosodic-linguistic Features 论文解读

Flavored Tacotron Conditional Learning for Prosodic-linguistic Features

Posted by 朱晓旭 on April 16, 2021
Front End English prosody conditioning Tacotron2

【语音合成前端】A unified sequence-to-sequence front-end model for Mandarin text-to-speech synthesis 论文解读

A unified sequence-to-sequence front-end model for Mandarin text-to-speech synthesis

Posted by 朱晓旭 on April 16, 2021
Front End self attention TinyBERT seq2seq

【多音字消歧】Knowledge Distillation from Bert in Pre-Training and Fine-Tuning for Polyphone Disambiguation 论文解读

A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

Posted by 朱晓旭 on April 12, 2021
Front End Polyphone Disambiguation mask vector BERT fine-tuning knowledge distillation

【多音字消歧】A Bi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese论文解读

A Bi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese

Posted by 朱晓旭 on March 17, 2021
Front End Polyphone Disambiguation BLSTM POS

【多音字消歧】A Mask-based Model for Mandarin Chinese Polyphone Disambiguation 论文解读

A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

Posted by 朱晓旭 on March 16, 2021
Front End Polyphone Disambiguation mask vector Modified Focal Loss

【声码器】HIFI-GAN论文解读

hifi-gan

Posted by 朱晓旭 on March 4, 2021
TTS Vocoder HIFI-GAN MelGAN

多线程与线程安全

Multithread

进程(Process) 狭义的进程是正在运行的程序的实例；广义的进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动，是操作系统动态执行的基本单元。进程间数据不共享(因此才会有进程间通讯这个课题，进程间通讯的方法有：匿名管道，有名管道，消息队列，信号量，信号，共享内存，套接字等等)。线程(Thread) 线程是程序执行流的最小单位；一个标准的线程由线程ID、当前指令指针(PC)...

Posted by 朱晓旭 on January 7, 2021
线程安全多线程