时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品

百家 作者:量子位 2019-12-03 18:17 浏览:1380 评论:0
晓查 发自 凹非寺 
量子位 报导 | 公众号 QbitAI

用AI对歌曲音轨的分别研究很多,不过大年夜多半都是在频域长停止的。这类办法先把声响停止傅立叶变换,再从频谱空间中把人声、乐曲声分别抽离出来。

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

比如,上个月在GitHub上大年夜热的Spleeter,就是如许。

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

然则由于要计算频谱,这类对象存在延迟较长的缺点。固然之前也有一些对声响波形停止处理的办法,但实际后果与频域处理办法相差甚远。

比来,Facebook AI研究院供给了两种波形域办法的PyTorch完成,分别是DemucsConv-Tasnet,并且测试成果均优于其他罕见的频域办法,今朝登上了GitHub日榜

后果比较

话不多说,我们先来听听这段30s音频的分别实测后果。

这两种办法在MusDB上的练习成果曾经接近了频域办法的最优成果,参加150首额外的练习数据后,整体旌旗灯号掉真比(overall SDR)达到了6.3,逾越了其他一切办法。

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

装置与应用办法

先将代码下载到本地,根据本身用CPU照样GPU来选择不合的装置情况:

conda env update -f environment-cpu.yml # if you don’t have GPUs
conda env update -f environment-cuda.yml # if you have GPUs
conda activate demucs

在代码库的根目次下运转以下代码(Windows用户需将python3换为python.exe):

python3 -m demucs.separate --dl -n demucs PATH_TO_AUDIO_FILE_1 [PATH_TO_AUDIO_FILE_2 ...] # for Demucs
python3 -m demucs.separate --dl -n tasnet PATH_TO_AUDIO_FILE_1 ... # for Conv-Tasnet
# Demucs with randomized equivariant stabilization (10x slower, suitable for GPU, 0.2 extra SDR)
python3 -m demucs.separate --dl -n demucs --shifts=10 PATH_TO_AUDIO_FILE_1

个中—dl将主动下载预练习模型,-n后的参数代表选用的预练习模型类型:

demucs:表示在MusDB长停止练习的Demucs;
demucs_extra:应用额外数据练习的Demucs;
tasnet:表示在MusDB长停止练习的Conv-Tasnet;
tasnet_extra:应用额外数据练习的Conv-Tasnet。

在—shifts=SHIFTS履行多个猜想与输入和均匀他们的随机位移(别名随机等变稳定)。这使猜想SHIFTS时间变慢,但将Demucs的精度进步了SDR的0.2点。它对Conv-Tasnet的影响无限,由于该模型本质上简直是等时的。原始纸张应用10的值,虽然5产生的增益简直雷同。默许情况下禁用它。

道理简介

Demucs是Facebook人工智能研究院在本年9月提出的弱监督练习模型,基于受Wave-U-Net和SING启发的U-Net卷积架构。

研究人员引入了一个简单的卷积和递归模型,使其比Wave-U-Net的比旌旗灯号掉真比进步了1.6个点。

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

上图是Demucs的完全框架构造,右边是编码器和解码器层的详细表示。

与之前的Wave-U-Net比拟,Demucs的创新的地方在于编码器和解码器中的GLU激活函数,和个中的双向LSTM和倍增的通道数量。

Conv-TasNet是哥大年夜的一名中国博士生Yi Luo提出的一种端到端时域语音分别的深度进修框架。

Conv-TasNet应用线性编码器来生成语音波形的表示情势,该波形针对分别单个音轨停止了优化。音轨的分别则是经过过程将一组加权函数(mask)用于编码器输入来完成。

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

然后应用线性解码器将修改后的编码器表示情势反转回波形。由卷积的一维扩大卷积块构成的时间卷积搜集(TCN)查找mask,使搜集可以对语音旌旗灯号的经久依附性停止建模,同时保持较小的模型尺寸。

Conv-TasNet具有明显较小的模型尺寸和较短的延迟,是脱机和及时语音分别应用法式榜样的合适处理筹划。

传送门

项目地址:
https://github.com/facebookresearch/demucs

测试成果论文:
https://hal.archives-ouvertes.fr/hal-02379796/document

Demucs论文:
https://arxiv.org/abs/1909.01174

Conv-TasNet论文:
https://arxiv.org/abs/1809.07454

作者系网易消息·网易号“各有立场”签约作者


大年夜咖齐聚!参会佳宾重磅揭晓

量子位 MEET 2020 智能将来大年夜会启幕,李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大年夜咖与你一路读懂人工智能。不雅众票已售罄,迎接大年夜家戳链接预定直播:http://vku.youku.com/live/ilproom?id=8029679

时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀
时域音频分别模型登GitHub热榜,后果超传统频域办法,Facebook官方出品-爱尖刀

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技巧和产品新静态

爱好就点「在看」吧 !


量子位 量子位
  • 作者暂未设置特性签名
存眷搜集尖刀微信公众号
随时控制互联网出色
告白赞助