关于DiffuseStyleGesture+提取出的特征的维度,提取音频特征的维度为什么要这样设置:40+64+2+2+1024+1 为什么MFCC是40,log-mel是64,韵律特征是4等等,这样设置有什么特别的用意吗,为什么要这样取特征的维度
关于DiffuseStyleGesture+提取出的特征的维度,提取音频特征的维度为什么要这样设置:40+64+2+2+1024+1
为什么MFCC是40,log-mel是64,韵律特征是4等等,这样设置有什么特别的用意吗,为什么要这样取特征的维度