Sound

スポンサーリンク
Machine Learning

【PyTorch】音声/音へのデータ拡張をするFrequencyMasking、TimeMasking、TimeStretch【SpecAugment】

音声強調、音声認識や音環境分類のような音データにおけるデータ拡張方法であるSpecAugmentをPyTrochで試す。PyTorchには、FrequencyMasking、TimeMaskingとTimeStretchの3つのクラスが用意...
Python

PyTorchで高速フーリエ変換をするtorch.fft.fft

PyTorchで高速フーリエ変換(離散フーリエ変換)をするには、torch.fft.fftを使う。torch.fft.fftの使い方と、正弦波に対してFFTを行い、周波数特性を確認する。torch.fft.fft - PyTorch Doc...
librosa

【PyTorch/librosa】Pythonで音声/音楽データをリサンプリングする

librosaとPyTorchを用いて、Pythonで音声/音楽データ(波形)のリサンプリングを行う。Numpyのndarray配列をリサンプリングしたい場合はlibrosaを用い、PyTorchのTensor配列をリサンプリングしたい場合...
librosa

Per-Channel Energy Normalization(PCEN)の性能確認【PyTorch】

キーワードスポッティングや音イベント検出で、対数log-melや対数スペクトルに変わる特徴量として提案されたPer-Channel Energy Normalization(PCEN)の性能を、yes/noのspeech commands ...
librosa

【PCEN】対数log-melに代わる特徴量PCEN【librosa】

音声識別や音響イベント検出の特徴量として、対数メルスペクトルがよく用いられています。この対数メルスペクトルに代わる特徴量として、2017年にPer-Channel Energy Normalization(PCEN)が提案され、性能が向上す...
librosa

【PyTorch】Pythonで時間波形からメルスペクトログラムへ変換【librosa】

音声認識、話者識別や音環境分類などの入力特徴量としてよく使われるメルスペクトログラム (Mel Spectrogram)を、Pythonで時間波形から変換する方法について、PyTorchとlibrosa二つのライブラリを見ていきます。メルス...
librosa

【PyTorch】Pythonで時間波形からスペクトログラムへ変換【librosa】

音響信号処理全般でよく用いられるスペクトログラムを、Pythonで時間波形から変換する方法について見ていきます。ここでは、PyTorchのtorchaudio.transforms.Spectrogramと、librosaのlibrosa....
MATLAB

【MATLAB】ディレクトリ内のwavファイルを読み込んで、リサンプリングして書き出す

MATLABでディレクトリ(フォルダ)内のwavファイルを読み込んで、リサンプリングして書き出すまでを説明します。dir、audioread、audiowriteを使うことで簡単に行うことができます。
Machine Learning

【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】

機械学習やデータ分析用(音声合成、音環境分類、音源分離、声質変換、音声認識など)のサウンドデータセットを紹介します。随時、更新していく予定です。
Python

Pythonでwav,mp3など音声/音楽ファイルを書き出す【PyTorch, PySoundFile, Scipy】

Pythonでwav,mp3など音声/音楽ファイルを書き出す方法をPyTorch, PySoundFile, Scipyライブラリをまとめて紹介しました。各ライブラリによるフォーマットの違いやコードを紹介しています。