Sound

【PyTorch/librosa】Pythonで音声/音楽データをリサンプリングする

librosaとPyTorchを用いて、Pythonで音声/音楽データ（波形）のリサンプリングを行う。Numpyのndarray配列をリサンプリングしたい場合はlibrosaを用い、PyTorchのTensor配列をリサンプリングしたい場合...

2022/07/22 2024/02/29

librosaPythonPyTorchSound

Python（NumpyとPyTorch）におけるホワイトノイズの生成方法について紹介します。 Numpyによるホワイトノイズの生成ホワイトノイズはランダムな時系列信号を生成すれば良いので、np.random.randを使用します。 np...

2022/02/15 2023/10/03

NumpyPythonPyTorchSound

PyTorch, PySoundFile, Scipyなどを用いることで、音声/音楽ファイルをwav,mp3などの形式で書き出すことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記...

2022/02/17 2023/09/25

PythonPyTorchSciPySound

Pythonでディレクトリ内のwavファイルをすべて読みこんでリサンプリングして書き出す方法について記載する。すべてのwavファイルを読み込んで、リサンプリングして書き出す globモジュールのglobを用いることで、ファイル名を取得する...

2023/09/22

librosaPythonSound

機械学習やデータ分析用（音声合成、音環境分類、音源分離、声質変換、音声認識など）のサウンドデータセットを紹介します。随時、更新していく予定です。

2022/03/14 2023/06/18

Machine LearningSound

音声強調、音声認識や音環境分類のような音データにおけるデータ拡張方法であるSpecAugmentをPyTrochで試す。PyTorchには、FrequencyMasking、TimeMaskingとTimeStretchの３つのクラスが用意...

2022/09/28 2023/01/07

Machine LearningPythonPyTorchSound

PyTorchで高速フーリエ変換（離散フーリエ変換）をするには、torch.fft.fftを使う。torch.fft.fftの使い方と、正弦波に対してFFTを行い、周波数特性を確認する。 torch.fft.fft - PyTorch Do...

2022/09/24 2023/01/05

PythonPyTorchSound

PyTorchで音声/音楽データを読み込むtorchaudio.loadを使う。torchaudio.loadを使用すると、Tensor型で読み込まれるため、PyTorchでそのまま処理することができ便利です。 backendには、Linu...

2022/02/08 2022/12/19

PythonPyTorchSound

キーワードスポッティングや音イベント検出で、対数log-melや対数スペクトルに変わる特徴量として提案されたPer-Channel Energy Normalization（PCEN）の性能を、yes/noのspeech commands ...

2022/06/27 2022/11/14

librosaPythonPyTorchSound

音声識別や音響イベント検出の特徴量として、対数メルスペクトルがよく用いられています。この対数メルスペクトルに代わる特徴量として、2017年にPer-Channel Energy Normalization（PCEN）が提案され、性能が向上す...

2022/06/22 2022/11/13

librosaPythonSound