Sound

スポンサーリンク
librosa

【PyTorch/librosa】Pythonで音声/音楽データをリサンプリングする

librosaとPyTorchを用いて、Pythonで音声/音楽データ(波形)のリサンプリングを行う。Numpyのndarray配列をリサンプリングしたい場合はlibrosaを用い、PyTorchのTensor配列をリサンプリングしたい場合...
Numpy

【PyTorch】Pythonでホワイトノイズを生成【Numpy】

Python(NumpyとPyTorch)におけるホワイトノイズの生成方法について紹介します。 Numpyによるホワイトノイズの生成 ホワイトノイズはランダムな時系列信号を生成すれば良いので、np.random.randを使用します。 np...
Python

Pythonでwav,mp3など音声/音楽ファイルを書き出す【PyTorch, PySoundFile, Scipy】

PyTorch, PySoundFile, Scipyなどを用いることで、音声/音楽ファイルをwav,mp3などの形式で書き出すことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記...
librosa

【Python】すべてのwavファイルを読み込んで、リサンプリングして書き出す

Pythonでディレクトリ内のwavファイルをすべて読みこんでリサンプリングして書き出す方法について記載する。 すべてのwavファイルを読み込んで、リサンプリングして書き出す globモジュールのglobを用いることで、ファイル名を取得する...
Machine Learning

【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】

機械学習やデータ分析用(音声合成、音環境分類、音源分離、声質変換、音声認識など)のサウンドデータセットを紹介します。随時、更新していく予定です。
Machine Learning

【PyTorch】音声/音へのデータ拡張をするFrequencyMasking、TimeMasking、TimeStretch【SpecAugment】

音声強調、音声認識や音環境分類のような音データにおけるデータ拡張方法であるSpecAugmentをPyTrochで試す。PyTorchには、FrequencyMasking、TimeMaskingとTimeStretchの3つのクラスが用意...
Python

PyTorchで高速フーリエ変換をするtorch.fft.fft

PyTorchで高速フーリエ変換(離散フーリエ変換)をするには、torch.fft.fftを使う。torch.fft.fftの使い方と、正弦波に対してFFTを行い、周波数特性を確認する。 torch.fft.fft - PyTorch Do...
Python

PyTorchで音声/音楽データを読み込むtorchaudio.load

PyTorchで音声/音楽データを読み込むtorchaudio.loadを使う。torchaudio.loadを使用すると、Tensor型で読み込まれるため、PyTorchでそのまま処理することができ便利です。 backendには、Linu...
librosa

Per-Channel Energy Normalization(PCEN)の性能確認【PyTorch】

キーワードスポッティングや音イベント検出で、対数log-melや対数スペクトルに変わる特徴量として提案されたPer-Channel Energy Normalization(PCEN)の性能を、yes/noのspeech commands ...
librosa

【PCEN】対数log-melに代わる特徴量PCEN【librosa】

音声識別や音響イベント検出の特徴量として、対数メルスペクトルがよく用いられています。この対数メルスペクトルに代わる特徴量として、2017年にPer-Channel Energy Normalization(PCEN)が提案され、性能が向上す...