Sound

スポンサーリンク
librosa

【PCEN】対数log-melに代わる特徴量PCEN【librosa】

音声識別や音響イベント検出の特徴量として、対数メルスペクトルがよく用いられています。この対数メルスペクトルに代わる特徴量として、2017年にPer-Channel Energy Normalization(PCEN)が提案され、性能が向上す...
librosa

【PyTorch】Pythonで時間波形からメルスペクトログラムへ変換【librosa】

音声認識、話者識別や音環境分類などの入力特徴量としてよく使われるメルスペクトログラム (Mel Spectrogram)を、Pythonで時間波形から変換する方法について、PyTorchとlibrosa二つのライブラリを見ていきます。メルス...
librosa

【PyTorch】Pythonで時間波形からスペクトログラムへ変換【librosa】

音響信号処理全般でよく用いられるスペクトログラムを、Pythonで時間波形から変換する方法について見ていきます。ここでは、PyTorchのtorchaudio.transforms.Spectrogramと、librosaのlibrosa....
Sound

SciPyで音声/音楽データを読み込むscipy.io.wavfile.read【Python】

SciPyで音声/音楽データを読み込むscipy.io.wavfile.readは、WAV形式の音データ読み込むことができます。Numpy形式で読み込まれますが、WAVのフォーマットによってdtypeが変わるので注意が必要です。読み込んだ後はpythonで信号処理などを行います。
Sound

PySoundFileで音声/音楽データを読み込むsoundfile.read【Python】

PythonのライブラリであるPySoundFileで音声/音楽データを読み込むには、soundfile.readを使用します。様々なデータ形式に対応しているため、非常便利な関数です。
Python

Pythonでwav,mp3など音声/音楽データを読み込む【PyTorch, librosa, PySoundFile, Scipy】

Pythonでwav,mp3など音声/音楽データを読み込めるライブラリPyTorch, librosa, PySoundFile, Scipyをまとめました。Pythonで信号処理やディープラーニングのデータを読み込むときに使うコードです。
Python

【PyTorch】音声/音楽データを書き込むtorchaudio.save

PythonのライブラリPyTorchで音声/音楽データを書き込むtorchaudio.saveについて説明しています。この関数は、wav, mp3, ogg, vorbis, amr-nb, amb, flac, sph, gsm,  htkなど幅広いフォーマットに対応しているので非常に便利です。
Python

【SciPy】音声/音楽データを書き出すscipy.io.wavfile.write【Python】

PythonのライブラリScipyで音声ファイルを書き出すための関数scipy.io.wavfile.writeについて紹介しています。numpyの配列を簡単な表現にかきだせて非常に便利です。
Python

PySoundFileで音声/音楽データを書き出すsoundfile.write【Python】

PySoundFileで音声/音楽データを書き出しをするためにはsoundfile.writeを使用します。この関数は、WAV, FLAC, OGGやMATなど幅広いファイル形式に対応しているため、汎用的に使うことができます。
MATLAB

【MATLAB】ディレクトリ内のwavファイルを読み込んで、リサンプリングして書き出す

MATLABでディレクトリ(フォルダ)内のwavファイルを読み込んで、リサンプリングして書き出すまでを説明します。dir、audioread、audiowriteを使うことで簡単に行うことができます。