Pythonでwav,mp3など音声/音楽データを読み込む【PyTorch, librosa, PySoundFile, Scipy】

Python

2022/02/112022/07/20

PyTorch, librosa, PySoundFile, Scipyなどを用いることで、wav,mp3など音声/音楽データを読み込むことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記事をご覧ください。

各ライブラリの比較とコード

各ライブラリでの関数名、対応フォーマットと読み込み後の型は表に記載した通りです。基本的には読み込み後の処理で、どのライブラリを使うかで決めればよいと思います。

import torchaudio

waveform, sample_rate = torchaudio.load(filepath=SAMPLE_WAV_PATH)

import librosa

y, sr = librosa.load(SAMPLE_WAV_PATH, sr=None, mono=False)

import soundfile as sf

data, samplerate = sf.read(file=SAMPLE_WAV_PATH)

from scipy.io import wavfile

samplerate, data = wavfile.read(filename=wav_fname)