スポンサーリンク

Pythonでwav,mp3など音声/音楽データを読み込む【PyTorch, librosa, PySoundFile, Scipy】

Python

PyTorch, librosa, PySoundFile, Scipyなどを用いることで、wav,mp3など音声/音楽データを読み込むことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記事をご覧ください。

各ライブラリの比較とコード

各ライブラリでの関数名、対応フォーマットと読み込み後の型は表に記載した通りです。基本的には読み込み後の処理で、どのライブラリを使うかで決めればよいと思います。

ライブラリ関数名対応フォーマット読み込み後の型
PyTorchtorchaudio.loadWAV, MP3, FLAC, OPUSなどtensor
librosalibrosa.loadWAV, FLAC, OGG, MATなどndarray
SciPyscipy.io.wavfile.readWAVndarray
PySoundFilesoundfile.readWAV, FLAC, OGG, MATなどndarray
  • torchaudio.load
import torchaudio

waveform, sample_rate = torchaudio.load(filepath=SAMPLE_WAV_PATH)
  • librosa.load
import librosa

y, sr = librosa.load(SAMPLE_WAV_PATH, sr=None, mono=False)
  • soundfile.read
import soundfile as sf

data, samplerate = sf.read(file=SAMPLE_WAV_PATH)
  • scipy.io.wavfile.read
from scipy.io import wavfile

samplerate, data = wavfile.read(filename=wav_fname)

コメント