PyTorch, librosa, PySoundFile, Scipyなどを用いることで、wav,mp3など音声/音楽データを読み込むことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記事をご覧ください。
- 関連記事 – PyTorchで音声/音楽データを読み込むtorchaudio.load
- 関連記事 – librosaで音声/音楽データを読み込むlibrosa.load【Python】
- 関連記事 – SciPyで音声/音楽データを読み込むscipy.io.wavfile.read【Python】
- 関連記事 – PySoundFileで音声/音楽データを読み込むsoundfile.read【Python】
各ライブラリの比較とコード
各ライブラリでの関数名、対応フォーマットと読み込み後の型は表に記載した通りです。基本的には読み込み後の処理で、どのライブラリを使うかで決めればよいと思います。
ライブラリ | 関数名 | 対応フォーマット | 読み込み後の型 |
PyTorch | torchaudio.load | WAV, MP3, FLAC, OPUSなど | tensor |
librosa | librosa.load | WAV, FLAC, OGG, MATなど | ndarray |
SciPy | scipy.io.wavfile.read | WAV | ndarray |
PySoundFile | soundfile.read | WAV, FLAC, OGG, MATなど | ndarray |
- torchaudio.load
import torchaudio
waveform, sample_rate = torchaudio.load(filepath=SAMPLE_WAV_PATH)
- librosa.load
import librosa
y, sr = librosa.load(SAMPLE_WAV_PATH, sr=None, mono=False)
- soundfile.read
import soundfile as sf
data, samplerate = sf.read(file=SAMPLE_WAV_PATH)
- scipy.io.wavfile.read
from scipy.io import wavfile
samplerate, data = wavfile.read(filename=wav_fname)
コメント