【音声】機械学習やデータ分析用のデータセットまとめ【画像】

機械学習やデータ分析用（音声合成、音環境分類、音源分離、声質変換、音声認識など）のサウンドデータセットを紹介します。随時、更新していく予定です。

Speech
Sound
Music
1. MUSDB18＆MUSDB18HQ
2. MAESTRO
関連記事

Speech

LibriTTS-R: Restoration of a Large-Scale Multi-Speaker TTS Corpus

作成者： Google
ライセンス：CC BY 4.0
言語：英語
ファイル形式：WAV形式 24KHz
URL：http://www.openslr.org/141/
概要：TTS研究のために設計されたLibriTTSの音質改善版。

LibriTTS

作成者： Google
ライセンス：CC BY 4.0
言語：英語
ファイル形式：WAV形式 24KHz
URL：https://openslr.org/60/
概要：TTS研究のために設計された約585時間もの大規模コーパスで、多人数の文章読み上げが収音されている。

Speech Commands Dataset

作成者： Google
言語：英語
URL：https://www.tensorflow.org/datasets/catalog/speech_commands
概要：「Yes」、「No」や数字、命令など、30 種類の短い単語を発音した長さ 1 秒の音源が、 65,000 個収録されたデータセット。

Common Voice

作成者： Mozilla
ライセンス：CC0
言語：87言語
ファイル形式：MP3
URL：https://commonvoice.mozilla.org/en/datasets
概要：音声認識のためのデータセットで、様々な言語、年齢、性別の音声が、14,000時間以上収音されている。WEBページで常時データの収集を行っているため、日々データ数が増えている。

CSTR VCTK Corpus

作成者：Yamagishi Junichi, Veaux Christophe, MacDonald Kirsten（University of Edinburgh. The Centre for Speech Technology Research）
ライセンス：CC BY 4.0 International
言語：英語
ファイル形式：WAV形式（48kHz）
URL：https://datashare.ed.ac.uk/handle/10283/3443
概要：
音声合成に適した、110人の英語話者が発話した音声データベース。

STUDIES Corpus: Japanese empathetic dialogue speech corpus

作成者：Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari
ライセンス：
言語：英語
ファイル形式：WAV形式（48kHz/16bit）
URL：http://sython.org/Corpus/STUDIES/
概要：
声優3名 (男性1名・女性2名) による模擬対話音声を収録した音声コーパス。「対話相手に寄り添って発話可能なAIエージェント」の実現を目指して構築されてる。

Sound

Urban Sound 8K dataset

ライセンス：CC BY-NC 3.0
クラス：10（air_conditioner, car_horn, children_playing, dog_bark, drilling, enginge_idling, gun_shot, jackhammer, siren, and street_music）
ファイル形式：WAV形式
URL：https://urbansounddataset.weebly.com/urbansound8k.html
概要：www.freesound.orgにアップロードされた音源から、10クラスの都市音を抽出し作成された8732音源で構成されたデータセット

AudioSet

作成者： Google
ライセンス：CC BY 4.0
クラス：632のイベントクラス
ファイル形式：WAV形式
URL：https://research.google.com/audioset/index.html
概要：youtubeから収集された1つ10秒のビデオクリップで合計5800時間から構成される。

ESC-50

作成者： Karol J. Piczak
ライセンス：CC BY-NC 3.0
クラス：50のクラス
ファイル形式：WAV形式(44.1 kHz、モノラル）
URL：https://github.com/karolpiczak/ESC-50
概要：環境音識別のために作成されたデータセットで、自然、家庭、動物などの音が2000収録されている。

FSD50K (Freesound Database 50K)

作成者： Eduardo Fonseca、Xavier Favory、Jordi Pons、Mercedes Collado、Ceren Can、Rachit Gupta、Javier Arredondo、Gary Avendano、Sara Fernandez
ライセンス：Other
クラス：200のクラス
ファイル形式：WAV形式(44.1 kHz、モノラル、16bit）
URL：https://zenodo.org/record/4060432#.YkZx927P01I
概要：AudioSetから抽出された200クラス、5,1197個のオーディオファイルで構成されている。

ToyADMOS dataset

作成者： EduaYuma Koizumi, Shoichiro Saito, Noboru Harada, Hisashi Uematsu, Keisuke Imoto
ライセンス：Non-Commercial
クラス：200のクラス
URL：https://zenodo.org/record/3351307#.YlAc2tPP1di
概要：異常音検知のためのおもちゃ稼働音データセット。

MIMII DG: Sound Dataset for Malfunctioning Industrial Machine Investigation for Domain Generalization Task

作成者： 日立製作所
ライセンス：CC BY-NC-SA 4.0
ファイル形式：WAV形式（16KHz）
URL：https://zenodo.org/record/6529888#.YplRvajP1Mu
概要：機械の異常検知のためのデータセットで、fans, gearboxes, bearing, slide railsとvalvesの5種類の産業用機械の正常音と異常音から構成されている。

Music

MUSDB18＆MUSDB18HQ

作成者： Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis、Rachel Bittner
ライセンス：No commercial
ファイル形式：MP4（MUSDB18）、WAV（MUSDB18HQ） 44.1kHz
URL：https://sigsep.github.io/datasets/musdb.html#musdb18-compressed-stems
概要：音楽音源分離のためのマルチトラックデータセット。マルチトラックのチャンネルの内容は以下の5つ。

0 – The mixture,
1 – The drums,
2 – The bass,
3 – The rest of the accompaniment,
4 – The vocals.

MAESTRO

作成者： Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng-Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, and Douglas Eck.
ライセンス：CC BY-NC-SA 4.0
ファイル形式：MIDI and WAV files（44.1–48 kHz 16-bit PCM stereo）
URL：https://magenta.tensorflow.org/datasets/maestro
概要：10年間のInternationalPiano-e-Competitionでの200時間以上のオーディオとMIDIのペア録音データ。

【初心者】機械学習のおすすめ勉強教材/情報収集サイトまとめ【無料/有料】

【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】