スポンサーリンク

【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】

Machine Learning

機械学習やデータ分析用(音声合成、音環境分類、音源分離、声質変換、音声認識など)のサウンドデータセットを紹介します。随時、更新していく予定です。

Speech

LibriTTS-R: Restoration of a Large-Scale Multi-Speaker TTS Corpus

作成者: Google
ライセンス:CC BY 4.0
言語:英語
ファイル形式:WAV形式 24KHz
URL:http://www.openslr.org/141/
概要:TTS研究のために設計されたLibriTTSの音質改善版。

LibriTTS

作成者: Google
ライセンス:CC BY 4.0
言語:英語
ファイル形式:WAV形式 24KHz
URL:https://openslr.org/60/
概要:TTS研究のために設計された約585時間もの大規模コーパスで、多人数の文章読み上げが収音されている。

Speech Commands Dataset

作成者: Google
言語:英語
URL:https://www.tensorflow.org/datasets/catalog/speech_commands
概要:「Yes」、「No」や数字、命令など、30 種類の短い単語を発音した長さ 1 秒の音源が、 65,000 個収録されたデータセット。

Common Voice

作成者: Mozilla
ライセンス:CC0
言語:87言語
ファイル形式MP3
URL:https://commonvoice.mozilla.org/en/datasets
概要:音声認識のためのデータセットで、様々な言語、年齢、性別の音声が、14,000時間以上収音されている。WEBページで常時データの収集を行っているため、日々データ数が増えている。

CSTR VCTK Corpus  

作成者:Yamagishi Junichi, Veaux Christophe, MacDonald Kirsten(University of Edinburgh. The Centre for Speech Technology Research)
ライセンス:CC BY 4.0 International
言語:英語
ファイル形式:WAV形式(48kHz)
URL:https://datashare.ed.ac.uk/handle/10283/3443
概要:
音声合成に適した、110人の英語話者が発話した音声データベース。

STUDIES Corpus: Japanese empathetic dialogue speech corpus

作成者:Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari
ライセンス:
言語:英語
ファイル形式:WAV形式(48kHz/16bit)
URL:http://sython.org/Corpus/STUDIES/
概要:
声優3名 (男性1名・女性2名) による模擬対話音声を収録した音声コーパス。「対話相手に寄り添って発話可能なAIエージェント」の実現を目指して構築されてる。

Sound

Urban Sound 8K dataset

ライセンス:CC BY-NC 3.0
クラス:10(air_conditioner, car_horn, children_playing, dog_bark, drilling, enginge_idling, gun_shot, jackhammer, siren, and street_music)
ファイル形式:WAV形式
URL:https://urbansounddataset.weebly.com/urbansound8k.html
概要:www.freesound.orgにアップロードされた音源から、10クラスの都市音を抽出し作成された8732音源で構成されたデータセット

AudioSet

作成者: Google
ライセンス:CC BY 4.0
クラス:632のイベントクラス
ファイル形式:WAV形式
URL:https://research.google.com/audioset/index.html
概要:youtubeから収集された1つ10秒のビデオクリップで合計5800時間から構成される。

ESC-50

作成者: Karol J. Piczak
ライセンス:CC BY-NC 3.0
クラス:50のクラス
ファイル形式:WAV形式(44.1 kHz、モノラル)
URL:https://github.com/karolpiczak/ESC-50
概要:環境音識別のために作成されたデータセットで、自然、家庭、動物などの音が2000収録されている。

FSD50K (Freesound Database 50K)

作成者: Eduardo Fonseca、Xavier Favory、Jordi Pons、Mercedes Collado、Ceren Can、Rachit Gupta、Javier Arredondo、Gary Avendano、Sara Fernandez
ライセンス:Other
クラス:200のクラス
ファイル形式:WAV形式(44.1 kHz、モノラル、16bit)
URL:https://zenodo.org/record/4060432#.YkZx927P01I
概要:AudioSetから抽出された200クラス、5,1197個のオーディオファイルで構成されている。

ToyADMOS dataset

作成者: EduaYuma Koizumi, Shoichiro Saito, Noboru Harada, Hisashi Uematsu, Keisuke Imoto
ライセンス:Non-Commercial
クラス:200のクラス
URL:https://zenodo.org/record/3351307#.YlAc2tPP1di
概要:異常音検知のためのおもちゃ稼働音データセット。

MIMII DG: Sound Dataset for Malfunctioning Industrial Machine Investigation for Domain Generalization Task

作成者: 日立製作所
ライセンス:CC BY-NC-SA 4.0
ファイル形式:WAV形式(16KHz)
URL:https://zenodo.org/record/6529888#.YplRvajP1Mu
概要:機械の異常検知のためのデータセットで、fans, gearboxes, bearing, slide railsとvalvesの5種類の産業用機械の正常音と異常音から構成されている。

Music

MUSDB18&MUSDB18HQ

作成者: Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis、Rachel Bittner
ライセンス:No commercial
ファイル形式:MP4(MUSDB18)、WAV(MUSDB18HQ) 44.1kHz
URL:https://sigsep.github.io/datasets/musdb.html#musdb18-compressed-stems
概要:音楽音源分離のためのマルチトラックデータセット。マルチトラックのチャンネルの内容は以下の5つ。

  • 0 – The mixture,
  • 1 – The drums,
  • 2 – The bass,
  • 3 – The rest of the accompaniment,
  • 4 – The vocals.

MAESTRO

作成者: Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng-Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, and Douglas Eck.
ライセンス:CC BY-NC-SA 4.0
ファイル形式:MIDI and WAV files(44.1–48 kHz 16-bit PCM stereo)
URL:https://magenta.tensorflow.org/datasets/maestro
概要:10年間のInternationalPiano-e-Competitionでの200時間以上のオーディオとMIDIのペア録音データ。

関連記事

コメント