AIの機械学習で使われるデータの種類とオープンデータセットのまとめ

こんにちは、AI研究所です。

AI・MLが注目されてきて、データのオープン化が行われています。
オープン化されたデータとは、AIで学習をすることを目的とした誰でも使用できるデータセットです。

機械学習には、学習のためのデータが欠かせません。
しかし、オープンデータだけで、オリジナル性の高いAIはできません。

オープンデータとオリジナルのデータによって、オリジナルのAI作成できます。

ここでは、機械学習で使われる「代表的なデータの種類」と、ジャンル別の「データセット」を紹介します。

AIの機械学習で使われる一般的なデータの種類

AIの機械学習で使われる一般的なデータの種類

AIの機械学習で利用されるデータは、収集後に前処理を行い、以下の3種類に分割して利用されます。
ここからは、それぞれのデータについて紹介します。

1.トレーニングデータ

トレーニングデータは、学習に利用するデータセットです。
3種類のデータの中でも、一番大きなデータセットとすることが多いです。

機械学習のアルゴリズムを活用して、学習済みモデルを作成可能です。

トレーニングデータで学習をしてできたAIモデル(学習済みモデル)だけでは、未知のデータに対して対応できるかわからないため、次のバリデーションセットを利用して性能を確かめます。

2.バリデーションデータ

バリデーションデータは、学習済みモデルの検証のためのデータセットです。

バリデーションデータセットを学習済みモデルに通すことで予測結果が出ますので、この予測がどれくらい当たるかという予測精度を確認します。

予測精度を上げるために、機械学習のアルゴリズムをコントロールする「ハイバーパラメーター(設定)」を調整します。

3.テストデータ

バリデーションセットでハイパーパラメーターを調整した学習済みモデルが作成できたら、最終チェックとしてテストデータを通します。

バリデーションデータで良い精度を出すように調整することで、学習モデルはバリデーションデータにもフィットしていきます。

最終的に未知のテストデータを入力して精度を確認することで、汎化性能を検証します。

オープンデータセットとは?

ここまでは学習で使用するデータセットの種類を紹介しました。

ここからは、今回のテーマであるオープンデータセットの特徴を解説します。

誰でも利用できるデータセット

オープンデータセットは、誰でも利用できます。
名前の通り公開されたデータで、どんな人でも利用可能です。

自由にダウンロードできる

オープンデータセットは、自由にダウンロードできます。
オープンデータセットのあるサイトにアクセスすれば、自由にダウンロードができます。

何度も利用・配布ができる

オープンデータセットは、何度でも利用・配布ができるものです。
1回しか利用できないのではなく、必要なときにダウンロードができます。

【ジャンル別】オープンデータセットの種類

オープンデータセットは、自由にダウンロードできるものだと紹介しました。
しかし、どのようなオープンデータセットがあるのかわからないですよね?

ここからは、ジャンル別のデータセットの種類を紹介します。

画像系のデータセット

画像系のデータセットを5つ紹介します。

MNIST

MNISTは、手書き数字用のオープンデータです。
60,000のトレーニングセットと10,000のテストセットのファイルがダウンロードできます。

MNISTのホームページによると、クラーン研究所のヤン・ルカンさんや、Google Researchの情報工学者であるコリーナコルテスさんが参加しています。

Google Open Image V6

Google Open Image V6は、画像のラベルやセグメンテーションマスクなど、約900万枚の画像がダウンロードできます。
V6は、2020年2月にリリースした最新版で、過去にはV1~V5のオープンイメージがありました。

CIFAR-10

CIFAR-10は、50,000のトレーニングセット画像と、10,000のテストセット画像がダウンロードできます。
飛行機、自動車、トラックといった乗り物や、鳥、ネコ、イヌな動物の画像が多いです。

ImageNet

ImageNetは大規模で綺麗な画像が無料ダウンロードできるデータベースです。
画像認識にも利用できるので、画像系の機械学習をする場合はこちらが便利です。

COCO

COCOは画像やオブジェクトが多数置いてある画像データベースです。
物体検知の評価・アルゴリズムの評価にも利用できます。

音声系のデータセット

音声に関する5つのオープンデータセットを紹介します。

AudioSet

音声系オープンデータセットの1つ目は、AudioSetです。
AudioSetでは、以下のような音声データがダウンロードできます。

  • ドラムの音
  • イヌの鳴き声
  • ネコの鳴き声
  • トラの鳴き声

声優統計コーパス

声優統計コーパスは、日本声優統計学会の提供するオープンデータセットです。
協会では、声優の声、アニソン、ラジオに、機械学習の観点からアプローチしています。

声優統計コーパスは、オリジナルで作成した文章を3人の声優が読んだときのデータをダウンロード出来ます。

JVSコーパス(日本語多用途音声)

JVSコーパスは、東京大学情報理工学系研究所の高道慎之介さんが提供するオープンデータセットです。
声優や俳優など、100人以上の声が録音されています。

ビジネスで利用する場合は、再配布が禁止です。ブ
ログやホームページで紹介するときも、短い音声しか利用できません。
使用前に、配布先に問い合わせしてください。

文章系のデータセット

文章系のデータセットを5つ紹介します。

GoogleBooks(グーグルブックス)

GoogleBooksもデータセットがあります。
awsのホームページでは、Amazonに沿ったファイルがダウンロード可能です。

利用できるオープンデータセットは、アメリカ英語、イギリス英語、中国語など幅広い言語に対応しています。

残念ながら、日本語に対応したデータセットは確認できませんでした。

日本語対訳データ

日本語対話データは、翻訳システムの作成に利用できるオープンデータセットです。

カーネギーメロン大学のグラム・ニュービッグ准教授が研究を進めています。

コーパスには、企業、特許、京都に関するWikipedia記事を翻訳したもので、ユニークなデータが多いです。

Twitter日本語評判分析データセット

Twitter日本語評判分析データセットは、ビックデータ解析が専門の鈴木優研究室のオープンデータセットです。
2015~2016年ごろのツイートデータ(本文除く)がダウンロードできます。

約530,000件以上のツイート分析が完了し、4~5人以上でデータの評価をしています。

Wikipedia Links data(WikiLinks)

通称Wiki LinksのデータセットはWikipediaの情報がデータベース化されています。
更新は不定期ですが行われているので、Wikipediaの情報を使用したいときに利用できるデータセットです。

livedoor ニュースコーパス

Livedoorのニュースにもデータセットがあります。
下記ジャンルのニュースが入っておりますが、最新版に更新などはされていません。

  • トピックニュース
  • Sports Watch
  • ITライフハック
  • 家電チャンネル
  • MOVIE ENTER
  • 独女通信
  • エスマックス
  • livedoor HOMME
  • Peachy

Livedoorのニュース情報が欲しい方はこちらを参考にしてみてください

動画系のオープンデータセット

動画系のオープンデータセットを3つ紹介します。

Atomic Visual Actions (AVA)

Atomic Visual Actions (AVA)は、人間の動きに関するオープンデータセットです。
57,000以上の人間が歩く動画など、80以上の注釈(ラベル)が付けられます。

YouTube-8M Dataset

YouTube-8M Datasetは、Googleが提供するオープンデータセットです。
再生回数が1000回以上、再生時間が2~10分のYouTube動画(アダルトコンテンツは除く)にタグを付けて、オープンデータセットとして提供しています。

ラベルは人間が選んだものを集めていて、動画系の有益なデータが得られるでしょう。

YouTube-BoundingBoxes Dataset

YouTube-BoundingBoxes Datasetは、約240,000以上のYouTube動画から厳選して、約380,000の15~20ビデオセグメント(区切り)で作成しています。

ビデオセグメントには、1秒間つき1フレームにラベルを付けています。

AIの機械学習で使われるデータの種類とオープンデータセットのまとめ

AIの機械学習で使われるデータの種類とオープンデータセットのまとめ

AIの機械学習で使われるデータの種類とオープンデータセットを紹介しました。

オープンデータセットは、さまざまな企業や教育機関がデータを提供しています。
ジャンルにより必要なオープンデータセットは違うため、記事の「ジャンル別のオープンデータセットまとめ」を確認して、必要なものをダウンロードしましょう。

オープンデータセットは、個人利用はOKですが、ビジネスで利用できない場合もあります。
注意書きがあれば、提供元に確認を取って著作権違反に注意してください。

もっと、AI・機械学習とビジネスの活用方法を知りたい人は、AI研究所の「ビジネス向けAI完全セミナー」を利用してください。
対面、ライブ配信、オンライン講座と、あなたの好きな学習スタイルが選択できます。

最新情報をチェックしよう!