AIの機械学習で使われるデータの種類とオープンデータセットのまとめ

こんにちは、AI研究所です。

AI・MLが注目されてきて、データのオープン化が行われています。オープン化されたデータとは、AIで学習をすることを目的とした誰でも使用できるデータセットです。機械学習には、学習のためのデータが欠かせません。しかし、オープンデータだけで、オリジナル性の高いAIはできません。オープンデータとオリジナルのデータによって、オリジナルのAI作成できます。

ここでは、機械学習で使われる「代表的なデータの種類」とジャンル別の「データセット」を紹介します。

AIの機械学習で使われる一般的なデータの種類

AIの機械学習で利用されるデータは、収集後に前処理を行い、以下の3種類に分割して利用されます。ここからは、それぞれのデータについて紹介します。

1トレーニングデータ

トレーニングデータは、学習に利用するデータセットです。3種類のデータの中でも、一番大きなデータセットとすることが多いです。機械学習のアルゴリズムを活用して、学習済みモデルを作成可能です。

トレーニングデータで学習をしてできたAIモデル(学習済みモデル)だけでは、未知のデータに対して対応できるかわからないため、次のバリデーションセットを利用して性能を確かめます。

2 バリデーションデータ

バリデーションデータは、学習済みモデルの検証のためのデータセットです。バリデーションデータセットを学習済みモデルに通すことで予測結果が出ますので、この予測がどれくらい当たるかという予測精度を確認します。予測精度を上げるために、機械学習のアルゴリズムをコントロールする「ハイバーパラメーター(設定)」を調整します。

3 テストデータ

バリデーションセットでハイパーパラメーターを調整した学習済みモデルが作成できたら、最終チェックとしてテストデータを通します。バリデーションデータで良い精度を出すように調整することで、学習モデルはバリデーションデータにもフィットしていきます。最終的に未知のテストデータを入力して精度を確認することで、汎化性能を検証します。

オープンデータセットとは?

ここまでは学習で使用するデータセットの種類を紹介しました。ここからは、今回のテーマであるオープンデータセットの特徴を解説します。

誰でも利用できるデータセット

オープンデータセットは、誰でも利用できます。名前のとおり公開されたデータで、どんな人でも利用可能です。

自由にダウンロードできる

オープンデータセットは、自由にダウンロードできます。オープンデータセットのあるサイトにアクセスできれば、自由にダウンロードができます。

何度も利用・配布ができる

オープンデータセットは、何度でも利用・配布ができるものです。1回しか利用できないではなく、必要なときにダウンロードができます。

【ジャンル別】オープンデータセットの種類

オープンデータセットは、自由にダウンロードできるものだと紹介しました。しかし、どのようなオープンデータセットがあるのかわからないですよね?ここからは、ジャンル別のデータセットの種類を紹介します。

画像系のデータセット

画像系のデータセットを5つ紹介します。

MNIST

MNISTは、手書き数字用のオープンデータです。60,000のトレーニングセットと10,000のテストセットのファイルがダウンロードできます。

MNISTのホームページによると、クラーン研究所のヤン・ルカンさんやGoogle Researchの情報工学者であるコリーナコルテスさんが参加しています。

Google Open Image V6

Google Open Image V6は、画像のラベルやセグメンテーションマスクなど、約900万枚の画像がダウンロードできます。V6は、2020年2月にリリースした最新版で、過去にはV1~V5のオープンイメージがありました。

CIFAR-10

CIFAR-10は、50,000のトレーニングセット画像と10,000のテストセット画像がダウンロードできます。飛行機、自動車、トラックといった乗り物や、鳥、ネコ、イヌな動物の画像が多いです。

ImageNet

ImageNetは大規模で綺麗な画像が無料ダウンロードできるデータベースです。
画像認識にも利用できるので、画像系の機械学習をされる場合はこちらが便利です。

COCO

COCOは画像やオブジェクトが多数置いてある画像データベースです。
物体検知の評価・アルゴリズムの評価にも利用できます。

音声系のデータセット

音声に関する5つのオープンデータセットを紹介します。

AudioSet

音声系オープンデータセットの1つ目は、AudioSetです。AudioSetでは、以下のような音声データがダウンロードできます。

  • ドラムの音
  • イヌ・ネコの鳴き声
  • トラの声

声優統計コーパス

声優統計コーパスは、日本声優統計学会の提供するオープンデータセットです。協会では、声優の声、アニソン、ラジオを、機械学習の観点からアプローチしています。

声優統計コーパスは、オリジナルで作成した文章を3人の声優が読んだときのデータをダウンロードです。

JVSコーパス(日本語多用途音声)

JVSコーパスは、東京大学情報理工学系研究所の高道慎之介さんが提供するオープンデータセットです。声優や俳優など、100人以上の声優や俳優の声が録音しています。

ビジネスで利用する場合は、再配布が禁止です。ブログやホームページで紹介するときも、短い音声しか利用できません。使用前に、配布先に問い合わせしてください。

文章系のデータセット

文章系のデータセットを5つ紹介します。

GoogleBooks(グーグルブックス)

GoogleBooksもデータセットがあります。awsのホームページでは、Amazonに沿ったファイルがダウンロード可能です。利用できるオープンデータセットは、アメリカ、イギリス、中国語など幅広い言語に対応しています。

残念ながら、日本語に対応したデータセットは確認できませんでした。

日本語対訳データ

日本語対話データは、翻訳システムの作成に利用できるオープンデータセットです。カーネギーメロン大学のグラム・ニュービッグ准教授が研究を進めています。

コーパスには、企業、特許、京都に関するWikipedia記事の翻訳したもので、ユニークなデータが多いです。

Twitter日本語評判分析データセット

Twitter日本語評判分析データセットは、ビックデータ解析が専門の鈴木優研究室のオープンデータセットです。2015~2016年ごろのツイートデータ(本文除く)がダウンロードできます。

約530,000件以上のツイート分析が完了して。4~5人以上でデータの評価をしています。

Wikipedia Links data(WikiLinks)

通称Wiki LinksのデータセットはWikipediaの情報がデータベース化されています。
更新は不定期ですが行われているので、Wikipediaの情報を使用したいときに利用できるデータセットです。

livedoor ニュースコーパス

Livedoorのニュースにもデータセットがあります。
下記ジャンルのニュースが入っておりますが、最新版に更新などはされていません。

  • トピックニュース
  • Sports Watch
  • ITライフハック
  • 家電チャンネル
  • MOVIE ENTER
  • 独女通信
  • エスマックス
  • livedoor HOMME
  • Peachy

Livedoorのニュース情報が欲しい方はこちらを参考にしてみてください

動画系のオープンデータセット

動画系のオープンデータセットを3つ紹介します。

Atomic Visual Actions (AVA)

Atomic Visual Actions (AVA)は、人間の動きに関するオープンデータセットです。57,000以上の人間が歩く動画など、80以上の注釈(ラベル)が付けられます。

YouTube-8M Dataset

YouTube-8M Datasetは、Googleが提供するオープンデータセットです。再生回数が1000回以上、再生時間が2~10分のYouTube動画(アダルトコンテンツは除く)にタグを付けて、オープンデータセットとして提供しています。

ラベルは、人間が選んだものを集めていて、動画系の有益なデータが得られるでしょう。

YouTube-BoundingBoxes Dataset

YouTube-BoundingBoxes Datasetは、約240,000以上のYouTube動画から厳選して、約380,000の15~20ビデオセグメント(区切り)で作成しています。

ビデオセグメントには、1秒間つき1フレームにラベルを付けています。

AIの機械学習で使われるデータの種類とオープンデータセットのまとめ

AIの機械学習で使われるデータの種類とオープンデータセットを紹介しました。

オープンデータセットは、さまざなあ企業や教育機関がデータを提供しています。ジャンルにより必要なオープンデータセットは違うため、記事の「ジャンル別のオープンデータセットまとめ」を確認して、必要なものをダウンロードしましょう。

オープンデータセットは、個人利用はOKですが、ビジネスで利用できない場合もあります。注意書きがあれば、提供元に確認を取って著作権違反に注意してください。

もっと、AI・機械学習とビジネスの活用方法を知りたい人は、AI研究所の「ビジネス向けAI完全セミナー」を利用してください。対面、ライブ配信、オンライン講座と、あなたの好きな学習スタイルが選択できます。

作りながら学べる!ビジネス向けAI完全攻略セミナー – AI研究所

最新情報をチェックしよう!
企業向けAI人材育成サービス

企業向けAI人材育成サービス

AI事業発足やAI導入に必要な人材育成のステップとAI研究所が提供するサービス。AI研究所の人材育成サービスでは、3つのステップを軸に御社の業務内でAIを活用できる人材育成やAIプロジェクトの支援を行います。

CTR IMG