AI・MLが注目されてきて、データのオープン化が行われています。
オープン化されたデータとは、AIで学習をすることを目的とした誰でも使用できるデータセットです。
機械学習には、学習のためのデータが欠かせません。
しかし、オープンデータだけで、オリジナル性の高いAIはできません。
オープンデータとオリジナルのデータによって、オリジナルのAI作成できます。
ここでは、機械学習で使われる「代表的なデータの種類」と、ジャンル別の「データセット」を紹介します。
AIの機械学習で使われる一般的なデータの種類
AIの機械学習で利用されるデータは、収集後に前処理を行い、以下の3種類に分割して利用されます。
ここからは、それぞれのデータについて紹介します。
- トレーニングデータ
- バリデーションデータ
- テストデータ
トレーニングデータ
トレーニングデータは、学習に利用するデータセットです。
3種類のデータの中でも、一番大きなデータセットとすることが多いです。
機械学習のアルゴリズムを活用して、学習済みモデルを作成可能です。
トレーニングデータで学習をしてできたAIモデル(学習済みモデル)だけでは、未知のデータに対して対応できるかわからないため、次のバリデーションセットを利用して性能を確かめます。
バリデーションデータ
バリデーションデータは、学習済みモデルの検証のためのデータセットです。
バリデーションデータセットを学習済みモデルに通すことで予測結果が出ますので、この予測がどれくらい当たるかという予測精度を確認します。
予測精度を上げるために、機械学習のアルゴリズムをコントロールする「ハイバーパラメーター(設定)」を調整します。
テストデータ
バリデーションセットでハイパーパラメーターを調整した学習済みモデルが作成できたら、最終チェックとしてテストデータを通します。
バリデーションデータで良い精度を出すように調整することで、学習モデルはバリデーションデータにもフィットしていきます。
最終的に未知のテストデータを入力して精度を確認することで、汎化性能を検証します。
オープンデータセットとは?
ここまでは学習で使用するデータセットの種類を紹介しました。
ここからは、今回のテーマであるオープンデータセットの特徴を解説します。
誰でも利用できるデータセット
オープンデータセットは、誰でも利用できます。
名前の通り公開されたデータで、どんな人でも利用可能です。
自由にダウンロードできる
オープンデータセットは、自由にダウンロードできます。
オープンデータセットのあるサイトにアクセスすれば、自由にダウンロードができます。
何度も利用・配布ができる
オープンデータセットは、何度でも利用・配布ができるものです。
1回しか利用できないのではなく、必要なときにダウンロードができます。
【ジャンル別】オープンデータセットの種類
オープンデータセットは、自由にダウンロードできるものだと紹介しました。
しかし、どのようなオープンデータセットがあるのかわからないですよね?
ここからは、ジャンル別のデータセットの種類を紹介します。
- 画像系のデータセット
- 音声系のデータセット
- 文章系のデータセット
- 動画系のオープンデータセット
①画像系のデータセット
画像系のデータセットを5つ紹介します。
1:MNIST
MNISTは、手書き数字用のオープンデータです。
60,000のトレーニングセットと10,000のテストセットのファイルがダウンロードできます。
MNISTのホームページによると、クラーン研究所のヤン・ルカンさんや、Google Researchの情報工学者であるコリーナコルテスさんが参加しています。
2:Google Open Image V6
Google Open Image V6は、画像のラベルやセグメンテーションマスクなど、約900万枚の画像がダウンロードできます。
V6は、2020年2月にリリースした最新版で、過去にはV1~V5のオープンイメージがありました。
3:CIFAR-10
CIFAR-10は、50,000のトレーニングセット画像と、10,000のテストセット画像がダウンロードできます。
飛行機、自動車、トラックといった乗り物や、鳥、ネコ、イヌな動物の画像が多いです。
4:ImageNet
ImageNetは大規模で綺麗な画像が無料ダウンロードできるデータベースです。
画像認識にも利用できるので、画像系の機械学習をする場合はこちらが便利です。
5:COCO
COCOは画像やオブジェクトが多数置いてある画像データベースです。
物体検知の評価・アルゴリズムの評価にも利用できます。
②音声系のデータセット
音声に関する3つのオープンデータセットを紹介します。
1:AudioSet
音声系オープンデータセットの1つ目は、AudioSetです。
AudioSetでは、以下のような音声データがダウンロードできます。
- ドラムの音
- イヌの鳴き声
- ネコの鳴き声
- トラの鳴き声
2:声優統計コーパス
声優統計コーパスは、日本声優統計学会の提供するオープンデータセットです。
協会では、声優の声、アニソン、ラジオに、機械学習の観点からアプローチしています。
声優統計コーパスは、オリジナルで作成した文章を3人の声優が読んだときのデータをダウンロード出来ます。
3:JVSコーパス(日本語多用途音声)
JVSコーパスは、東京大学情報理工学系研究所の高道慎之介さんが提供するオープンデータセットです。
声優や俳優など、100人以上の声が録音されています。
ビジネスで利用する場合は、再配布が禁止です。
ブログやホームページで紹介するときも、短い音声しか利用できません。
使用前に、配布先に問い合わせしてください。
③文章系のデータセット
文章系のデータセットを5つ紹介します。
1:GoogleBooks(グーグルブックス)
GoogleBooksもデータセットがあります。
awsのホームページでは、Amazonに沿ったファイルがダウンロード可能です。
利用できるオープンデータセットは、アメリカ英語、イギリス英語、中国語など幅広い言語に対応しています。
残念ながら、日本語に対応したデータセットは確認できませんでした。
2:日本語対訳データ
日本語対話データは、翻訳システムの作成に利用できるオープンデータセットです。
カーネギーメロン大学のグラム・ニュービッグ准教授が研究を進めています。
コーパスには、企業、特許、京都に関するWikipedia記事を翻訳したもので、ユニークなデータが多いです。
3:Twitter日本語評判分析データセット
Twitter日本語評判分析データセットは、ビックデータ解析が専門の鈴木優研究室のオープンデータセットです。
2015~2016年ごろのツイートデータ(本文除く)がダウンロードできます。
約530,000件以上のツイート分析が完了し、4~5人以上でデータの評価をしています。
4:Wikipedia Links data(WikiLinks)
通称Wiki LinksのデータセットはWikipediaの情報がデータベース化されています。
更新は不定期ですが行われているので、Wikipediaの情報を使用したいときに利用できるデータセットです。
5:livedoor ニュースコーパス
Livedoorのニュースにもデータセットがあります。
下記ジャンルのニュースが入っておりますが、最新版に更新などはされていません。
- トピックニュース
- Sports Watch
- ITライフハック
- 家電チャンネル
- MOVIE ENTER
- 独女通信
- エスマックス
- livedoor HOMME
- Peachy
④動画系のオープンデータセット
動画系のオープンデータセットを3つ紹介します。
1:Atomic Visual Actions (AVA)
Atomic Visual Actions (AVA)は、人間の動きに関するオープンデータセットです。
57,000以上の人間が歩く動画など、80以上の注釈(ラベル)が付けられます。
2:YouTube-8M Dataset
YouTube-8M Datasetは、Googleが提供するオープンデータセットです。
再生回数が1000回以上、再生時間が2~10分のYouTube動画(アダルトコンテンツは除く)にタグを付けて、オープンデータセットとして提供しています。
ラベルは人間が選んだものを集めていて、動画系の有益なデータが得られるでしょう。
3:YouTube-BoundingBoxes Dataset
YouTube-BoundingBoxes Datasetは、約240,000以上のYouTube動画から厳選して、約380,000の15~20ビデオセグメント(区切り)で作成しています。
ビデオセグメントには、1秒間つき1フレームにラベルを付けています。
AIの機械学習で使われるデータの種類とオープンデータセットのまとめ
AIの機械学習で使われるデータの種類とオープンデータセットを紹介しました。
オープンデータセットは、さまざまな企業や教育機関がデータを提供しています。
ジャンルにより必要なオープンデータセットは違うため、記事の「ジャンル別のオープンデータセットまとめ」を確認して、必要なものをダウンロードしましょう。
オープンデータセットは、個人利用はOKですが、ビジネスで利用できない場合もあります。
注意書きがあれば、提供元に確認を取って著作権違反に注意してください。
もっと、AI・機械学習とビジネスの活用方法を知りたい人は、AI研究所の「ビジネス向けAI完全攻略セミナー」を利用してください。
対面、ライブ配信、オンライン講座と、あなたの好きな学習スタイルが選択できます。