AI研究所 - AI(人工知能)に脅かされないために、AI(人工知能)を作る側の人間になる -

HOME  >  機械学習に使える様々なデータセットが取得できるサイト5選

公開日:2017.10.18 [最終更新日]2017.10.23

機械学習に使える様々なデータセットが取得できるサイト5選

カテゴリー: AI(人工知能)の作り方

こんにちは、AI研究所の見習い研究員マサミです。

機械学習をするにあたって非常に重要なのが、教育用に使う大量のデータですね。勉強しようと思ってもデータがないから始められない。という方も多いと思うので、今回は私が機械学習を行う時に利用しているオープンデータをご紹介します。


UC Irvine Machine Learning Repository

一つ目は機械学習を勉強している人の中では非常に有名なサイト。カリフォルニア大学アーバイン校が公開したデータセットで、現在は394件のデータセットが公開されています。

ここのデータを用いた結果をもって、何かを公開する場合は引用したことをしっかりと記述さえすれば自由に使えます。たまに、引用の際に許可を得ないといけないものもあるようです。
これまで、既に機械学習の勉強をされてきた方は利用したことがあるかもしれない有名なデータセットである、「がくや花弁」の長さなどから「アヤメの種類」を学習するデータもこのサイトで提供されているものです。

UCIのサイトページ

UC Irvine Machine Learning Repository

DataMarket

二つ目は時系列系のデータセットを取得できるサイト。ドル為替レートや人口の推移、各海洋でのマグロの漁獲高の推移などまで多岐に渡ったデータをピックアップできます。

ユーロスタットとDataMarketをオリジナルのデータ源として明記することを条件に、コピーや再配布が許可されていたようですが、最近Qlikと統合したようで再配布などについてはしっかりと規約を読んでおく必要があると思います。ただ、個人利用については変わらずフリー(いくつか有料のものも含まれています)のようなので、機械学習のデータに使用することは問題ないと思います。

対ドルの各為替レートのグラフ

例)対ドルの為替レート

THE MNIST DATABASE

次に三つ目ですが、ここは以前ブログでAzure MLやchainerを使って手書き文字を判読した際にもサンプルを利用した配布元サイトです。手書き文字のサンプルデータと言えばここというほど有名なサイトです。

実際にAzure MLやchainerで判読する方法については以前の記事「Azure MLでCNN(畳み込みネットワーク)を使ってディープラーニングさせる方法」、「機械学習用ライブラリ「Chainer」を使ったディープラーニング」をご参照ください。

img1

THE MNIST DATABASE

MegaFace and MF2

続いて四つ目。このサイトは一人につき複数の画像で約70万人分の顔写真が用意されています。画像認識(顔認識)系の機械学習をしたい場合は利用してみるといいかもしれません。

MEGA FACEのサイト画像

MegaFace and MF2

Azure ML

そして最後は、Azure MLです。AIを作る時に何度も使っているこのサイトですが、データセットのサンプルも数多く揃っています。しかも、実際にAzure MLのサンプルAIに学習させるために作られたデータセットなのでそのまま機械学習に使えます。

AzueMLサンプルデータ

Azure ML

今回二つ目にご紹介した時系列のデータを使って、今度再帰型ニューラルネットワーク(RNN)を組んでみたいなと思います。

タグ:


参考になったら「いいね!」と「シェア」をお願いします!!

このエントリーをはてなブックマークに追加
AI(人工知能)入門セミナー開催中
AI(人工知能)入門セミナー

AI入門ブログの中の人

AI研究所 研究スタッフ
通称:マサミ
アメリカ・サンフランシスコにある情報メディアの専門学校を卒業。大手金融会社での事務経験を経て、2016年9月よりAI研究所に入所。見習い研究員として、AI技術を日々勉強中。

LINE@

Facebookページ