Kaggleからダウンロード可能な機械学習用データセット

7月 27, 2020

f:id:Vastee:20180602092552p:plain

Kaggleは世界中のデータサイエンティストが自身の腕を競い合うコンペティションだ.

競技者たちはスポンサーが提供するデータセットに適切な予測なモデルを構築し,その予測精度を競う.もしあなたが1位をとることができたのであれば,賞金(大体$25,000の場合が多い)を受け取ることができる.

しかし,Kaggleにはオープンソースデータのプラットフォームとしての側面が存在することをご存じだろうか? 実はKaggleには,世界中のありとあらゆる組織が無償で公開したデータが山のように投稿されているのだ.

Kaggleで公開されるデータは,ユーザーによる製品に関する評価をまとめたデータや銃と暴力に関するデータなどお堅いものから,今大人気のオンラインゲームPUBGにおける死因のデータやサッカーのランキングに関するデータなど個人的な趣向をそそられるキワモノデータまでありとあらゆるデータが公開されている.

オープンソースのデータは,コンペティションとは異なり,賞金は出ないが機械学習の勉強用としては非常に有用だ.そこで本記事では,筆者の備忘録もかねてKaggleを漁って見つけたデータを紹介する.

Grammar and Online Product Reviews | Kaggle

  • ユーザーによる製品に関する評価をまとめたデータ

Gun Violence Data | Kaggle

  • 銃と暴力に関するデータ

PUBG Match Deaths and Statistics | Kaggle 

  • バトルロワイヤル制オンラインゲームPUBGにおける死因をまとめたデータ.
  • マッチ回数は720,000回を超える.
  • データはPUBG戦績サイト https://pubg.op.gg/から抽出.

FIFA Soccer Rankings | Kaggle

  • FIFAのサッカーのランキングに関するデータ

Stack Overflow 2018 Developer Survey | Kaggle

  • 100,000人以上の開発者に対する調査をまとめてデータセット
  • データの中身は,ハッカソンにでたことがあるとか,得意なプログラミング言語は何かとか色々.
  • プログラマ向けの知恵袋サイトStackOverflowが作成者なのでデータの品質は確か.
  • 開発者1人に対して30分の調査を行ったらしい.

India crimes data | Kaggle

  • インドの犯罪の件数を各州ごとにまとめたデータ
  • 犯罪をまとめたデータセットはちらほら見かけるが,インドは珍しい

Machine Learning

Posted by vastee