Kaggleからダウンロード可能な機械学習用データセット
Kaggleは世界中のデータサイエンティストが自身の腕を競い合うコンペティションだ.
競技者たちはスポンサーが提供するデータセットに適切な予測なモデルを構築し,その予測精度を競う.もしあなたが1位をとることができたのであれば,賞金(大体$25,000の場合が多い)を受け取ることができる.
しかし,Kaggleにはオープンソースデータのプラットフォームとしての側面が存在することをご存じだろうか? 実はKaggleには,世界中のありとあらゆる組織が無償で公開したデータが山のように投稿されているのだ.
Kaggleで公開されるデータは,ユーザーによる製品に関する評価をまとめたデータや銃と暴力に関するデータなどお堅いものから,今大人気のオンラインゲームPUBGにおける死因のデータやサッカーのランキングに関するデータなど個人的な趣向をそそられるキワモノデータまでありとあらゆるデータが公開されている.
オープンソースのデータは,コンペティションとは異なり,賞金は出ないが機械学習の勉強用としては非常に有用だ.そこで本記事では,筆者の備忘録もかねてKaggleを漁って見つけたデータを紹介する.
—
Grammar and Online Product Reviews | Kaggle
- ユーザーによる製品に関する評価をまとめたデータ
- 銃と暴力に関するデータ
PUBG Match Deaths and Statistics | Kaggle
- バトルロワイヤル制オンラインゲームPUBGにおける死因をまとめたデータ.
- マッチ回数は720,000回を超える.
- データはPUBG戦績サイト https://pubg.op.gg/から抽出.
- FIFAのサッカーのランキングに関するデータ
Stack Overflow 2018 Developer Survey | Kaggle
- 100,000人以上の開発者に対する調査をまとめてデータセット
- データの中身は,ハッカソンにでたことがあるとか,得意なプログラミング言語は何かとか色々.
- プログラマ向けの知恵袋サイトStackOverflowが作成者なのでデータの品質は確か.
- 開発者1人に対して30分の調査を行ったらしい.
- インドの犯罪の件数を各州ごとにまとめたデータ
- 犯罪をまとめたデータセットはちらほら見かけるが,インドは珍しい
ディスカッション
コメント一覧
まだ、コメントがありません