Kaggleとは
Kaggle(カグル)は、端的に言うと機械学習をやる人たちのコミュニティサイトです。それだけではなくデータ分析のコンペが開催されているので、参加して賞金を得たり、世の中にいるトップクラスの人のプログラムを見て勉強することができたりトップサイエンティストとディスカッションをしたりできるサイトです。世界中のデータサイエンティストが切磋琢磨して分析力を競っています。ちなみに参加している人のことをKaggler(カグラー)と呼びます。
その他もっと詳しく知りたい人は、「Kaggle とは」で調べるとわかりやすく書いてくれてるサイトがたくさんあると思います。
今回は、その中でもメインのコンテンツとなっているKernelを利用したCompetition(コンペ)への参加方法をまとめたいと思います。
Competitionへの参加方法
Competitionを探す
まずは、参加したいコンペを探すことから始めましょう。今回はKaggleを始めた人が必ず通るチュートリアル的なコンペであるタイタニックにしてみます。
- サイトの上部にある「Competition」を選択
- 「Search Competition」に「titanic」と入力
- 「Titanic: Machine Learning from Disaster」を選択私はすでに参加してしまっているので、「Submit Predictions」となっていますが、参加してない場合は下の画像になっているはずです。
- 「join Competition」を選択
これでコンペへの参加登録が完了しました。
Kernelを作る
Kaggleのメリットとして、自分のPCにプログラムを走らせる環境を作らなくてもプログラムを書いてコンペへデータを送ることができます。その作業場所となるのがKernel(カーネル)です。作り方は非常に簡単です。
- サイト上部にある「Kernels」を選択
- 「New Kernel」を選択
- 好きな「Type」を選択
- 新規のカーネルが立ち上がります
後はタイトル部に好きな名前を入れてください。ちなみに、わかる方もいると思いますが、プログラムをとにかく書いていくページとJupyterとしてページを書くことができるページが選べます。
Datasetを準備する
ここまで来たら、コンペに参加してそれ用のカーネル作ったからデータなんて入ってると思うじゃないですか。さらにはおあつらえ向きにデータへのアクセスをするためのコードがテンプレートで入ってるんですよ。
意気揚々と、これを動かすとですね。
これですよ。一番下の『[]』これ、何にも入ってないんです。私はこれで一週間挫折しました。ものすごく簡単なことだったのに全く気付かなかったです。
せっかく始めたのに挫折しないようにDatasetの準備方法を示します。
Datasetの準備方法
- 作成した「Kernel」の画面の右側中央部にある「ADD Dataset」を選択
- データを追加できる画面が開くので「Competition Data」を選択
- 「Search Datasets」に「titanic」を入力
- 「Add」を選択
- 元画面が以下のようになっていれば成功
確認する
前項の手順でデータをカーネル内にアップロードできました。一応先ほどのプログラムを動作させてみましょう。
ここで「test.csv」と「train.csv」が入っていれば成功です。あとは焼くなり煮るなりデータサイエンティストとしての力を大いにふるってください。
コメント