皆さん初めまして!
先日kaggleのARCコンペで2位になったのですが、
2位で終了しました!みなさんお疲れさまでした。コード書くの楽しかった。 pic.twitter.com/dLxl6Mlgoe
— Aryyyyy (@aryyyyy13) 2020年5月28日
僕のkaggle歴が浅めということもありtwitterでも結構反響があって、何人かの方にはわざわざDMまで頂いてどんな勉強をしたか聞いていただきました。なるほど需要があるならということで、今までのことをまるっと振り返ってみようと思います。
これからkaggle始める方のためになれば幸いです。
- 機械学習を始める前のスペック
- 準備期間:2019年7月〜
- kaggle初参加:2019年9月〜
- kaggleちゃんと始める:2019年10月〜
- DSB参加:2019年10月〜
- 会社を休職して本格的に勉強開始:2020年1月前半〜
- 手頃なコンペがなかったので勉強:2020年1月後半〜
- ARC前半:2020年2月〜
- ARC後半:2020年4月〜
- 今後
機械学習を始める前のスペック
- 機械学習の勉強を始める前は広告系の会社でweb系のエンジニアとして2年ほど勤務。
- 書いていたのは主にGoとRubyで、AWSもたくさん触っていた
- 数学はかなり得意だった、しかし文系なのでまあ知れている
- エンジニアやるまではずっと音楽一筋
- Python歴は無し
といった感じです。
準備期間:2019年7月〜
機械学習エンジニアの友人に触発されて、CourseraのMachine Learningを見始めたところからML人生がスタートしました。
それまではWeb系エンジニアとして楽しくコード書いていたんですが、軽い気持ちで始めた機械学習に完全にハマってしまった形です。
早朝に勉強、昼間はエンジニアとして働いて夜にまた勉強、といった感じでコースを終えました。今思えば最初にCourseraのMachine Learningいったのは良かったような。講師のAndrew素晴らしかった。
講座を終えた後は書籍などで勉強していました。何冊かななめ読みした後、Andrewの声がまた聞きたくなったので、CourseraのDeepLearning Specializationを受講することに。こちらも素晴らしかった!
(すごい昔に感じる)
ちなみにどちらの講座も完走するのに1ヶ月弱くらいかかっています。宿題とかもあって結構重かった記憶。勉強始めたての人にはちょうど良い重さかも。おすすめです。
kaggle初参加:2019年9月〜
そしてちょっとタイミング的に前後するのですが、deeplearningの講座を受けている最中に、kaggleを始めました。
初めて参加したのはIEEE-CIS Fraud Detectionです。不正取引を検知するモデルを作るコンペです。参加といっても、最終日にnotebookを覗いて、いくつかBlendして提出しただけです。それだけでも当時は(これがデータ分析...!!)と興奮したのを覚えています。笑
そしてそして、作りたてのTwitter機械学習用アカウントでTLを見ていると反省会の3文字が!図々しくも参加させていただくことに。
初めまして!最近機械学習の勉強始めて、これからkaggle頑張ろうと思っている者です!
— Aryyyyy (@aryyyyy13) 2019年10月8日
ieee最終日にデータ落として5サブミットしただけなのですが、流石に参加資格無しでしょうか…?
当日はIEEEで金メダルを獲得した方、masterの方などが揃っていて、非常に刺激的でした。話の内容が分からなくてまごまごしっぱなしの僕にもみなさんたくさんアドバイスをくれて、本当にありがたかったです。視座が上がったのも大きかった。これから始める方は強い人がいる反省会に潜り込むのおすすめです。
kaggleちゃんと始める:2019年10月〜
IEEE終わってから1ヶ月は、初心者でも手軽に出来そうなテーブルコンペが無かったこともあり、線形代数の本読んだり機械学習の書籍を読みつつ実装したり、諸々の勉強をしていました。そして10月に入り念願のテーブルコンペである、アメフトコンペが始まったので、初日から参加することに。よく分からないながらも楽しみながら進めていたのですが、題材がアメフトという馴染みのないスポーツであることもあり、相当頑張らないと芯を食った分析が出来なそうな気がしていました。実力がない分、ドメイン知識では勝ちたいという気持ちもありました。
そんな折、kaggleから新しくテーブルコンペが発表されました。ちょっと迷いつつ、そちらに移行することに...
DSB参加:2019年10月〜
新しく発表されたのは、2019 Data Science Bowlという、幼児教育用ゲームに関する分析をするコンペでした。幼児教育用ゲームのプレイ履歴を元にユーザー毎の習熟度を推定する、という分かりやすい題材だったこともあり、すぐにのめり込みました。
notebookや過去コンペを参考にしつつ、アメフトコンペを通じてPythonに慣れてきていたこともあり、割と順調にスコアを伸ばすことが出来ました。
みんなもKaggle本を読もう☺️ pic.twitter.com/B3t9McDj4Q
— aryyyyy (@aryyyyy13) 2019年12月21日
DSB、もうちょっとで金圏☺ pic.twitter.com/hI6Dhk2i5l
— aryyyyy (@aryyyyy13) 2019年12月23日
(実はこのあたりのsubmitからprivateでは安定して銀圏に入っていたようです。)
順位上がる -> モチベーション上がる -> 順位上がる -> ... の良い循環に入れていたような気がします。やっぱり順位上がると楽しいんだよな。。。
会社を休職して本格的に勉強開始:2020年1月前半〜
本格的に機械学習にコミットしてジョブチェンジするために、2019年いっぱいで会社を休職して、スクールに通いつつkaggleをやる日々に。スクールではこんな感じのことをやってました。残念ながらkaggleを教えられる人はいなかったので、kaggleに関しては独学で頑張りました。kaggle本発売されてたのも大きかった。
初心者にしてはかなり色々なことを試すことができたと思います。詳細は反省会で発表した資料があるのでそちらを参考にしてください。
結局DSBは51位で終了し、めでたく初のメダルを獲得。ありがとうございました!
DSB、ソロで51位でした〜。序盤からかなり見えていた自信はあって、機械学習初心者がソロ金とってやると意気込んでいたんだけど、まあそんな甘くはない。最後の1ヶ月でpublicもprivateもスコアの伸びが全く無かったのが敗因
— aryyyyy (@aryyyyy13) 2020年1月23日
でも成長度合いなら確実に10位以内には入ると思っているので次また頑張ろう。
TOP2%で嬉しい反面、金メダルを取れなくて悔しかった。リベンジを誓いました。
手頃なコンペがなかったので勉強:2020年1月後半〜
統計の勉強のために入門書ポチった。あとノリで10日後に統計検定2級の試験申し込んだ。さすがに落ちそうだけどモチベーション買う投資としては有りな気がしている
— aryyyyy (@aryyyyy13) 2020年1月23日
kaggleでアウトプットばかりしていたので、インプットもせねばということで統計検定を受けることにしました。試験を先に申し込んで、詰め込んで勉強する作戦。
久しぶりに数式触って楽しかったのを覚えています。
統計2級の過去問解いたら合格点出たので一旦DSBの復習に戻る
— aryyyyy (@aryyyyy13) 2020年1月28日
twitter見返したら5日で合格点が出ている。でも年によってかなり難易度が違う印象だったので、受ける予定の人は過去問は幅広くやるといいかもです。
統計検定2級、どんどん難しくなってるのかな。2015年以前の過去問だと初見で優秀or最優秀安定して出るようになったけど2016年以降は優秀も危うい
— aryyyyy (@aryyyyy13) 2020年2月1日
そんなこんなで意外にもサクッと合格して、次のマスに進みます。やればやるだけ成長できるので毎日が楽しかった思い出。楽しいのは今もだけど。
統計検定2級合格した。ゼロからの10日間チャレンジだったので結構大変だったけど、おかげで密度の濃い時間を過ごせました。Kaggleとは違った視点でデータの色んなお気持ちを知ることが出来るのでKaggleオンリーの人にはかなりおすすめな気がしました。さてDSBの復習しよう! pic.twitter.com/lof4PPhWvj
— aryyyyy (@aryyyyy13) 2020年2月4日
ARC前半:2020年2月〜
後に2位を取ることになるAbstraction and Reasoning Challengeに参加します。推論タスクのinput/outputから規則性を捉えるAIを作るコンペです。ざっくり書くと、図形の変化の規則性を当てるタイプのIQテストを解けるAIを作る、みたいな。IQテストは全部で100問出されて、そのうち何問とけるかを競う形式でした。
DSBのようなテーブルコンペとは全く違う類のコンペでしたが、twitterを見返す限り、ちょうど授業で論文読んだりしていたのもあり良さそうだなと思ったみたいです。
論文読む必要がありそうなコンペだし、かなりいいタイミングで出てくれたと思う。ことにする。盛り上がるといいけど!
— aryyyyy (@aryyyyy13) 2020年2月14日
ただ、意気揚々と参加したはいいものの一向に結果は出ず、始めの頃はかなり大変でした。 そして結果が出ていないのは僕だけではなく周りも一緒だったので、このまま誰も1点とらずに終えるのでは、、と結構みんな本気で感じていたように思います。
We just launched the toughest @kaggle competition in a long time with @fchollet. Can software learn to generalize complex, abstract tasks from a tiny number of examples? Easy to get started on, and a good result would mean a substantial leap forward in AI https://t.co/2r9zJSb7fh
— Ben Hamner (@benhamner) 2020年2月13日
(kaggleのCTOもtoughest competition in a long timeと書いている...)
始めの数週間で数千行のプログラムを書きましたが、結局1点も取れず。しかしアイデアは無限に湧いてくるし自分の方針で結果が出る気もしていたので、諦めずに続けることに。toughest competitionってのも燃えたし。twitterを見返すと、3点取るのに1ヶ月と少しくらいかかっていたようです。同時進行でウォルマートコンペ(通称M5)も始めました。
ARC3点目取れてた、しかしM5との両立大変だな...
— aryyyyy (@aryyyyy13) 2020年3月19日
この時点でかなりいい順位にいて、コンペの難しさを考えると多分今のままでもソロ銀は確定したかな、という感じでした(実際3点のままだと銀だったようです)。満足して他にいくか金メダルを目指すかのオプションがあったのですが、まだまだ手は止まらなそうだし、DSBの時の悔しさを晴らすためにも、もう少し頑張ることにしました。
ARC後半:2020年4月〜
順調に得点を重ねて、大体金メダル圏内の一番下が銀メダル圏内の一番上にいた気がします。
ARC、こんだけコード書いても4点かという感じ。
— aryyyyy (@aryyyyy13) 2020年4月5日
ARC、上位者同士でチーム組んだらしく金圏入ってた😊
— aryyyyy (@aryyyyy13) 2020年4月10日
そしてコンペ終了10日前くらいにチームマージの決断をすることに...!
ARC、諸々考慮するとソロ金取れる確率80%くらいある。でも万が一にも銀で終わるのが嫌なので、マージして賞金狙いに切り替える。
— aryyyyy (@aryyyyy13) 2020年5月16日
ここまでコミットして銀で終わる可能性があるのが嫌だったので、ソロ金狙いからチームでprize狙いに切り替えることに。ソロで頑張っていたこともあり、僕より1点多く取っている2人チームとすんなりマージ出来ました。
(ここから先はtwitterの連投でお楽しみください)
チームマージした。しかしお互いの1万行ずつくらいのコードをマージせねば...とりあえず一人でやらせてもらうことにした
— aryyyyy (@aryyyyy13) 2020年5月17日
(チーム組むことを想定していなかったのでコードが汚くて苦労しました...)
賞金見えてきた😊 pic.twitter.com/i93pJRYhro
— aryyyyy (@aryyyyy13) 2020年5月17日
(10点と9点でマージして15点になりました)
ARC15点なうなんだけど、14点とってるGMからマージのお誘いを頂いた。これは優勝かと思いきやsubmitのlimitに達していてマージ出来ず。残念!
— aryyyyy (@aryyyyy13) 2020年5月17日
(上位にはGMやmasterがたくさんいて、やっぱり強いんだなあという印象です。当たり前か)
マージ後にすぐ2点取れた。早計だったか…しかしソロ金よりエキサイティングなので良しとする
— aryyyyy (@aryyyyy13) 2020年5月18日
エキサイティングな状況...ARCはpublic=privateなのが嬉しい。 pic.twitter.com/AAmHD6VfHt
— aryyyyy (@aryyyyy13) 2020年5月20日
(この2点が大きかった)
2位争い1歩リード!あと2時間でチームマージ期限、点数を隠しているチームがどれだけあるか。 pic.twitter.com/rLVQ5ZS09b
— aryyyyy (@aryyyyy13) 2020年5月20日
ARC、ずっとコンペを引っ張ってきたZoltanが得点して更なるデッドヒートを演じている。100 hours to go... pic.twitter.com/Sz7uLuLlvX
— aryyyyy (@aryyyyy13) 2020年5月24日
(結局足を残しているチームはほとんどなかった模様。このころは連日コード書きすぎて疲れていたので、息抜きにM5やっていました。)
チームメンバーがついに1点取ってくれて賞金がかなり現実味を帯びてきた。しかしみんな不気味なくらい得点しない。 pic.twitter.com/gKzgCmbOUu
— aryyyyy (@aryyyyy13) 2020年5月25日
(このあたりでかなり賞金を意識しはじめる)
2位で終了しました!みなさんお疲れさまでした。コード書くの楽しかった。 pic.twitter.com/dLxl6Mlgoe
— Aryyyyy (@aryyyyy13) 2020年5月28日
(yatta)
(賞金は3人チームで3等分を提案しましたが、yujiは頑張ったから、ということでちょっと僕が多めに貰うことになりました。ありがとうチームメイトたち...)
ちなみに、今回2位になれたのはずっと楽しみながら続けていられたからだと感じています。あんまり難しいことしていないし。やっぱり楽しんでいるとコミット量も集中力も違いますよね。そして僕は機械学習もエンジニアリングも心の底から愛しているので、まだまだ階段を登り続けることが出来るはず。多分。
ということで、これからkaggle頑張りたいと思っている人は、なるべく自分が楽しめるコンペに出ることを強くお勧めします。周りの方々を見ても、強い人ほど楽しんでいるようにみえます。もし全然楽しめないようだったらkaggleやらないのも有りだろうし、データ分析自体あんまり楽しめないのなら別の道を考えてもいいと思います。
今後
kaggleやっていると、楽しすぎてどうもアウトプットに偏り過ぎてしまうように感じるので、今後はアカデミックなインプットにもちゃんと時間を割きたいです。論文読むの単純に楽しいんだよな...一日一論文生活したい。
それと同時に、そろそろ就職活動も始めようかと。機械学習エンジニアとしてのキャリアをスタートさせたい。企業の方はDMいただければ嬉しいです!僕からも色々とコンタクト取り始めます。
今後は論文ガンガン読んでゴリゴリ実装出来るエンジニアになるべく、より一層楽しんでいきたいと思います。ここまで読んでいただいてありがとうございました!