Python 実践データ100本ノック

GW中に何をやろうかなと思った時に、最近噂にきくこの本をこなしてみようと思いました

こちら、感想としては、途中までは主にテーブル形式の”汚い”データの処理方法、残りは、数値シミュレーション、画像、動画、自然言語処理といった、課題の説明と解説でした。

もっと処理が困難なデータが多いのかと思いましたが、そこまででもなかった様な。。

ただし、多くの分野の例題に触れることができたので、入門編としては十分かと思います。

ここで学習した最適化や自然言語処理をベースにして、より専門的な方向にスキルを伸ばしてい期待と思います

ただ、若干期待外れだったのは、回答例がfor文を多用していて、pandasやnumpyの機能を生かし切れていないと思うところがありました。可読性を上げる、あるいは自分で考えさせるにはこちらがいいのかもしれませんが。。。

時系列データへシフト

以前は、AutoEncoderを試してみましたが、なかなかいい対象が見つかれないのと、これによるFraud Detectionとか故障検知のなかなか取り組みたいのが見つからないので

今後は時系列データを取り扱うモジュールを使って故障検知を試してみたいと思います

具体的に最近見つけたtslearnとtsfresh、どちらも最初のtsはTime Seriesで時系列を対象としていることを表します

前者はscikit learnベースで学習を行い、後者は時系列データから多数の特徴量（例えば平均とか自己相関係数とか）を抽出し、そこからクラスタリングなどを行うものの様です

ちょっと方向性を変えることになりますね

ここのところ、Keras(TensorFlow)を使ってDeepLearningを勉強してきました

しかしながら、最近の情報ではKerasはどちらかと言うと減少傾向で、PyTorchが上昇傾向だそうです

また、ライバルであるはずのChainer開発元はPyTorchに移行すると発表しているそうです

ネットを見渡すと、PyTorchの情報はまだまだ少なく、どうしてもKerasが簡単に見えるので、Kerasを中心に置いてきましたが、トレンドを考えると今がいいタイミングかもと思っています

まだKerasのも深くやっているわけではないので、まずはPyTorchの情報も集めていきたいと思います

昨年の増税前にゲーミングPCを買いました

これは、子供がフォートナイトにハマっているからもありますが、主には画像系のディープラーニングを試してみたかったからです

実際には、何度かわかりにくい点がありハマったりしましたが、現在はうまく運用できていて、写真とマスク画像を用意すれば、自前のデータで学習できる様になりました

手持ちではあまりいい学習用のデータは持ち合わせていないのですが、少ないデータ数でもふやす手法も使えています。

できることは、例えば動物園の写真に写っている馬や象の画像だけを切り出したり、たくさんの細胞から学習した特徴をもつ細胞だけを切り出したりできます

今はやってみたい盛りなので、試してみたい人がいたら連絡ください。

今のところは、Kaggleの現在開催中でないコンペのデータセットを使ってEDAをやりながらxgboostやlightgbmを使ってみて、どれくらいの性能が出るか試しています

本当は開催中のものをガンガンやりたいのですが、どうしても時間が取れないので、今後の業務や今後のキャリアで比較的役に立ちそうな、スプレッドシート型式のデータに取り組みたいのですが、アクティブな物では見当たらないので、こちらをやっています

特に画像とかをやりたくないわけではないのですが、どうしても準備とかに時間がかかりそうなので。。。チームとかに参加できてある程度役割分担ができるのであればやってみたいかな。

そもそも他の人たちはどうやってチームを作っているんですか？Twitterとかで募集したしてるのかな？

ここ一年くらい機械学習系のコンペサイトのKaggle等を真面目に取り組みたいと思っていたのですが、時間が無かったり、行き詰まったりでなかなか進んでいませんでした。

唯一そこそこ時間をかけたのは日本のSignateの武田製薬のコンペだけで。

なので、このブログでKaggleにどう向き合っているのかを報告していきたいと思います。

できればチームで取り組んだりしてみたいので、興味のある方は連絡ください

まずは、最初のご挨拶でした。