2020年10月の振り返り

2020年11月1日 14:21

2020年10月の個人的な振り返り記事です。

# やったこと

9月の終わりぐらいからZennで記事を書き始め、10月は全部で5つ記事を書いてました。
今までのアウトプットの量やペースと比べると先月は多かった気がします。

Apple Watchで指差し確認の記事は、以前からApple Watchと機械学習を連携したアプリを作ってみたいと思っていて、うまく作れたのでとても楽しかったです。

学習用のデータを収集したり、モーションセンサーから学習に使うパラメータを選ぶ作業などは試行錯誤が必要でしたが、自分が面白そうだ・やってみたいと思ったことを、実際に手を動かして試すことができたので満足感があります。

他には日本語OCRについてiOSで使える機械学習系のフレームワークについて調べてみました。
iOSのVisionに付属しているText Recognitionは日本語対応していないため、Google系のオンデバイス/クラウドAPIのフレームワークを調査しました。Firebase MLから利用できるCloud Vision APIがiOSから手軽に利用できることがわかりました、認識の精度も良い印象です。ただし一定規模の利用から有料です。具体的な使い方などはいずれ記事にしたいと思います。

また、ZennのCLIを使った執筆も始めました。記事をGitで管理できるのはプログラムを書く作業と体験が似ていてフィーリングがとても良いです。誤植やTypoの修正をしてコミットするとプログラミングしているような気分になります。今後は基本的にCLIで書くことになりそうです。

# やること

引き続きCore ML関連の機械学習の簡単な実装を試したり、その周辺などを触って記事を書いていきたいと思います。機械学習のモデルを作成する Create ML App でまだ試していないモデル作成があるのでそちらを取り組めたらいいなと思っています。

具体的には

- Sound Classification（音声分類）
- Action Classification

などです。

# 気になる話題

## Microsoftの機械学習モデル作成ツール

MicrosoftからGUIで機械学習のモデルを作成するツールがリリースされました。

Microsoftが誰でも簡単に機械学習モデルが作れるツール「Lobe」を公開！ | Techable(テッカブル) https://t.co/MYIok9xQ33 @TechableJpより
— より / YORIFUJI (@yorifuji) October 31, 2020

GUIで画像分類のモデルなどが作成できるようです。動画ではWebCAMの映像を使って飲み物を飲む様子を認識する例が紹介されています。作成したモデルはmlmodel形式（Core ML）でexportすることができるそうなので後で試してみたいと思います。

## Google Meetの背景ぼかし機能の技術解説

Google Meetの背景ぼかし機能の技術解説です

Google Meetの背景ぼかし機能の技術解説。機械学習（MediaPipe）とWebAssembly、WebGLなどを使って高速な処理を実現している。
Google AI Blog:Background Features in Google Meet, Powered by Web ML https://t.co/MVGLVFOz41
— より / YORIFUJI (@yorifuji) November 1, 2020

機械学習（MediaPipe）、WebAssembly、WebGLなどを使って高速な処理を実現しているようです。日本語で詳細に解説した記事がありました。

## 機械学習を使った画像フィルター

Neural Filters is a major breakthrough in AI-powered creativity and the beginning of a complete reimagination of filters and image manipulation inside @Photoshop 🤩: https://t.co/YQIGOFZ7Xt #AdobeMAX pic.twitter.com/TQFOKHqcUk
— Adobe (@Adobe) October 20, 2020

フィルターの進化がすごい。

# まとめ

11月もペースを維持して記事をかけるように続けられると良いです。習慣化を意識して続けてみたいと思います。