awswrangler(Athena)でのデータ抽出をPolarsへ置き換えて高速化する

2024年3月6日 14:37

こんにちは。D2Cデータサイエンティストの名越です。

Pythonでs3にある大規模なテーブルデータを多少の条件をつけて抽出する際どのように取得していますでしょうか？
Pandasを使ってデータ処理をする場合は大規模データだと重くなってしまうためできるだけ事前に処理をしたものを取り出したいですよね。

私の所属している部署では awswrangler を用いてAthenaでデータ取得することができる環境が整っているため、私はそこまで深く考えることもなくシステム内ではこのやり方でデータを抽出することが多いです。

本記事では既にある程度十分に速いawswranglerを用いた大規模データの条件付きのデータ抽出を、そのパフォーマンスの良さで注目を浴びている表計算ライブラリ Polars へ置き換えてさらに高速化できるのかを検証してみようと思います。

…この続きは、エンジニアのための情報共有コミュニティ「Zenn」に投稿しています。是非ご覧ください！