AIコンテストnishika、AIは芥川を見分ける？自然言語処理予測の方針とか

割引あり

2024年3月29日 07:25

まず、上の書道は生成AIで作りました。
元気という習字を描いてもらいました。２文字は苦手らしいです。

で、コーディングも少しします。

今回、AIは芥川を判定できるかというコンテストに取り組んでいます。
今７位です

方針

日本語の文章の分類なので、まずはタグなどを除いて、形態素解析します。
形態素をそのままの順番で並べ、新しいカラムに入れます。

ちっときょうみがあるので、 metaのfastTextを用いてベクトル化します
ベクトル化には複数の手段があるので、あとで、Tf-Idfも使ってみます。

で、大体これっぽい感じ（ベクトル化できてラベルが二値）なので、lightGBMでモデルを作ります

lightGBMで予測をつくり、評価関数をF１スコアにします

パラメーターをグリッドサーチします。
その後、テストファイルについて、予測をします。

予測したものをsubmissionとしての成形をし、提出してみます。

その２
xgboostを用いて、同様の予測をします。グリッドサーチもします。

一応、サブミッションファイルを作って提出します

大体こんなもんだろうというベストパラメーターを探して、XGBoostとLightBGMを比較し、よい方を提出する

という方針で行っているのですが、形態素解析、グリッドサーチに時間がかかるので、その間はエアロバイクを漕ぎながら、エラーが出るか見守ります。

ここから先は

129字

#新生活をたのしく

47,053件

この記事が気に入ったらサポートをしてみませんか？