見出し画像

AIコンテストnishika、AIは芥川を見分ける?自然言語処理予測の方針とか

割引あり

まず、上の書道は生成AIで作りました。
元気という習字を描いてもらいました。2文字は苦手らしいです。

AIが書いた元気という文字の書道

で、コーディングも少しします。

今回、AIは芥川を判定できるかというコンテストに取り組んでいます。
今7位です

方針

日本語の文章の分類なので、まずはタグなどを除いて、形態素解析します。
形態素をそのままの順番で並べ、新しいカラムに入れます。

ちっときょうみがあるので、 metaのfastTextを用いてベクトル化します
ベクトル化には複数の手段があるので、あとで、Tf-Idfも使ってみます。

で、大体これっぽい感じ(ベクトル化できてラベルが二値)なので、lightGBMでモデルを作ります

lightGBMで予測をつくり、評価関数をF1スコアにします

パラメーターをグリッドサーチします。
その後、テストファイルについて、予測をします。

予測したものをsubmissionとしての成形をし、提出してみます。

その2
xgboostを用いて、同様の予測をします。グリッドサーチもします。

一応、サブミッションファイルを作って提出します

大体こんなもんだろうというベストパラメーターを探して、XGBoostとLightBGMを比較し、よい方を提出する

という方針で行っているのですが、形態素解析、グリッドサーチに時間がかかるので、その間はエアロバイクを漕ぎながら、エラーが出るか見守ります。

ここから先は

129字

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?