AIコンテストnishika、AIは芥川を見分ける?自然言語処理予測の方針とか
割引あり
まず、上の書道は生成AIで作りました。
元気という習字を描いてもらいました。2文字は苦手らしいです。
で、コーディングも少しします。
今回、AIは芥川を判定できるかというコンテストに取り組んでいます。
今7位です
方針
日本語の文章の分類なので、まずはタグなどを除いて、形態素解析します。
形態素をそのままの順番で並べ、新しいカラムに入れます。
ちっときょうみがあるので、 metaのfastTextを用いてベクトル化します
ベクトル化には複数の手段があるので、あとで、Tf-Idfも使ってみます。
で、大体これっぽい感じ(ベクトル化できてラベルが二値)なので、lightGBMでモデルを作ります
lightGBMで予測をつくり、評価関数をF1スコアにします
パラメーターをグリッドサーチします。
その後、テストファイルについて、予測をします。
予測したものをsubmissionとしての成形をし、提出してみます。
その2
xgboostを用いて、同様の予測をします。グリッドサーチもします。
一応、サブミッションファイルを作って提出します
大体こんなもんだろうというベストパラメーターを探して、XGBoostとLightBGMを比較し、よい方を提出する
という方針で行っているのですが、形態素解析、グリッドサーチに時間がかかるので、その間はエアロバイクを漕ぎながら、エラーが出るか見守ります。
ここから先は
129字
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?