見出し画像

Discordでニュース更新を通知するbotをつくってみたかった話

※この記事で紹介している内容は不完全かつ初学者によるものです。完成したら更新するかもしれません

思ったより長くなったので概略

プログラム初学者がノリでDiscord botの開発に手を出してみた。
Webをスクレイピングしてニュースの更新を通知するbotをつくりたかったので、やったことや使ったライブラリ、書いたコードや制作中の課題について書いた。
しかしbotは現状では上手く動いていないので、これからも頑張ってコーディングしていく……。

背景

Discordのbotをつくってみたかった。
調べてみたら discord.py というPython向けの非公式ライブラリがあるので、Pythonの勉強がてら触ってみることにした。

今回の内容は、ここ1週間程度の試行錯誤でできたことのまとめとなっている。
内容の正確性については全くこれっぽっちも保証しない。

つくりたいもの

こういう感じ

実際にやってみたこと

Discord Developer Portalの登録

Discordのbotをつくるためには、Discord Developer Portalで開発者登録をする必要がある。

公式のGetting Started (日本語) が充実しているのでこの辺を見ながら登録する。
(今回は触れないが、ここではJavaScriptをつかった開発ガイドが載っているので見てみるといいかもしれない)

特にbotを動かすために必要な秘匿情報であるトークン (TOKEN) は一度きりしか表示されないので、どこか安全な場所に置いておくといい。

プライベートなDiscord鯖に置いておこうと思ったら怒られた

こういう画面になればOK

ここで、Discordのデスクトップアプリケーションにおいて、設定>詳細設定にある「開発者モード」を有効にしておくといい。
開発者モードを有効にしておけば、チャンネルやユーザーを右クリックするとIDをコピーするオプションが表示されるなどの機能が追加されるため、プログラムを書くときに便利になる。

botの構造を考える

何をするにも計画から、ということでプログラムの構造を考えた。

繰り返しになるが、Python初学者の構想なので間違いや非効率な点が十分に有り得ることは承知いただきたい。

botをつくるにあたり、botを動かす本体プログラムとそれ以外の機能は分離することを念頭に置いた。これは、今後機能を追加することになったときや不具合が生じたときの保守性を高めるためである。

したがって、今回はbot本体である「bot.py」とニュースの通知をするための「get_latest_news.py」という2つのプログラムに分けた。

また、ひとつの機能の中でも動作を細分化し、クラス化することとした。今回で言えば、

  • Scrape (ページの取得)

  • Convert (データの整形)

  • UpdateCheck (更新検知)

の3段階に分けた。

概念図はこんな感じ。

本体プログラム内で get_latest_news を1分間隔で実行することで更新を検知するようにする。

使ったライブラリや環境

Pythonには非常に多くのライブラリがあり、やりたいことを簡単に実現できる。

今回の目的のために使ったライブラリは以下の通り。

  • discord.py (botを動かす)

  • selenium (Webブラウザを自動操作し、ページを取得する)

  • Beautiful Soup (HTMLの解析を行う)

  • Pandas (データフレームを扱う)

  • python-dotenv (環境変数を管理する ※後述)

これに加えて、seleniumを動かすために必要なChromeDriverについても導入した。

また、Pythonの実行環境については pyenv を用いた。これはPythonのバージョン管理に適したツールで、コマンド一つで複数のバージョンをインストールしたり管理したりできる。

システムのPython環境を汚したくなかったので、このbotのためだけのバージョンを作成して利用した。他OSでの管理も楽になる。 (Dockerを使えって?すみません勉強中です)

今回の環境構築にあたってのコマンドはGitHubのプロジェクトページに記載しているので参照されたし。

環境変数の管理

環境変数とは、botを動かすためのTOKENやドライバのpath、DiscordのチャンネルIDなどの情報だ。
これらは秘匿情報なのでGitHubで管理する際には隠さなければならない (コードの中に直接記載してはならない) し、開発環境と実行環境ではpathを変えなければならないこともある。

これについては python-dotenv というライブラリで解決できる。

プロジェクトフォルダに「.env」というファイルを作成し、それをテキストエディタで開いて以下のように記述する。

BOT_TOKEN = "token here"
CHANNEL_ID = "channel id here"

続いて、これらの情報が必要なプログラムの中で以下の内容を記述する。
今回であれば bot.py がそれにあたる。

import dotenv
import os

dotenv.load_dotenv(override=True)

# 環境変数
token = os.getenv('BOT_TOKEN')
channel_id = int(os.getenv('CHANNEL_ID'))

こうすることで、外部ファイルに記載した環境変数を読み込むことができる。

もちろん、.gitignore ファイルに .env ファイルを指定してGit管理下から外しておかなければならない。

コードを書く

設計ができた。環境が整った。なら次はコードを書く。

なお以下のコードは本稿執筆時点でのものとなる。今後更新される可能性が大いにある。

まずは更新を取得する部分のコードだ。
先ほどの構造の通り、動作ごとにクラス化している。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import pandas as pd
import os

class Scrape: # データの取得
    @staticmethod
    def scrape(url):
        options = Options()
        options.add_argument("--no-sandbox") # サンドボックスを無効化
        options.add_argument("--headless") # GUIで起動しない
        options.add_argument("Accept-Language: ja-JP") # 日本語ページを指定
        options.add_argument('--lang=ja-JP') # 日本語ページを指定

        driver = webdriver.Chrome(options=options)

        try:
            driver.get(url)
            html = driver.page_source
            return html
        finally:
            driver.quit()

class Convert: # データの整形
    @staticmethod
    def convert(html):
        soup = BeautifulSoup(html, 'html.parser') # BeautifulSoupのオブジェクトを作成
        data = []

        # 記事のタイトル、URL、サムネイル画像、概要を取得
        for news_item in soup.find_all('a', class_='news__title news__content ellipsis'):
            url = f"https://genshin.hoyoverse.com{news_item['href']}"
            title = news_item.find('h3').get_text(strip=True)
            cover_image = news_item.find('img', class_='coverFit')['src']
            summary = news_item.find('p', class_='news__summary').get_text(strip=True)

            data.append({
                "Title": title,
                "URL": url,
                "Cover Image": cover_image,
                "Summary": summary
            })

        return pd.DataFrame(data) # データフレームで返す

class UpdateCheck: # データの比較
    @staticmethod
    def check_for_updates(old_file, new_data):
        # 前回の取得情報を読み込む
        try:
            old_data = pd.read_csv(old_file)
        except FileNotFoundError:
            print(f"'{old_file}'に前回の取得情報がありません。")
            return new_data

        merged_data = pd.merge(
            new_data,
            old_data,
            on=["Title", "URL", "Cover Image", "Summary"], 
            how='left', 
            indicator=True)
        new_entries = merged_data[merged_data['_merge'] == 'left_only']

        if not new_entries.empty:
            print(f"{len(new_entries)}件の新着記事があります")
        else:
            print("新着記事なし")

        return new_entries.drop(columns=['_merge'])

続いて、bot本体のプログラムは以下のようになった。

import discord
from discord.ext import tasks
import os
from get_latest_news import Scrape, Convert, UpdateCheck
import dotenv

# 環境変数の読み込み
dotenv.load_dotenv(override=True)
token = os.getenv('BOT_TOKEN')
channel_id = int(os.getenv('CHANNEL_ID'))

print(os.getenv('CHANNEL_ID'))

# 必要な intents を設定
intents = discord.Intents.default()
intents.messages = True
intents.guilds = True
intents.message_content = True

# intents を渡して Bot インスタンスを作成
client = discord.Client(intents=intents)

# ログイン時にターミナルに通知する
@client.event
async def on_ready():
    print(f'Logged in as {client.user.name}')

    # 指定されたチャンネルを取得
    # チャンネルが取得できていたら更新チェックを開始
    try:
        channel = await client.fetch_channel(channel_id)
    except discord.NotFound:
        print(f"指定されたIDのチャンネルが見つかりません: {channel_id}")
        return
    except discord.HTTPException as e:
        print(f"チャンネルの取得に失敗しました: {e}")
        return
    print(f"チャンネル「{channel.name}」が見つかりました")
    check_updates.start()
        

# ニュースの更新チェック
@tasks.loop(seconds=60)
async def check_updates():
    channel = await client.fetch_channel(channel_id)
    print('Checking for updates...')

    scraper = Scrape()
    html = scraper.scrape("https://genshin.hoyoverse.com/ja/news/")
    new_data = Convert.convert(html)
    checker = UpdateCheck()

    # 新しい更新がある行のみを取得
    updates = checker.check_for_updates('data_prev.csv', new_data)
    
    if not updates.empty:
        # 新しいデータをCSVファイルに保存 (次回更新チェック用)
        new_data.to_csv('data_prev.csv', index=False)

        # Discordに埋め込みメッセージとして送信
        for index, row in updates.iterrows():
            embed = discord.Embed(
                title=row['Title'],
                url=row['URL'],
                description=row['Summary'],
                color=0x00bfff)
            embed.set_image(url=row['Cover Image'])
            await channel.send(embed=embed)
    else:
        print("No updates")

# Botのトークンを環境変数から取得して実行
client.run(token)

正直、しっかりとPythonのプログラムを書いたことなんてほとんど無かったので、調べて書いて試して直して……の連続だった。

動作テスト

botがちゃんと動くか試していく。

まずはニュースの取得・更新検知が上手く動くか。
こんなコードを追加して実行してみた。

# テスト用
if __name__ == "__main__":
    url = "https://genshin.hoyoverse.com/ja/news/"
    html = Scrape.scrape(url)
    new_data = Convert.convert(html)

    checker = UpdateCheck()
    updates = checker.check_for_updates(os.path.abspath('data_prev.csv'), new_data)

    if not updates.empty:
        print(updates["Title"])
    else:
        print("新着記事なし")

    new_data.to_csv(os.path.abspath('data_prev.csv'), index=False)

お、取得できてるっぽい。

コンソール画面。新着記事のタイトルが出ている

取得したデータを書き込むCSVファイルにも、必要な情報が適切にまとまっている。

ではbotを動かしてみる。

こんな感じで埋め込みメッセージとして送信されてきた。

試しに「前回取得データ」のCSVファイルの一部を消してみても、新たに更新された分と比較されて、消した部分の記事だけ通知してくれた。

よっしゃ!これで問題ないで〜〜!!!

実際に稼働

Discordのbotを動かすためには、インターネットに繋がったPC上でbot本体のプログラムを走らせる必要がある。

今回は、自宅にある小型PC (Ubuntu 20.04) を使って動かすことにした。
ちなみにこのPCは普段はMinecraftのゲームサーバーとして動かしているので、その空きリソースを間借りする感じになる。

このプログラム自体に外部からのリクエストが飛んでくるわけではなく、トークンによって外部APIとやりとりするだけなので、ポート開放やファイアウォールの設定を特別に行う必要はない (と思う)。

そういうわけで、実行環境も整えてプログラムファイルなども移したので、いざ実行してみた。


動かない。


詳細は後述するが、うまく動かない。どうして……。

といったところまでが、ここ1週間ほどの成果となった。
現在も問題解決に向けて奮闘しているところだ。

制作中にトラブったことや今後の課題について、以下にまとめていく。

開発中にトラブったこと

botがチャンネルを取得しない

メッセージを送信するためのチャンネルを指定しても、チャンネルの取得がうまくいかなかった。もちろんチャンネルIDの確認は何度もしている。

いろいろな解説では get_channel() 関数を用いてチャンネルを取得することが書かれているが、今回は以下のように記述することでチャンネルの取得ができた。

channel = await client.fetch_channel(channel_id)

もしかしたら非効率だったりで推奨されない書き方かもしれないが、ひとまずこれで動作したということで。

また、原因の切り分けのために、botが送信先チャンネルを取得してからメインの機能を実行するようにしておくといいと思う。上記のプログラムではそのようにしている。

英語版のページを拾ってくることがある

これについては以下のように、ChromeDriverに日本語のオプションをつけることで改善されるらしい。

options = Options()
        options.add_argument('--lang=ja-JP') # 日本語ページを指定

現状はこれで上手く行っているように見えるので経過観察中。

環境変数が読み込まれない

.env ファイルに記載した環境変数を変更しても、プログラム内では値が変更前のまま変わっていない現象に遭遇した。

おそらくキャッシュのようにプログラムのほうで値が残っているのだろうが、その際は環境変数を読み込む際に

dotenv.load_dotenv(override=True)

というオプションをつけることで強制的に .env から読み込ませることができた。

今後の課題

botがニュースの更新をうまく取得できていない

最大の課題である。プログラム単体 (get_latest_news.py) を動作させたときにはきちんとデータを取得し、差分比較で更新を検知できているのだが、botを起動して走らせると上手く動作しない。

未だに有効な解決策が見つかっていないので、原因を探っているところだ。
ここさえできていればもうちょっと堂々と記事をかけたのに

botを動かすサーバーの管理

現在は自宅の小型PCのUbuntu上でbotを動作させているが、セキュリティ面 (サーバーへのアクセス方法など) や保守面 (停電対策・再起動など) については甘い部分だらけだと思う。

ネットワーク周りやUbuntuに関しての知識をつけつつ、安全に運用できるようにしていかなければならない。

謝辞

今回のプログラム作成にあたっては、LLMのチャットボットが大きく貢献してくれた。エラーから原因・解決策を提案してくたり、コードのリファクタリングの手伝いをしてくれたりと、専属のコーチのように助けてくれた。
利用したサービスは リートンという国産サービスで、GPT-4 Turboを無料で使うことができた。

また、botの作成をしていることを話したところ、アイコンのために素晴らしいイラストを描いてくれた友人Nくんにも深く感謝したい。
ちなみに原神のニュースの更新通知ということで、記者のシャルロットをモチーフにすることもこの会話の中で決まった。

かわいい。かわいい。kawaii

この素晴らしいアイコンを活かすためにも、安定した動作ができるようプログラムの改善を続けていかなければならない。

いいなと思ったら応援しよう!