Toshiyuki Matsuura

経済学の研究者。専門は国際経済学、応用ミクロ計量経済学。

Toshiyuki Matsuura

経済学の研究者。専門は国際経済学、応用ミクロ計量経済学。

最近の記事

[Rによるデータ分析入門]正誤表

拙著「Rによるデータ分析入門」に誤植が見つかりましたので訂正します。 2024年9月22日更新 P. ⅳ 9行目 (誤)高野祐介 (正) 高野佳佑 第1章 RとRStudioの基本動作 P.27 6行目 "tableone"は一つ不要(動作上は問題ありません) 第2章 統計表の作成 P.65 下から11行目 誤)1um千円 正)1千円 第3章 回帰分析 P.73 上から7行目 誤)傾き:$${\hat{b}=}$$ 正)傾き:$${\hat{\beta}=}$$

    • [Rによるデータ分析入門]Chat GPTによるエラー対処法

      本コラムはRによるデータ分析入門のWEBサポートとして作成されています。 Chat GPTによるエラー対処法について紹介します。たとえばtidyverseをインストールしたのにlibrary()で呼び出そうとするとエラーが発生しました。 Chat GPTに質問してみました。

      • [Rによるデータ分析入門]ggplotによる図の作成(3):Chat GPTの活用

        本コラムはRによるデータ分析入門のWEBサポートとして作成されています。 本コラムではggplot2で回帰分析の係数使ったグラフの作成方法を紹介します。推計結果をもとにChat GPTで図を描くスクリプトを作成しています。ggplot2の基本的な使い方を知りたい方は以下を参照してください。

        • [Rによるデータ分析入門]データ読み込みのトラブルシューティング

          本コラムではRでデータ読み込む際に生じうるいくつかのトラブルの解決策を紹介します。 桁の大きな数値が入ったCSVファイルを読み込むと文字列として認識されてしまう 桁の大きな数値が入ったデータをCSVファイルに変換し、Rで読み込もうとすると文字列として認識されることがあります。次の例は、世界銀行のWorld Development Indicatorから取得した世界各国のGDPのデータでCSVファイルに変換してあります。たとえばE+11は10の11乗で、一見数値が入っている

          [Rによるデータ分析入門]イベントスタディ型差の差の分析(1)

          本コラムでは、イベントスタディ型の差の差(DID)の分析を紹介します。 問題意識 差の差の分析では、イベントが発生する(処置が始まる)と、イベント(処置)の影響を受ける処置群の成果指標Yが変化し、影響を受けない比較群Yと乖離が生じるので、この差を計測しようとする分析です。通常の差の差の分析では、暗黙の仮定として、イベントが発生すると即座に効果が現れ、また、その効果は一定のまま持続すると想定されています。 しかし、図2のように実際にはイベント発生の効果が顕在化するまでに時

          [Rによるデータ分析入門]イベントスタディ型差の差の分析(1)

          [Rによるデータ分析入門]欠損値処理方法のまとめ

          本コラムではRで欠損値を処理するための関数やtipsをまとめています。 欠損値とは何か データセットの中の数値が入っていない個所を欠損値といいます。たとえばEXCELで作成したデータセットで空欄になってところがあると、これをRで読み込ませるとNAと表示されます。NAはNot Avaiableの意味です。 欠損値かどうか判定する関数:is.na() 欠損値かどうかを判定するにはis.na()関数が使えます。is.na(x)でxが欠損値のとき真となり、欠損値でない場合は儀

          [Rによるデータ分析入門]欠損値処理方法のまとめ

          [Rによるデータ分析入門]merge関数の使い方

          本コラムはRによるデータ分析入門のWEBサポートとして作成されています。 本コラムはRで2つのデータフレームを接続するmerge関数の使い方、注意事項について説明します。データの接続は、小さなデータであればEXCELで作業すれば済みますが、大規模データの場合、EXCELではものすごく手間がかかりますし、手作業ですのでどこかでミスが起こりかねません。そのようなときにはRのmerge関数が便利です。 基本的な使い方と注意事項 たとえば以下のような2つのデータフレームobj1

          [Rによるデータ分析入門]merge関数の使い方

          [Rによるデータ分析入門]対数による回帰分析でエラーが出るときの対処法

          Rで変数に対数をとって回帰分析する際にエラーが出る場合があるのですが、本コラムではその対処方法について説明します。 そもそも回帰分析でなぜYとXに対数をとるの?という疑問については、様々なWEB記事で紹介されていますが、特に以下のコラムを一読することをおすすめします。 はじめに Rで変数に対数をとって回帰分析する、今、データフレーム名がdataf, 被説明変数がY、説明変数がXのときにlm(log(Y)~log(X),data=dataf)を実行した際にエラーが出て進め

          [Rによるデータ分析入門]対数による回帰分析でエラーが出るときの対処法

          [Rによるデータ分析入門]離散選択モデルの様々(3):ヘーキットモデル

          ヘーキット・モデルとは、被説明変数が観察されるのが一部、というような状況に用いられるモデルです。本コラムでは、数学的な説明は計量経済学のテキストに譲り、できるだけ直感的な説明でヘーキットの意義について説明した後、Rにおける推計方法を紹介します。 なお、このシリーズを通しで読みたい方は以下を参照してください。 ヘーキットの直感的な意義 たとえば、健康状態と賃金の関係を考えてみましょう。今、データには健康状態が悪くて非就業の人と健康状態が良くて就業している人が含まれていると

          [Rによるデータ分析入門]離散選択モデルの様々(3):ヘーキットモデル

          [Rによるデータ分析入門]離散選択モデルの様々(5):生存分析

          本コラムは「離散選択モデルの様々」では、 (1)多項ロジット・モデル (2)順序ロジット・モデル(Ordered Logit Model) (3)ヘックマンの二段階推定モデル (4)カウント・データ を紹介してきましたが、(5)では生存分析で使われるKaplan-Mayer生存曲線の推計とCox比例ハザードモデルを紹介します。(1)~(4)を読みたい人は以下のリンクを参照してください。 生存分析, Survival Analysisとは 生存分析とは、元々、疫学や生物学分

          [Rによるデータ分析入門]離散選択モデルの様々(5):生存分析

          [Rによるデータ分析入門]離散選択モデルの様々(4):カウント・データ

          本コラムは「離散選択モデルの様々」では、 (1)多項ロジット・モデル (2)順序ロジット・モデル(Ordered Logit Model) (3)ヘックマンの二段階推定モデル を紹介しましたが(4)ではカウント・データに用いるポワソン回帰モデル、負の二項分布モデルを紹介します。 カウントデータとは カウントデータとは、営業マンの契約成約件数や、患者の通院回数 ・連続変数だければどゼロまたは正の整数しかとならい ・ゼロが多い といったデータを分析する際に使用します。 使用

          [Rによるデータ分析入門]離散選択モデルの様々(4):カウント・データ

          [Stataによるデータ分析入門]正誤表

          「Stataによるデータ分析入門」第3版における修正箇所をお知らせします。なお、本コラムは、Stataによるデータ分析入門第3版のWEB補論として用意されました。 2024/11/20 改訂 第2刷対応箇所 167下から2行目 「次のような3つのダミー変数を導入した回帰式を推定します。」に以下の脚注追加 「なお、この回帰式と差の差の分析の推定量の関係については、WEB Appendixを参照してください。」 リンクはこちら 第3刷対応箇所 P.104 1行目 &  (

          [Stataによるデータ分析入門]正誤表

          [Rによるデータ分析入門]離散選択モデルの様々(2):順序ロジット・プロビット・モデル

          本コラムは(1)では多項ロジット・モデルを紹介しました。(2)では、多項選択モデルの一種である順序ロジット・モデル(Ordered Logit Model)を紹介します。 順序ロジット・モデルとは 順序ロジット・モデルは、被説明変数が、1. 強くそう思う、2.どちらでもない、3. そうは思わない、のように順序を持つ選択肢になっている変数を扱うモデルです。アンケート調査などでは、このような選択肢が用意されていることがよくあります。この変数を通常の最小二乗法で分析すると、第4

          [Rによるデータ分析入門]離散選択モデルの様々(2):順序ロジット・プロビット・モデル

          [Rによるデータ分析入門]ggplotによる図の作成(2)

          本コラムではRのグラフ描画パッケージgglot2の使い方を紹介します。Rではtidyverseパッケージに含まれるggplot2パッケージを使うことで綺麗なグラフを描くことができます。第2回は、折れ線グラフの作成方法を紹介します。 なお第1回は以下を参照してください。基本的な使い方と散布図の作成方法について紹介しています。 下準備 ここでは2022年の年齢階級別学歴別男女別賃金データであるwage-census2022.csvを使います。データとスクリプト例は以下からダ

          [Rによるデータ分析入門]ggplotによる図の作成(2)

          [Rによるデータ分析]GIS情報の取り扱い(2)

          本コラムではGIS情報の活用について説明します。GISとはGeography Information Systemの略で、緯度経度情報などを数値解析するシステムです。第2回は、ちょっと試してみようということで不動産賃貸物件の住所情報を緯度経度に変換し、ここから計算した距離を回帰モデルの説明変数として導入してみましょう。事例としては、英語ではNIMBY(Not In My Backyad) とよばれる「必需品だが自分の近隣には来てほしくない施設」の存在が賃貸料に及ぼす影響につい

          [Rによるデータ分析]GIS情報の取り扱い(2)

          [Rによるデータ分析入門]変量効果モデルと相関変量効果モデル(3)

          本コラムでは、変量効果モデルがなぜ使われなくなったかについて説明した(1)と、変量効果モデルの問題点を克服する相関変量効果モデルについて紹介した(2)の内容を受けてRで変量効果モデルと相関変量効果モデルを推計する方法について説明します。(1)と(2)の内容を確認したい人は以下を参照してください。 下準備 今回使用するパッケージは、{tidyverse}, {plm}, {modelsummary}, {wooldridge}、比較のため{fixest}も使用します。予めイ

          [Rによるデータ分析入門]変量効果モデルと相関変量効果モデル(3)