時系列データから所得の不平等の指数を推定する新たな統計手法を考案 従来よりも安定的な推定に加え、将来予測も可能に
千葉大学社会科学研究院の小林弦矢准教授の研究グループ(千葉大学グローバルプロミネント研究基幹次世代研究インキュベータ「小地域」)は、ローレンツ曲線やジニ係数といった所得の不平等を表す指数を推定する新たな方法を考案しました。所得階級ごとの所得シェアについて蓄積されたグループデータを時系列データとして扱い、それを基に考案された状態空間モデル(注1)を用いる本研究の方法では、従来の方法よりも不平等の指数を安定的に推定できる上に将来予測を行うことも可能になっています。
本研究成果は2021年2月2日 にJournal of Business & Economic Statisticsよりオンライン公開されました。
本研究成果は2021年2月2日 にJournal of Business & Economic Statisticsよりオンライン公開されました。
- 研究の背景:ローレンツ曲線、ジニ係数とは
図1左では3つのローレンツ曲線とジニ係数が示されています。ローレンツ曲線が45度線のときには全員の所得が同じである全く「平等」な場合を示し、「不平等1」と「不平等2」のローレンツ曲線は母集団において所得が不平等である場合を示しており、 「不平等2」のほうが「不平等1」よりも格差の度合いが大きいことを示しています。
このようなローレンツ曲線は、所得についての個票データが得られる場合には精確に推定することができますが、個人の特定を避けるなどといった観点から所得の個票データは利用することができません。代わりに、所得階級ごとの所得シェアに関する情報(グループデータ)をもとに、確率モデルをもとにした統計手法により推定されています(図1右)。
既存の研究では、例えば単一の地域や時点(国による毎年の調査など)ごとに独立に所得分布やローレンツ曲線を推定することを想定した統計手法のみが考えられてきましたが、推定結果がとても不安定で不確実性が大きいという問題がありました。それに対して本研究では、データの蓄積によってグループデータを時系列データとして扱うことで、ローレンツ曲線のモデルパラメータやジニ係数のような指標を安定的に推定できないかと考え、新しい統計モデルを考案し、さらに日本の家計調査データに当てはめて検証しました。
- 研究成果
この提案手法を日本の家計調査データ(5階級)(注2)に適用し、2000年1月から2018年12月のデータをモデル推定に使用しました。さらに2019年1月から2020年8月までのデータについて予測をし、モデル比較のための検証を行い、本データにおける予測パフォーマンスのよさから適した確率分布やローレンツ曲線の関数型モデルの比較を行いました。(詳説②)
パラメータの推定結果については、提案手法のほうが、不確実性を大幅に減らすことができることが確認できました。図2は同データを基に算出した、あるローレンツ曲線の関数型モデルにおける曲線の形状をコントロールする2つのパラメータとそれに付随するジニ係数の推定値(事後平均、黒線)と不確実性(95%信用区間、灰色のエリア)で、左側が従来の手法で推定した場合、右側が提案手法で推定した場合です。図からわかるように、提案手法での結果のほうが推定値の推移がよりなめらかで不確実性が低くなっています。
図3はもっとも当てはまりのよかったローレンツ曲線の関数型モデルのもとでの、提案手法のもとでの各所得階級の所得シェアとジニ係数の推定結果です。各階級を見てみると、変動はあるもののおよそ2010年以降、下位ふたつの階級の所得シェアが若干の増加傾向にあるのに対して、上位ふたつの階級のシェアが相対的に減少傾向にあると読み取れ、それに関連してジニ係数が少しずつ低下傾向となっています。これは2008年の金融危機あるいは2011年の東日本大震災以降の日本において、不平等の度合いが少しずつ小さくなる傾向にあるという結果を表しています。
- 今後の展望
- 詳説
グループデータとして所得階級 𝑘=1、…、𝐾 の所得シェア 𝑞𝑡𝑘 が時点 𝑡=1、…、𝑇 まで観測されているとします。本研究では所得シェアの期待値(平均)が隣り合う所得階級の閾値でのローレンツ曲線の値の差に等しいと仮定します:𝐸[𝑞𝑡𝑘]= 𝐿 (𝑝𝑡𝑘|𝜃𝑡)− 𝐿(𝑝𝑡,𝑘-1|𝜃𝑡)。ここで 𝐿 (𝑝𝑡𝑘|𝜃𝑡) は人口シェア 𝑝𝑡𝑘 におけるローレンツ曲線で 𝜃𝑡 はローレンツ曲線のパラメータ(観測されない、時間によって変化する)を示します。ここでの特徴はローレンツ曲線のパラメータが毎期変化することを想定しています。このような所得シェアに関する仮定に対応する確率分布としてディリクレ分布(注3)を用い、時変パラメータを時系列構造に従うとする状態空間モデルを考案しました。時間方向にデータの情報を借り合うことでモデルパラメータの推定が安定化し、時系列構造により予測ができるようになりました。
②日本の家計調査データを用いての最適なモデルの検証
ディリクレ分布は要素間の共分散構造が制約的であるため、柔軟性を求めるために一般化ディリクレ分布のひとつ(以下FD分布)に基づいたローレンツ曲線推定のための状態空間モデルも考案しました。日本の家計調査データを用いた検証において、複数のローレンツ曲線のモデルをディリクレ分布およびFD分布の状態空間モデルに適用したところ、このデータにおいては予測パフォーマンスのよさからより柔軟なFD分布と一般的で柔軟な形状を表現できるローレンツ曲線を用いたほうがよいということもわかりました。
- 用語説明
注2)日本の家計調査データ:https://www.stat.go.jp/data/kakei/index.html(総務省統計局ホームページ)
注3)ディリクレ分布:シェア率などといった、0から1までの値をとり、合計値が1となるような確率ベクトルに対する確率分布のひとつ。
- 論文情報
論文タイトル:Bayesian approach to Lorenz curve using time series grouped data.
掲載誌:Journal of Business & Economic Statistics
DOI:https://doi.org/10.1080/07350015.2021.1883438
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザーログイン既に登録済みの方はこちら
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像