日本人の名字の統計解析

千田敏、間瀬茂
東京工業大学大学院情報理工学研究科


以下の内容は千田敏君の2004年度学士論文を、間瀬が改訂したものです。



Zipf分布とYule分布


有限もしくは無限のカテゴリからなる集団に対し、各カテゴリのサイズとランクの関係、 ランク−サイズ関係、を考える。様々な分野のデータに付いて、ある実数 $ a>0$ が存在して

(ランク)$ ^a \times$   サイズ$ =$一定    

というランク―サイズ関係が成り立つことが、これまで報告されてきた。たとえば、1冊の本に含まれる 単語の数 [13]、アメリカの都市の人口 [13]、ウェッブページに 貼らたリンクの数 [1] などで印象的な例がみられる。これを最初に提唱した アメリカの言語学者 George K. Zipfに因みZipfの法則と呼ぶ、[15]。

Zipfの法則は確率関数として表せば、順位 $ x=1,2,\ldots$ に対する確率が

$\displaystyle f_{\rm {Z}}(x;\ a) = C/x^a$ (1)

となることを意味する。ここで正規化定数 $ C$ はツェータ関数 $ \zeta(a)$ の逆数である。 これをZipf分布と呼ぶ。この確率関数が全ての順位で意味を持つためには $ a>1$ である必要があるが、 Zipfが最初に提唱した形では $ a=1$ であり、有界な順位でしか意味を持たない。Zipf分布の確率関数は両対数 グラフで表現すれば、傾き $ -a$ の直線 $ \log y = -a\log x + \log C$ となる。アメリカ、中国、イギリスの マン島における名字の分布に対してZipf分布を当てはめた例がある、 [2]。それらによれば、 Zipf分布は部分的には良い当てはまりを示すものの、全体としての当てはまりは必ずしも良くない。

間瀬 [9] は、名字データへのあてはまりをよくするために次の修正型Zipf分布を提案した

$\displaystyle f_{\rm {mZ}}(x;\ a,b,c) = C \frac{c^x}{(x + b) ^a},\quad 
 C^{-1} = \sum_{x = 1}^{\infty} \frac{c^x}{(x + b)^a} .$    

この確率分布は、$ c < 1$ ならば $ 0 < a \leq 1 $ であっても意味を持つ。とくに $ c=1$ の場合は Zipf-Mandelbrot 分布と呼ばれている。間瀬 [9] は、より稀な名字のサイズの予測を目的として、 生命保険会社による日本の名字上位200位のサイズデ−タに対して、修正型Zipf分布によるあてはめを行った。

Zipf分布の連続型はPareto分布と呼ばれ、経済学でしばしば企業のサイズの分布等として登場する。 Zipf分布およびPareto分布に関しては、様々な一般化が提案されており、渋谷に よる総合報告 [3] に詳しい。しかしながらZipf分布が様々な分野のデータの近似分布 として登場する理由に付いては、幾つかの理論があるものの、結局の所、経験的事実と述べておくのが適当と思われる。 Zipf分布を様々なデータにあてはめた研究によると、しばしば上位幾つかのあてはまりが悪いことが 報告されている。

Zipf分布と双対的な分布がYule分布である。Zipf分布がサイズの大きいカテゴリのランクの 分布とすれば、逆にサイズが小さい稀なカテゴリーの頻度(サイズ―頻度関係)に着目する。サイズが丁度 $ x$ であるカテゴリーの頻度分布として、次のYule分布が用いられることがある

$\displaystyle f_{\rm {Y}}(x;\ a) = x^{-1/a} - (x + 1)^{-1/a},\quad x=1,2,\ldots.$ (2)

パラメータ $ a$ は正でありさえすれば良い。$ 1/a$ の形のパラメトライゼーションは、Zipf分布とYule分布の 双対性を考慮してのものである。Yule分布もZipf分布と同様に、$ a\simeq 1$ ならば、両対数グラフを 取るとほぼ直線状となる(図 1)。

Figure 1: $ a=1$ のYule分布の確率関数のグラフ。右はその両対数グラフ
\includegraphics[
bb=154 277 442 565,
trim=30 40 25 40, % 左下右上(この順)か...
...奪width=0.48\linewidth,
%height=0.45\textheight,
clip, clip]{yule.eps} \includegraphics[
bb=154 277 442 565,
trim=30 40 25 40, % コクイシアヲセこの順)か...
...
width=0.48\linewidth,
%height=0.45\textheight,
clip, clip]{yulelog.eps}

注意:(1) と (2) は区別されず Zipf 分布と呼ばれたり、Zipf の 第一法則、第二法則と区別されることがある。 渋谷 [3] では、確率分布 (2) は $ a=1$ の時は単にZipf分布、一般の $ a$ ではZipf-Mandelbrot分布とされ、逆にYule分布は次の形の確率分布のこととされている

$\displaystyle f(x) = \alpha (x-1)!/(\alpha+1)^{\bar{x}}.$    

(1) と (2) のどちらか、もしくは双方をYule分布と呼ぶ文献もあり、 混乱している。この論文では便宜上、(1) をZipf分布、(2) をYule分布と 呼び区別することにする。文献 [13] ではジェームス・ジョイス著『ユリシーズ』 に登場する語彙にYule分布および Zipf分布が良く当てはまることが紹介されている。こうした事情が 言語学者が Zipf, Yule 分布に関心を寄せてきた理由であるが、全ての小説の語彙が良い当てはまりを 示すわけではないことも指摘されている。


Zipf分布とYule分布の双対性


Zipf分布とYule分布は多数のカテゴリからなる大規模集団に対する、それぞれ、瀕出するカテゴリと、 稀なカテゴリに対する分布であり、意味的にもなんらかの双対性が予想される。しかし、実際にはランクに多くの タイが出現したり、全ての頻度 $ i=1,2,\ldots$ に対して対応するカテゴリが存在するわけではない。こうした 事情から、両者の関係を理論的に厳密なレベルで解析することは困難である。この節では、参考のために、 直感的なレベルで両分布の双対性を示してみたい。

まず、 $ f(i)=C/i^a$, $ i=1,2,\ldots$ をパラメータ $ a>1$ のZipf分布とする。十分大きなデータ数 $ N$ に付いて ランク $ i$ のカテゴリの総数はほぼ $ NC/i^a$ となる。逆に総数がそれぞれ $ n$,$ n+1$ であるランクの順位を それぞれ $ j$, $ k$ とすれば近似的関係 $ n \simeq NC/j^a$ $ n+1 \simeq NC/k^a$ が成り立つ。つまり、ほぼ $ j \simeq (NC)^{1/a}/n^{1/a}$, $ k \simeq (NC)^{1/a}/(n+1)^{1/a}$ が成り立つ。これより頻度が $ n$ であるカテゴリの 総数はおおよそ $ k-j\simeq (NC)^{1/a}(n^{-1/a}-(n+1)^{-1/a})$ と見積もられる。これはYule分布に他ならない。

逆に、カテゴリのランクの分布が単調減少な連続関数 $ f(x)$, $ x>0$ を用いて、$ f(i)$, $ i=1,2,\ldots$ と 表されていると仮定する。直前と同じ状況を考えると近似的関係 $ j\simeq f^{-1}(n/N)$, $ k\simeq f^{-1}((n+1)/N)$ が成り立つ。従って、頻度が $ n$ であるカテゴリの総数 $ k-j$ はほぼ $ f^{-1}(n/N) - f^{-1}((n+1)/N)$ となる。 もしこれがYule分布に従うと仮定すれば、結局、ある共通定数 $ D$ があり、近似的関係

$\displaystyle f^{-1}(n/N) - f^{-1}((n+1)/N) \simeq D (n^{-1/a} - (n+1)^{-1/a},\quad n=1,2,\ldots$    

が成り立つことになる。従って、更に

$\displaystyle f^{-1}(n/N)$ $\displaystyle \simeq \sum_{i\geq n} (f^{-1}(i/N) -f^{-1}((i+1)/N))$    
  $\displaystyle \simeq \sum_{i\geq n} (Di^{-1/a} - D(i+1)^{-1/a})$    
  $\displaystyle \simeq D n^{-1/a}$    

が導かれる。つまり、 $ x=D n^{-1/a}$ の形の実数に対して

$\displaystyle f(x) \simeq \frac{D^a}{N} x^{-a}$    

となる。これは Zipf 分布に他ならない。


名字データ


この論文では、現在入手可能な最大の日本人の名字データにZipf分布とYule分布の当てはめ を試みる。日本人の名字データに関する調査は、長く民間研究家による名簿等からの種類・総数の調査 が主なものであった。柳田国男は名字総数を約8万と見積もっていたという。 その集大成ともいうべき丹羽 [8] には全部で291,531 種類の苗字が収録されている。但し、これは読みの違いや、漢字表記の微妙な違いも、全て異なるとして 数えたものである。電子計算機による事務処理の進展に伴い、生命保険会社等の顧客データから名字の 種類と頻度の集計結果が公開([6])されるようになった。更に、1990年代に入り、NTTの電話帳を電子化 したCDROMが商品化されると、それから名字の種類と頻度を悉皆集計する試みが行われた。 この論文では、そうした集計結果の代表例二つを併用したデータを使用する。その 一つは村山 [11] で紹介されているランクが30,000位までの名字の度数データであり、 今一つは須崎 [4] が電子電話帳と個人ウェッブサイトで収集・集計したデ−タの内、該当世帯数が 100以下の名字の件数データである。この二つを併用することにより、総計 29,727,887 世帯、名字の総数で 99,466 種類という基礎データを得た。

注意:名字は苗字、姓、氏と呼ばれることもある。歴史的起源からいえば、それぞれ意味が異なるらしいが、 この論文では主として名字で統一する。現在でも法律用語としては「氏」が用いらる。

NTT の電話帳や、その電子版を名字データのソースとして利用する際、問題となる幾つかの点がある。 何よりも、これは文字通りには全国の名字母集団からの無作為抽出とはみなせない。但し、特定の名字の 所有者が、電話帳への記載を好む、もしくは拒否するという事情は、特に特殊な名字を除き考えにくいので、 この点は大きな問題にはならないと思われる。その他注意すべき点を、名字研究家の森岡浩氏のウェッブページ を参考にまとめると

電子電話帳による集計では、同じ漢字表記を持つ名前は、読み方が異なっても、同一(起源)とすることが普通のよう である。例えば『東海林』は『しょうじ』とも『とうかいりん』とも読むが、同一とされている。これは、 電話帳への記載順序を見ればある程度区別可能であるが、『山崎』(やまざき、やまさき)のように微妙な違い のものも多く、きりがないという [11]。一方、『阿部、安倍、阿倍、安陪、安部』などのように、 読みが同じでも漢字表記や字体が異なるものは、別々に数えている。 多出姓のサイズを、そのランクに対してプロットすると図 2のようになる。

Figure 2: 多出姓の世帯数 $ y$ と順位 $ x$ のグラフ(左)とその両対数グラフ(右)
\includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...dth=0.45\linewidth,
%height=0.45\textheight,
clip, clip]{ranksizedata.eps} \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...idth=0.45\linewidth,
%height=0.45\textheight,
clip, clip]{ranksizelog.eps}

稀な名字の該当世帯数と件数をプロットすると図3のようになる (世帯数300までを付録に紹介する)。

Figure 3: 希な名字の世帯数 $ x$ と件数 $ y$ のグラフ(左)と両対数グラフ(右)
\includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...
width=0.45\linewidth,
%height=0.45\textheight,
clip, clip]{yuledata.eps} \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...idth=0.45\linewidth,
%height=0.45\textheight,
clip, clip]{yuledatalog.eps}


順位デ−タへのZipf分布のあてはめ


順位で 1,000 位までの名字の世帯数に、(1)式のZipf分布を最小自乗法を用いて当てはめてみる。 すなわち、順位が $ i$ 位であるような世帯数 $ X_i$ の比率 $ x_i$ について、誤差の自乗和

$\displaystyle S = \sum_{i = 1}^{99,466} ( x_i - f_{\rm {Z}}(i;\ a) )^2$    

を最小にする $ a$ を求める。最小自乗推定量は $ \widehat{a} = 0.623$ となった、図 4
Figure: 1,000 位までの世帯数へのZipf分布のあてはめ。 $ \widehat{a} = 0.623$, $ R^2 = 0.960$
\includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...
width=0.8\linewidth,
%height=0.45\textheight,
clip, clip]{zipffita.eps}
決定係数の値とグラフの様子から、よく当てはまっていると考えられる。しかし $ \widehat{a} < 1$ であるため、 (1) は密度関数とならないことを注意する。

表 1と図 5は順位 1,000位 までと、それ以上の順位に別個に Zipf分布を当てはめた結果である。従来の名字デ−タへの解析でしばしば注意されて来た、Zipf 分布の広範囲での 当てはまりの悪さを確認する結果となっている。

Figure 5: Zipf分布のあてはめ(左)とその相対誤差(右)。順位1,000位まで(上)と、1,000位以降(下)
\includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...idth=0.48\linewidth,
%height=0.45\textheight,
clip, clip]{zipffitalog.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...th=0.48\linewidth,
%height=0.45\textheight,
clip, clip]{zipffitaerror.eps}
\includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...h=0.48\linewidth,
%height=0.45\textheight,
clip, clip]{zipffitalogaft.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...0.48\linewidth,
%height=0.45\textheight,
clip, clip]{zipffitaerroraft.eps}



Table 1: Zipf分布のパラメータの最小自乗推定量と決定係数
  $ \widehat{a}$ の値 決定係数
順位1,000位まで $ 0.6229$ $ 0.9649$
順位1,000位以降 $ 1.450$ $ 0.9980$

次に、全順位範囲に修正型Zipf分布 ([*]) をあてはめてみる。修正型Zipf分布は $ c < 1$ ならば 確率分布となることが保証されるため、最尤法を用いる。つまり、対数尤度

$\displaystyle L(a,b,c) = \sum_{i = 1}^{99466} x_{i}\log f(i;\ a,b,c)$    

を最大にするパラメータを求める。統計解析システム R [14] の汎用最適化関数 optim を用いた 最適化により、最尤推定値は

$\displaystyle (\widehat{a},\widehat{b},\widehat{c}) = (0.9789, 5.883, 0.9999)$    

となった。図 6から分かるように、 より広い範囲での当てはまりが確認できる。
Figure 6: 修正型Zipf分布の当てはめ(左)、両対数グラフ(中央)、相対誤差(右)
 \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...
width=0.32\linewidth,
%height=0.45\textheight,
clip, clip]{mzipffit.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...idth=0.32\linewidth,
%height=0.45\textheight,
clip, clip]{mzipffitlog.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...th=0.32\linewidth,
%height=0.45\textheight,
clip, clip]{mzipffiterror.eps}  


希少姓デ−タへのYule分布のあてはめ


次に、稀な名字の世帯数と件数のデータにYule分布 (2)) を当てはめみる。 世帯数が20以下を含む当てはまりは良くなく、世帯数20件以上1,00件以下の部分に条件付きYule分布

$\displaystyle f_{\rm {Y:20}}(x) = 20^{1/a} \bigl( x^{-1/a} - (x + 1)^{-1/a} \bigr), \quad x = 20,21,\ldots$ (3)

を最尤推定法で当てはめてみる。最尤推定量は $ \widehat{a} = 1.633$ となった。 図 7より、20世帯以上では比較的良い当てはまりが確認できる。しかし、同じパラメ−タを 用いたYule分布を世帯数19以下を含む全体で考えると、データとの乖離が無視できなくなることが分かる。
Figure: 20世帯以上の稀な名字への条件付きYule分布の当てはめ(上左)。
20世帯以下を含むYule分布の当てはめ(上左)とその両対数グラフ(下左)
および絶対誤差(下右)
 \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...ト
width=0.48\linewidth, %height=0.45\textheight,
clip, clip]{yulefita.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...width=0.48\linewidth, %height=0.45\textheight,
clip, clip]{yulefita1.eps}  
 \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % コクイシアヲセこの順)か...
...
width=0.48\linewidth, %height=0.45\textheight,
clip, clip]{yulefitalog.eps}  \includegraphics[
bb=118 241 478 601,
trim=30 40 10 50, % 左下右上(この順)か...
...width=0.48\linewidth, %height=0.45\textheight,
clip, clip]{yulefitaerror.eps}  


日本の名字の総数の推定


今回用いたデータの総数は29,727,887世帯である一方、2000年度国勢調査 [5] による日本の総世帯は47,062,743件であり、およそ1,700万件の世帯が電話帳に記載されていないこ とになる。従って、電話帳に1件しか記載されていない名字でも、実際には2世帯以上存在する可能性 があり、電話帳に1件も記載されていない名字も存在する可能性がある。 電話帳にちょうど $ i$ 件記載されている名字の件数を $ Y_i$、全国にちょうど $ i$ 世帯存在する名字の数を $ X_i$ とする。簡略化のために、各世帯が電話帳に電話番号を記載する確率 $ p$ は、世帯によらず一定であり、互いに独立であるとする。$ p$ の推定値として

$\displaystyle \frac{\text{電話帳記載の総件数}}{\text{日本の総世帯数}} = \frac{29727887}{47062743} 
 = 0.632\cdots$ (4)

を用いる。日本全体で $ k$ 世帯存在するある名字が、電話帳にちょうど $ i$ 件記載される確率は、仮定の下で

$\displaystyle {k \choose i} p^i (1-p)^{k - i}$    

となり、したがって関係

$\displaystyle Y_i = \sum_{k = i}^{454,630} {k \choose i }p^i (1-p)^{k - i} X_k + \epsilon_i$ (5)

が得られる。ここで $ \epsilon_i$ は、実際のデータ $ Y_i$ との食い違いを表す。ここで、全ての $ i$$ Y_i$ そして $ X_i$ は正とは限らないが、少なくとも $ i \leq 300$ では $ Y_i>0$ で、ほぼ単調減少である を注意しておく。

データ $ Y=(Y_1,Y_2,\ldots,Y_n)^t$ を用い、式 (5)) によって、

$\displaystyle X=(X_1,X_2,\ldots,X_n)^t$    

を推定すること試みると、回帰式 $ Y = A_nX + \epsilon$ が得られる。ここで計画行列 $ A_n$

$\displaystyle A_n$ $\displaystyle = \left( \begin{array}{ccccc}
 p & {2\choose 1}p(1-p) & {3\choose...
...s & \vdots & \ddots &\vdots \\ 
 0 & 0 & 0 & \cdots &p^n
 \end{array} 
 \right)$    

である。しかしながら、この線形重回帰式は説明変数と目的変数の数が同じであり、 最小自乗推定値の精度は当然低くなる。更に $ A_n$ $ p= 0.632\cdots$ を代入すると、 例えば $ Y_n = (0.632\cdots)^n X_n + \epsilon_n $$ X_n$ の係数が極めて小さくなり、 $ X_n$ の推定値は一層不安定にならざるを得ない。この問題のように、不完全なデータから 母集団の種類数や稀少種の分布を推定する問題は、個票の開示に関連する問題として研究され ており、一般に解くのが困難であることが知られている、渋谷 [3]。

先の議論から、少なくとも $ Y_{21},Y_{22},\ldots,Y_{300}$ は条件付きYule分布に比較的良く適合 することが分かった。 $ X_{21},X_{22},\ldots$ についても、同じパラメータの条件付き Yule分布が当てはまると仮定することは、合理的と考えられる。回帰式

$\displaystyle Y_i = a_{i1}X_1 + a_{i2}X_2 + \cdots + a_{i300}X_{300} + \epsilon _{i}$    

の項 $ X_{21},\ldots,X_{300}$ $ X_{21} f(i)/f(21),\ldots,X_{21} f(300)/f(21)$ と置き換えると、 説明変数 $ X=(X_1,X_2,\ldots,X_{20},X_{21})^t$ の回帰式

$\displaystyle Y = A^* X + \epsilon$ (6)

を得る。ここで、計画行列 $ A^*=(a^*_{ij})$ は次の成分を持つ $ 300\times 21$ 行列である

$\displaystyle a^*_{ij}$ $\displaystyle = a_{ij},\quad 1\leq i\leq 300, 1\leq j\leq 20,$    
$\displaystyle a^*_{i21}$ $\displaystyle = \frac{1}{f(21)} \sum_{j=21}^{300} a_{ij}f(j),\quad 1\leq i\leq 300.$    

村山・須崎データを用いた回帰結果は表 2、図 8の様になった。 修正済み決定係数は $ 0.994$ となった。但し、制約付きの最小自乗法であるため、修正済み決定係数は制約下での 最小誤差自乗和を用いて計算した。推定値と電話帳データとの差を見てみると、電話帳データ数が 推定総世帯データ数を上回っている箇所があることが観察される。これは、例えば電話帳に1件しか記 載されていない名字が、実際は2世帯以上ある名字に由来する可能性があることによる。

次に、こうして得られた稀少姓の総世帯数に関する推定値 $ X$ から、現存していながら電話 帳に記載されていない名字の種類数 $ Y_0$ を推定する事ができる。丁度 $ i$ 世帯存在する 名字について、$ i$ 世帯全てが電話帳に記載しない行動をとる確率は $ (1-p)^i$ であるから

$\displaystyle Y_0 = \sum_{i \geq 1} (1 - p)^iX_i$ (7)



Table 2: 日本の稀少姓世帯数推定値($ X_i$)と電話帳記載世帯数($ Y_i$)
件数 $ i$ $ X_i$ $ Y_i$ $ i$ $ X_i$ $ Y_i$ $ i$ $ X_i$ $ Y_i$
1 10823.0 12219 18 1310.4 1092 35 453.2 423
2 7766.5 7890 19 1173.3 1006 36 433.4 408
3 5180.2 6232 20 1020.6 981 37 414.9 366
4 4878.8 5243 21 1017.6 848 38 397.6 392
5 4222.6 4440 22 945.6 775 39 381.5 376
6 3876.1 3728 23 881.6 823 40 366.5 349
7 3871.0 3344 24 824.3 750 41 352.3 327
8 2969.5 2840 25 772.8 653 42 339.1 326
9 2606.6 2440 26 726.3 663 43 326.6 301
10 2567.3 2257 27 684.2 650 44 314.8 322
11 2039.6 2012 28 645.9 601 45 303.7 269
12 2037.5 1841 29 610.9 578 46 293.3 264
13 2010.7 1676 30 578.9 541 47 283.4 261
14 1723.2 1436 31 549.6 488 48 274.0 236
15 1565.2 1306 32 522.6 500 49 265.2 258
16 1476.0 1231 33 497.7 467 50 256.7 244
17 1313.6 1147 34 474.6 461      

Figure: 電話帳未記載を含む稀少姓世帯数の推定結果。点線は掲載姓データ。
横軸は世帯数、縦軸は該当姓数の常用対数値
\includegraphics[
bb=0 0 648 648,
trim=20 40 30 10, % 左下右上(この順)から指定...
...
width=0.8\linewidth, % height=0.45\textheight,
clip, clip]{Xrecover1633.eps}

となる。(7) 式に表 2 の値を代入すると $ Y_0 = 5,432$ となる。これにより、電話帳に記載されていない名字の種類数は5,432種類、 現存する名字の種類数は $ 99,466+5,432= 104,898$ 種類と推測される。 仮に $ X$ データと $ Y$ データが同一としてもほぼ同じ値 $ 6023.0$ が得られることを注意しておく。

注意:線形重回帰式(6)を単純に最小自乗法で解くと、負の $ X_i$ 等を含む 無意味な解しか得られない。意味のある解を得るために、拘束条件

$\displaystyle X_i$ $\displaystyle \geq X_{i+1},\quad \quad 1\leq i\leq 20,$    
$\displaystyle 0.8Y_i$ $\displaystyle \leq X_i \leq 1.2Y_i, \quad 1\leq i\leq 21$    

等を課し、R の制約付き最適化関数 constrOptim で解を求めた。


名字の継承と断絶


名字は、親から子供に代々継承されるといういう意味で、正しく文化・社会的遺伝子(meme)の 代表といえる。生物と同様、継承する子供がいなければ、名前は断絶する可能性が常にある。 須崎データに登場する、全国でも数世帯という希少姓はとくに数世代で断絶する可能性が大きいと いえよう。この節では、Galton-Watson 型分枝過程モデルによるシミュレーションにより、将来の 日本における名字の種類数の変化を予測してみたい。

名字の継承という異色の視点から Galton-Watson 型分枝過程モデルを詳しく解説した文献には、 佐藤・瀬野 [2] がある。Galton-Watson 型分枝過程では、一つの創始者世帯を 出発点とし、世代交替毎に名前を継承する次世代の世帯数がランダムに増減すると考える。更に、次の 強い仮定を置く、

シミュレーションにあたっては、Galton-Watson 型分枝過程のパラメータ $ p_k$, $ k=0,1,\ldots$ が必要になる。$ p_k$ は一つの世帯が、その名字を継承する $ k$ 世帯の次世代を持つ確率である。以下では、佐藤・瀬野 [2] で紹介されている 成人男性 10,000 人あたりの出生男子数の分布より $ p_k$ を求めた。これは、結婚平均 持続期間が15〜19年の世帯の出生児数に、出生性比、未婚率を考慮にいれ、 1992年に厚生省 により算出されたものである(表3参照)。

この $ \{p_k\}$ を用いて、初期値を先に求めた全国の稀少姓世帯数推定値とし、シミュレーションを 行った。初期世代の各世帯に関し、世代交替ごとにパラメータ $ \{p_k\}$ による増減を繰り返し、5世代 までの世帯数と名字分布を調べた。シミュレーション結果は表 4のようになった。 総数20世帯までの名字について、5世代後までの予測世帯数を掲載している。1世代後に5千種あまりの名字 が消滅するという結果が注目される。希少姓は存続しにくいという結果は、図 9 から一層はっきりする。


Table 3: 実データに基づいた次世代の名字継承世帯数の分布 $ p_k$
$ k$ 0  1  2  3  4  5  6
$ p_k$ 0.32840  0.38670  0.23760  0.04327  0.00357  0.00030  0.00003

Figure: 稀少姓世帯数の世代毎のシミュレーション結果。一番上のグラフは
現在の稀少姓世帯数推定値、以下世代交替毎にグラフは下降する
\includegraphics[
bb= 0 0 648 648,
trim=30 40 30 10, % 左下右上(この順)から指定量カット
width=0.8\linewidth, % height=0.45\textheight,
clip, clip]{GWsim.eps}



Table: 稀少姓数の世代別変化のシミュレーション結果。5世代後までの世帯数
20以下の名字の数。特に世帯数0は消滅姓の累積数を表す
0 1   2   3   4   5   6   7   8   9   10
現世代 0 10823   7766   5180   4878   4222   3876   3871   2969  2606  2567
1世代後 4644 7275   7186   5533   4606   4127   3708   3380   3054  2561  2398
2世代後 8100 5750   6225   5283   4522   3939   3420   3150   2886  2601  2340
3世代後 10881 4966   5468   4735   4299   3777   3423   3070   2730  2553  2263
4世代後 13357 4264   4819   4387   4054   3475   3233   3005   2711  2399  2246
5世代後 15527 3722   4394   3999   3694   3342   3218   2883   2606  2373  2199
11   12   13   14   15   16   17   18   19   20
現世代 2039   2037   2010   1723   1565   1475   1313   1310   1173   1020
1世代後 2154   2021   1859   1688   1546   1481   1383   1264   1217   1040
2世代後 2112   2051   1839   1689   1488   1434   1415   1247   1168   1144
3世代後 2054   1949   1755   1646   1601   1463   1354   1268   1094   1116
4世代後 2101   1928   1761   1581   1565   1443   1353   1247   1083   1111
5世代後 2048   1860   1806   1611   1481   1329   1311   1212   1118   1035


考察


現在入手可能なおそらく最大の日本人の名字データを基に、多出姓の世帯数へのZipf分布の当てはめ、 希少姓の件数へのYule分布の当てはめを行った。Zipf分布に関しては、従来の同種の研究と同様に、 上位(500位程度)まででは一定の当てはまりが確認されたものの、広い範囲では無理があることが確 認された。一方、修正型Zipf分布は、一層広い範囲で良い当てはまりが確認された。希少姓への Yule分布当てはめは、小集団の悉皆的調査を除けば、そうしたデータそのものがこれまで得ら れにくかったことから、比較すべき研究は無いようである。今回の調査でも、広範囲での良い当てはまりは、 確認されなかったが、世帯数20位以上に限れば、ある程度の当てはまりを確認できた。

なぜ名字データにZipf, Yule分布が当てはまるのかは、名字の起源と継承の多様さを考えれば、とりあえず経験的 事実といっておくよりしかたがないと思われる。歴史的に、そして明治の新姓採用時においても、既に世帯 数が多い名字程、一層多くの人が自分の名字として採用することが多かったであろうという、容易に想像され る背景がヒントになるかも知れない。 一方、希少姓データへの部分的なYule分布当てはめについては、Zipf分布とYule分布の間の双対性が ヒントになる。その上で、なぜ20位以下の希少姓では当てはまりが悪いかについては、おそらく明治新姓 採用時に恣意的に作られた多数の非伝統的な名字の一斉の出現と、それ以降実質的に新しい名字の誕生が絶たれた こと、そして明治以来数世代の Galton-Watson 過程的な経過では定常的な安定分布への推移がまだ見られない、 等の理由が考えられるであろう。

従来、名字に関する研究は学問的な対象とされることが少なく、主として民間研究家の個人的な努力に 委ねられてきた。その理由は、日本人の相当部分を網羅するようなデータが比較的最近まで存在しなかったこと、 そして日本人の名字の相当部分が明治始めに恣意的に選ばれた(1870年「平民苗字許可令」で平民も 名字を名乗ることが許され、更に1875年の太政官布告「平民苗字必称義務令」で名字が義務化された) という広く流布している意見が、背景にある。漢字表記とその読みの多様性が名字の単位の特定を難しくして いること、読みや表記の変更も含め、歴史的に日本人が名字を簡単に変更してきた、という事実もあげられる。 国勢調査結果や、住民票の集計による名字分布データが得られる現状では見込みが無い以上、電子電話帳掲載 のデータの悉皆調査が可能な最大のソースである事情は今後も変わらないであろう。一方で、携帯電話の急速 な普及や、プライバシー意識から電話帳に電話番号を記載しない人の数は今後もますます増えると思われる。 したがって、今回の調査で利用した、携帯電話の本格的普及直前の電子電話帳の集計結果が、名字に関する 最も重要なデータであり続けるであろう。

最後に、今回の研究結果を踏まえ、幾つかの結論を私見としてまとめておきたい。Yule分布の当てはめが全国 世帯数で20件以下の名字で失敗するという結果は、これらこそが真の希少名字であり、おそらくそのかなりのも のが明治の始めに多かれ少なかれ恣意的に、全く新規に造られたか、歴史的な名字を改変して造られた名字である ことを示唆すると思われる。一方、多出名字の相当広範囲な部分で(修正)Zipf分布が良い当てはまりを示すという 結果は、明治新姓の成立が、しばしば信じられているような全くの恣意的なものであったのではなく、その相当 数がなんらかの組織的な由来を持つことを示唆するように思われる。公には名字持たないはずの多くの庶民が、 実際には名字を私称していた([7])、もしくは地域にゆかりのある伝統姓を組織的に名乗った、 等の背景が考えられる。

また、従来の名字総数の見積りの大幅な違いに付いても、今回のシミュレーション結果が示唆的と思われる。 従来の調査の非系統的な性格や、名字単位の曖昧さを除いても10万から30万という予想の幅は大きすぎると思われる。 今回のシミュレーション結果が示す、今後1世代で5,000種程、5世代では16,000種程の名字が消滅するという見積りは、 逆に、明治8年当時から現在に至るおおよそ3〜5世代の経過のうちで失われた希少字名の数が、相当なものであった ことを強く示唆する。シミュレーション結果を単純に過去に3次スプライン補間すれば、例えば過去1世代および 2世代の間にそれぞれ6,300種類、15,000種類あまりの名字が失われたという結果を示す。 もちろん、世帯毎の名字継承数分布は、この一世紀あまりの間に劇的に変化していることや、大戦中の死亡数を考慮 すれば、この数字は単なる参考にすぎないが、それでも万単位の名字がこの一世紀の間に失われたことを示すように 思われる。従来の名字総数の見積りの大幅な食い違いの原因の一つは、こうした名字数のダイナミックな変化である と思われる。また、名字研究家の森岡浩氏によると、文献に珍姓として記載されている名字のなかに、電話帳に まったく記載例がない、幽霊名字ともいえるものが数多くあるという [10]。小説等に登場した架空の 名字を実在すると混同したものもあるようだが、こうした幽霊名字には、今回推定された5千種あまりの電話帳 未記載名字であるか、かって実在したものの、既に消滅した名字が相当含まれていると考えてよいであろう。

謝辞。今回の研究は、何人もの名字研究家のこれまでの地道な調査があって始めて可能になった。 特に、須崎春夫氏からは、最も集計が困難な希少字名の膨大な調査結果を、著者の求めに応じ快く 提供頂いただけでなく、更にそのデータを公開する許可も頂戴しました。深く感謝します。


文献



付録。希少姓データ


一万位までの名字の世帯数データは村山氏のウェッブページ [11] にある。 表 6 は希少姓データである。1件から100件までは 須崎春夫氏の調査による。101件以上は村山 [11] から編集した。須崎氏のデータは、電子電話帳 データを基本に、個人的に収集し実在を確認した電話帳未記載姓を加えたものである。



Table 5: 順位100位までの名字とその電話帳掲載世帯数
順位  世帯数   名字 順位  世帯数   名字 順位   世帯数   名字 順位   世帯数   名字
1   456430   佐藤 26  102647   山下 51   70082   中野 76   50180   高田
2   403506   鈴木 27   97704   石川 52   69904   原田 77   49474   河野
3   335288   高橋 28   95699   中島 53   68661   小野 78   49397   藤本
4   314770   田中 29   93207   前田 54   67852   田村 79   49026   小島
5   256706   渡辺 30   91298   藤田 55   67571   竹内 80   48747   武田
6   255876   伊藤 31   90925   小川 56   65830   金子 81   48724   村田
7   254662   山本 32   89856   岡田 57   64234   和田 82   48386   上野
8   249509   中村 33   89818   後藤 58   64119   中山 83   48329   杉山
9   241651   小林 34   87815   長谷川 59   63180   石田 84   47744   増田
10   203101   加藤 35   86992   村上 60   60606   上田 85   47094   菅原
11   197460   吉田 36   86695   近藤 61   59967   森田 86   46923   平野
12   193503   山田 37   86234   石井 62   58141   87   46858   小山
13   169617   佐々木 38   78849   坂本 63   57568   柴田 88   46621   大塚
14   152065   山口 39   78178   遠藤 64   57037   酒井 89   46098   千葉
15   149006   松本 40   76233   青木 65   56651   工藤 90   46004   久保
16   143552   井上 41   75826   藤井 66   56538   横山 91   45682   松井
17   137475   斎藤 42   75264   西村 67   56324   宮崎 92   45164   岩崎
18   137160   木村 43   74510   福田 68   55793   宮本 93   44731   木下
19   129673   44   74352   太田 69   55208   内田 94   44650   野口
20   123953   清水 45   73185   斉藤 70   54878   高木 95   44641   松尾
21   114802   山崎 46   72640   三浦 71   53284   安藤 96   44222   野村
22   110430   47   72569   藤原 72   52858   谷口 97   43908   菊地
23   108369   阿部 48   71443   岡本 73   50891   大野 98   43763   佐野
24   108345   池田 49   71102   松田 74   50499   丸山 99   43669   渡部
25   105778   橋本 50   70889   中川 75   50349   今井 100   43205   大西



Table 6: 稀少姓の件数データ。世帯数 $ i$ と件数 $ Y_i$
$ i$ $ Y_i$ $ i$ $ Y_i$ $ i$ $ Y_i$ $ i$ $ Y_i$ $ i$ $ Y_i$ $ i$ $ Y_i$
1 12219 51 240 101 87 151 50 201 26 251 17
2 7890 52 234 102 94 152 43 202 23 252 25
3 6232 53 219 103 71 153 45 203 29 253 16
4 5243 54 219 104 64 154 43 204 27 254 10
5 4440 55 218 105 80 155 48 205 21 255 19
6 3728 56 182 106 76 156 41 206 35 256 18
7 3344 57 216 107 89 157 49 207 31 257 18
8 2840 58 185 108 81 158 30 208 26 258 14
9 2440 59 180 109 81 159 35 209 39 259 14
10 2257 60 195 110 67 160 37 210 24 260 17
11 2012 61 162 111 71 161 34 211 22 261 17
12 1841 62 172 112 78 162 45 212 25 262 13
13 1676 63 175 113 67 163 43 213 36 263 18
14 1436 64 178 114 75 164 34 214 26 264 16
15 1306 65 158 115 80 165 39 215 23 265 21
16 1231 66 156 116 56 166 38 216 24 266 18
17 1147 67 177 117 76 167 18 217 28 267 16
18 1092 68 141 118 55 168 36 218 20 268 19
19 1006 69 177 119 55 169 42 219 29 269 14
20 981 70 135 120 54 170 30 220 14 270 18
21 848 71 162 121 67 171 37 221 27 271 17
22 775 72 152 122 50 172 31 222 24 272 18
23 823 73 145 123 58 173 30 223 24 273 16
24 750 74 133 124 70 174 33 224 23 274 23
25 653 75 127 125 69 175 33 225 23 275 16
26 663 76 139 126 58 176 31 226 29 276 24
27 650 77 128 127 64 177 39 227 22 277 18
28 601 78 126 128 72 178 32 228 28 278 18
29 578 79 118 129 69 179 40 229 17 279 15
30 541 80 132 130 61 180 31 230 30 280 18
31 488 81 112 131 46 181 37 231 22 281 19
32 500 82 101 132 61 182 42 232 20 282 14
33 467 83 128 133 55 183 30 233 18 283 17
34 461 84 124 134 58 184 40 234 20 284 15
35 423 85 146 135 57 185 41 235 17 285 25
36 408 86 100 136 56 186 28 236 21 286 21
37 366 87 111 137 54 187 20 237 38 287 20
38 392 88 86 138 50 188 27 238 23 288 18
39 376 89 94 139 45 189 22 239 19 289 13
40 349 90 88 140 57 190 34 240 24 290 15
41 327 91 90 141 60 191 42 241 31 291 15
42 326 92 102 142 51 192 31 242 19 292 16
43 301 93 79 143 51 193 33 243 18 293 12
44 322 94 107 144 56 194 34 244 17 294 13
45 269 95 110 145 58 195 34 245 19 295 18
46 264 96 79 146 43 196 32 246 26 296 14
47 261 97 96 147 44 197 33 247 20 297 16
48 236 98 94 148 45 198 30 248 21 298 15
49 258 99 108 149 37 199 30 249 15 299 16
50 244 100 92 150 43 200 27 250 14 300 19



mase 2005-04-23