header

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS


目次:


日本人の名字の統計解析

千田敏君による平成16年度学士論文。現在入手可能な最大の日本人の名字データに基づく統計解析。内容は、

  • 多出名字頻度への Zipf 分布の当てはめ、
  • 希少名字の種類数への Yule 分布の当てはめ、
  • 現在の日本人の名字の総数の推定,
  • 世代交代による希少性の減少数の推定。
    それによれば
  • NTTの電話帳に記載されていない希少名字の種類数は5432種類、
  • 現存する日本人の名字の総数は 10万4898 種類と推測される。
  • 今後一世代後には約5032種類の名字が消滅すると推測される。
    この研究にあたっては、名字研究家の 須崎春夫氏 ("崎"の字は実際は旁の上部が"立")が電子電話帖等から集計した貴重な希少性の頻度データを、ご厚意で提供して頂いたおかげで可能になりました。また須崎氏からは希少姓データの一部の公開を許可して頂きました。この場をお借りしてお礼を申し上げます。

千田敏君の学士論文のPDFファイル

またこの学士論文を元に書かれた雑誌論文のPDFファイルが以下で公開されています。

千田敏・間瀬茂「日本人の名字の統計解析」, 日本統計学会邦文誌, 35(1), 55-70 (2005)

同姓問題

仮に「同姓問題」と私が勝手に名付けた組合せ確率論の問題 『日本人N人を無作為に集めたら、同姓のカップルが少なくとも一組居る確率は?』への解答。 組合せ確率論で有名な「誕生日のパラドックス」(無作為に集めたN人のグループ中に同じ誕生日のカップルが 少なくとも一組居る確率は?)の名字版。 誕生日のパラドックスは N が 23 人を越えると確率が 50% を越えるという直観と相容れない結果が得られることで有名。 誕生日問題では普通各人の誕生日は 365 日同じように 分布すると仮定するのが普通であるが、同姓問題では各人の苗字の頻度は当然異なる。この論文の中心はこうした 不等確率の下での一致確率の公式と、当時入手可能だった一番詳しい第一生命保険会社の顧客リストの上位200位の 頻度データに「一般化ジフ(Zipf)分布」と呼ばれる理論曲線が良く当てはまることを確認の上、 公開されていなかった201位以上の苗字頻度を補間推定した。(Zipf 分布の苗字頻度への当てはめについては佐藤・瀬野氏の 著書に詳しい。) 最終的に得られた同姓問題の結論は「日本人が27人以上いれば同姓者がいる可能性の方が高い」というものであった。 同様の確率として、次のような数字が得られた。

人数27人30人35人40人45人50人
一致確率51.15%58.6%69.65%78.80%85.66%90.73%

S. Mase「Approximations to the birthday problem with unequal occurrence probabilities and their application to the surname problem in Japan」, Annals of the Institute of Statistical Mathematics, 44(3), p479〜499 ,1992/09

姓氏に関する数理的研究の紹介

数理生物学研究者による本。Galton-Watson (分岐)過程と呼ばれる、個体がランダムに分割しながら、増殖・減少していく現象を捉える数理確率モデルを、姓の継承と絶滅という文化・社会現象に適用したユニークな研究。確かに、親から子どもへという生物学的継承は、同時に姓という「ニーム(文化・社会的遺伝子)」の継承でもある。基礎から丁寧に述べてある数理的扱いが内容の中心ではあるが、姓をめぐる様々な話題が多数紹介されており、それだけ読んでも面白い。この本でもインターネットを使った情報検索と入手が欠かせなかったと著者の瀬野氏からお聞きしました。

「姓の継承と絶滅の数理生態学」佐藤葉子・瀬野裕美著、京都大学出版会刊(2003)

「間瀬、真瀬、馬瀬」系名字・地名に関する一考察

北海道から沖縄まで全国に散在する「間瀬、真瀬、馬瀬、柵木、馬背」系地名と、「間瀬、真瀬、馬瀬」系名字に関する データと考察