5年間かけて育ててきた「資料横断的な漢字音・漢語音データベース」を正式リリースしました。
Database of Historical Sino-Japanese Readings | 資料横断的な漢字音・漢語音データベース
https://dhsjr.w.waseda.jp/
昨日の学会でワークショップ形式で活用事例も含めての紹介となりました。ジャパンナレッジなどで知られる日本国語大辞典、日本語歴史コーパスは和文系資料からデータが取られているので、漢字・漢文が弱いということが知られています。日本語形態素解析辞書であるUniDicも同様です。一方、中国では四庫全書に漢籍資料、東京大学史料編纂所では記録文などの日本漢文がネット上には早くから公開されています。しかしそれが日本語としてどう発音されたのか、については調べる手立てが非常に貧弱でした。
上記のデータベースは平安時代から昭和までの56の文献に現れる漢字・漢語のうち、読みが明らかなものを全て検索可能にしたもので約27万件のデータを含みます。例えば古代の漢文資料に「言語」という漢語が出てきたときに、これはゴンゴなのかゲンギョなのか、ゲンゴなのか。声調はどうなのか。どの資料ではどうで、あの資料ではどうなのか。こうしたことに答えられるデータベースです。