知人と始めたプロジェクト2

日本を対象にデータを集めるプロジェクトをとある日本の研究者と始めたのだが、それが一応仕上がったので彼に送った。テキスト処理は例外がたくさんあるので、ちまちました作業に本当に時間がかかる。

まあ、笑っちゃうようなOCRの読み取りミスが結構あるので、微妙に楽しいが。あと、昔のものはやはり認識率が悪いようだ。戦後すぐとか、いろいろ整ってなかったんだろうし、仕方ないかもね。