テキストデータの統計科学入門

テキストデータの統計科学入門

テキストデータの統計科学入門

この分野は、必要なことしか勉強してこなかったので、全体像が欲しいと思って正月に購入して読んだ。アマゾンでも書評がないようなので計量言語学の専門家以外の短評でも。(あとまあ知り合いで購入してる人が多かったので、その人向けでもある)。

細かな感想

  • 良いところ
    • 扱っている分野が広い。生テキストからのテキストデータの生成から、多様な分析のやり方まで一通り学べる
    • 文章が平易で分かりやすい
    • 事例が豊富で、理解を助けている
  • 悪いところ
    • 説明が短すぎる。この厚さで、いろいろ詰め込んでいるので、これ一冊で自信を持って分析ができるようになるかというと、疑問ではないかと思う。普段読む英語の出来の良い教科書は至れり尽くせり系のものが多いので、それと比較すると説明があっさりし過ぎ*1
    • 扱う分野を増やすのは良いが、必要のない解説もあると思う。例えば、確率・統計分析の基礎はいらなかったのでは?確率分布の話や、最尤法・線形回帰の話は、知ってる人には復習程度の意味はあるように思うが、初学者があの説明で何かを得ることは難しいんじゃないだろうか。それよりは、「まえがき」なりで読者に事前の準備を促すことで、これらの解説を省いても良かったと思う。

総評

いろいろな手法が広く浅く紹介されていて良い本だが、本当に「入門」かと言われるとちょっと疑わしい。マイナーな分野なので、教科書が何冊も出版されることが難しいことを考えると、仕方ないのかもしれないんだけど、一冊であれもこれもとやるよりは、ある程度読者を限定して、焦点を絞った解説をした方が良かったのではないかと思われる。

いろいろ厳しい感想を書いてしまったが、ただ、ざっくり知りたい、という私の目的にはかなっていた。統計分析にある程度の素養がある人、あるいは、テキストデータをそれなりに分析したことがある人が、使えるツールの幅を広げ、アイディアを得るというという意味では、良い本だと思う。

*1:手法を理解せずに分析を走らせる時代はさっさと終わって欲しいので、このレベルの教科書であっても、ある程度はきちんとした理解ができるような解説が欲しい。