The requested blog was not found -- unless Dan Kogai requested that of mine

ほんとうにブログで弾さんに会えるか実験ブログ(実際は書評とか備忘録とか)

ウェブ時代に辞書どう生き残るか? --書評-- 辞書を編む

以前観た『舟を編む』が面白かったのでタイトルでひっかかった。

 

辞書を編む (光文社新書)

辞書を編む (光文社新書)

 

 "三国"と呼ばれる三省堂国語辞典の編纂という仕事についての本。

舟を編むで得た編纂の仕事のイメージと大体は一緒だったが、"三国"の編集哲学やウェブ時代の辞書のあり方などまでつっこんでおりより具体的な感じ。

 

辞書作成における編纂というのは、掲載可能性のあるすべての言葉の用例や使われた場所、日時などの情報を整理してリストを作成すること。

編集は紙の質とかデザインとか調整したりするので、編纂とは違う概念(編集の部分集合が編纂という理解でOK?互いに独立?)。

編纂の流れは、

  1. 用例採集
  2. 取捨選択
  3. 語釈
  4. 手入れ

という感じ。これを数年かけて行う。

 

辞書によって大方針というのが決まっておりこれにより国語辞書もかなり個性が異なるらしい。そういえば、学校の国語教師も三国は解説が面白いからいいとかいってたような。。

三国は、

  • 分かりやすい説明
  • 今活きている言葉の収録

を特徴としているらしい。たとえば、"汗"という言葉の広辞苑と三国の違いは、

引用: http://a.co/94NPmxV

"あせ【汗】①温度刺激により汗腺から排出される分泌液。塩類・ピルビン酸・乳酸・アンモニアなどを含む。気温の高い時、激しい運動をした時などに体温調節の作用をするほか、痛覚・精神的緊張によっても出る。(『広辞苑』第6版)"

引用: http://a.co/3togflI

"あせ[汗](名)①〔生〕暑いときや運動のあと、また緊張(キンチョウ)したときなどに、顔や からだから出る、塩けをふくんだ水。「―を流す・―(っ)かき〔=汗がよく出る体質(の人)〕」(『三国』第6版)"

といった具合。個人的にはこの例だと広辞苑の説明好きなのだが(笑)、たしかに三国の訳が良いという人がいるのもわかる。いくつかの例をみただけだが、三国の訳は全体的にことばの温かみがある一方曖昧なところがある、という印象を受けた。

 

最近はやりのAIという話もあるので、編纂の仕事は機械化できるか、という問題を考えてみた。とりあえずの結論は機械に代替されないということになった。

まず、用例採取Phaseは技術的に代替できる。ウェブクローラーのみならず、Googleストリートビューのように写真を取り巻くって文字起こしする、というのは不可能ではないだろう。

次に、取捨選択や語釈、手入れは、かなり高度な自然言語能力が求められるので少なくとも現状では技術的に機械化が厳しいだろう。

もっとも大事な点だが、コストの面では、現状がかなり安いため機械(プログラム)開発するコストの方が高くなるだろう。三国で編纂者が6、7人で、辞書の発行頻度が5~10年程度なのでたいしたコストにはならない。 

 

それよりもウェブ時代に金を払ってまで言葉を調べるか、という点はより深刻に思われる。私自身辞書は嫌いではないのだが、最後に紙の辞書を引いたのが思い出せないくらい使っていないのだ。

著者が語釈を考えるときにウェブを使っており、

引用: http://a.co/abVCeaj

"「なあんだ、ネットで検索なんかしてるのか。それだったら、私でもできるよ。国語辞典を引く意味がないじゃないか」 こう言う人がいるかもしれません。結論から言えば、あなたが情報の選別について訓練を積んだ人ならば、この作業はできます。ただし、ひどく面倒くさいし、また、いちいちの情報の質について、厳密な判断を迫られます。"

とある。これは本当に同意で情報収集能力があればということだが、付け加えると、

  • 面倒だけど、自分で調べまとめる作業を繰り返すと情報収集能力がメキメキ向上する(本を読んでまとめる作業に似ている)ため、繰り返すほどこの作業が高速にできるようになる
  • スマホタブレットの普及でで隙間時間で検索することが可能となり、情報収集に当てられる時間は増えた

ということがある。これらを考えると有料の(ましてや紙の)国語辞書の勝ち目はないかな。Wikipedia使いまくってるから後戻りはできないからなー

 

あと、見坊豪紀さんの話は面白かった。辞書編纂の神様と言われる人で、人生を賭けて寝る暇も惜しまず編纂作業に明け暮れ145万枚の採集カードを作ったらしい。実働50年として、平均2.9万語/年、毎日約100単語サンプルするペースです。直感的にスゴい数字です、というか1日中編纂作業しなきゃ無理な希ガス