2019年12月16日

文理融合

 じんもんこん2日目は午前中のセッションのみ参加。「文字認識」のテーマでの発表4本。うち2本は英語(発表者は理系)。じんもんこんを主催している情報処理学会というのは、相当歴史が古く、会員も1万数千人と、我々の学会の比ではない。そのうちの人文科学との融合的テーマでの研究会が「じんもんこん」ということになる。
 最初の発表が一番聴きたかったもので、今年行われた、機械学習によるくずし字認識を競うコンペについての報告である。11月のハイデルベルクでのワークショップでご一緒した人文学オープンデータ共同利用センターの北本先生によるプレゼン。
 このコンペはKaggleというデータサイエンティストのコミュニティ(会員330万人!)でのコンペのひとつとして行われた。Kaggleのコンペとは、共通のデータセットを用いて、機械学習の性能を競うもので、賞金も出る。このコンペに参加して、優秀な成績を収めるとポイントが与えられて、いくつものコンペでいい成績をおさめ、ポイントをためると、その世界の有名人となるようで、ケンブリッジの学部1年生が有名なのだという話があった。ゲーム的要素を取り入れて、科学を進展させるという方法である。コンペの仕様をきちんと作っておけば、機械学習の優秀さを競うだけに、指標がきちんとしているから、客観的な評価もできるわけだ。まあ日本文学の論文なんかでのコンペは無理である(笑)。
 国文学研究資料館は、オープンアクセス可能な、いわゆるくずし字で書かれた文献をかなりの数、データセットとして提供している。このデータを使って、どれだけ機械が正確に翻刻できるかというのを競うのが今回のコンペである。コンペを公正に行うために、かなり苦労されたということがわかった。データの提供においても、画像のクリーニング、新字旧字問題、字母か漢字かなど、さまざまな問題がある。コンペは3ヶ月行われて、293チーム、338コンペティション、2,652エントリーだったという。優勝者の文字認識正答率は95%以上である。コンペ参加者の中にはくずし字が読めない人も多くいたようである。世界規模でやっているので当然のことだ。そして、上位5名の賞金は3000ドルである!
 日本古典文学研究側からいえば、くずし字認識の機械学習の性能があがることは、非常にありがたいことであるが、コンペをやると、これだけの知恵がこれだけ速く集められるのだと知ったのは、衝撃的だった。
 コンペは賞金があるので、モチベーションは十分だが、普通の研究で理工学部の人たちが、たとえば落款を読むためのツールを開発することになる経緯には、かならず人的繋がりがあるはずで、そこにはいろいろなドラマが秘められてるのだろうなと、自分を顧みても思う。私の場合、くずし字学習支援アプリKuLAの開発を橋本雄太さんにやっていただいたが、これも古地震研究会が江戸以前の文献を読む必要性から、「和本のすすめ」の著者の中野三敏先生を講演に呼ぼうとして、結果的には私が代理で行くことになったというところから始まっている。
 文理融合は、文系の側から言えば、研究対象を「物」あるいは「データ」として捉えることによって、その解析に理系の方の力を借りるというところから発する場合は多いが、江戸時代以前についていえば、古典を単にテキストのみならず、紙質・書型・墨・綴じ方などの物としての解析が今や必須となっている。またテキスト解析も、ビッグデータを用いる科学的方法が取り入れられることになるのは必至である。
 一方で、理系の側から、文系の力を必要とすることがあるのだろうか。「医療における倫理」「古地震研究など100年以上前のデータ解析のための古文献読解」などが思い浮かぶ。わざわざ文理融合を考えなくても、文理融合をせざるをえない局面が多くやってきそうである。情報処理学は、現時点では分断されているように見える文理を繋ぐ役割をますます強めるだろう。
posted by 忘却散人 | Comment(0) | 情報 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。