日本IBM、国立国会図書館の全文テキスト化システム・プロトタイプを開発 | RBB TODAY

日本IBM、国立国会図書館の全文テキスト化システム・プロトタイプを開発

エンタープライズ ソフトウェア・サービス

共同文字校正インターフェイス
  • 共同文字校正インターフェイス
  • 共同仕上げ校正インターフェイス
  • 読み上げ順序修正インターフェイス
  • 構造情報付与インターフェイス
  • 全文テキスト化プロトタイプ・システム概要
 日本アイ・ビー・エムは1日、国立国会図書館が蔵書の大規模デジタル化作業の一環として実施した全文テキスト化システムプロトタイプ構築事業において、全文テキスト化システムのプロトタイプを開発したことを公表した。

 日本語は、ひらがなやカタカナに加え、多数の漢字(常用漢字2,136文字、旧字・異体字等を含め約10,000文字)を用いて表記されている。また、ルビ、縦横書きの混在など、表現も多様である。そのため、デジタル処理による全文テキスト化の実現が困難であった。今回のプロトタイプは、この様な日本語特有の問題を解消し、明治以降の各年代の日本語書籍の全文テキスト化作業の効率化を目指したものとなっている。

 このプロトタイプは、「共同校正機能」(共同文字校正、共同仕上げ校正)、「共同構造化機能」(読み上げ順序修正、構造情報付与)の2つの機能を中心としたものになっている。共同校正機能では、Webブラウザ経由で多数の文字校正者が同時に作業を行うことを可能にし、光学式文字認識(OCR)の精度向上も実現した。共同仕上げ校正インターフェイスでは、あらかじめ校正された結果を原本の画像上に表示したり対比させることができ、共同文字校正担当者からの申し送り個所は赤枠で強調表示される。

 「共同構造化機能」では、読み上げ順序を一筆書きで表現しドラッグ・アンド・ドロップ操作のみで修正を可能にする技術を採用。同時に、HTMLやXMLといった記述言語の知識がなくても構造化をおこなうことができるインターフェイスを搭載した。また、読み上げ順序、見出し、本文、目次、図、表、注釈、ページ番号といった構造情報を自動的に推論し、構造化担当者にガイドを提示する機能なども提供する。

 プロトタイプ・システムには、2008年にIBM東京基礎研究所が開発した、一般のユーザーと視覚障がいをもつユーザー、アクセシビリティの専門家などがインターネット上で協働し、Webページのアクセシビリティを向上させる「Social Accessibility」のコンセプトが応用されており、多数かつ多様な作業者がWebブラウザ経由で同時に協調して作業を行うことを可能にしているという。また、IBMハイファ研究所が欧州連合と進めている大量の歴史的資料のデジタル化プロジェクト「IMPACT」(IMProving ACcess to Text)の一環として開発された、操作を繰り返すことで生産性を向上させる“協調型文字校正技術”が採用されている。
《冨岡晶》

関連ニュース

特集

page top