「ゎナ=∪も行くょ〜」も修正 —— KDDI研、「くだけた表現」の自動判読技術を開発 | RBB TODAY
※本サイトはアフィリエイト広告を利用しています

「ゎナ=∪も行くょ〜」も修正 —— KDDI研、「くだけた表現」の自動判読技術を開発

エンタープライズ その他
くだけた表現を修正し解析可能に
  • くだけた表現を修正し解析可能に
  • くだけた表現修正技術の詳細
 KDDI研究所は3日、従来の言語解析技術では正しく解析することが困難だった、ホームページやブログ上で使われる口語やギャル文字などの「くだけた表現」を、正規な表現に自動修正する技術を開発したことを発表した。

 Web上の文章には誹謗・中傷や犯罪予告などの違法・有害な書き込みも含まれており、これらの表現を言語解析によって自動的に検出するフィルタリング技術に注目が集まっている。しかしWeb上の文書には口語やギャル文字、伏せ字などが多数含まれている上に、日々新しい言葉も現れており、従来の言語解析技術では正しく解析することが困難だった。

 今回開発された技術では、「ゎナ=∪も行くょ〜」「auの携帯ってヵゎいいね」「オ●マ大統領来日」といった文章であっても、システムが自動修正し、「わたしも行くよ」「auの携帯ってかわいいね」「オバマ大統領来日」と解析可能な文章に変換する。解析不能なくだけた表現を検出し、その修正候補となる表現を新聞文書などの正規な表現を多く含む文書から自動的に検索して取得。取得した複数の修正候補の中から適切な表現を選ぶために、同じような文脈で頻繁に使われている表現かどうか、元のくだけた表現から大きく変化し過ぎていないかどうか、修正後の文章が日本語として自然かどうか、といった指標を計算する。なおこの技術を商用のブログ記事に適用した結果、従来の形態素解析器では解析できなかったくだけた表現を最大38% 減少させることを確認したとのこと。

 この技術は、情報通信研究機構(NICT)からの委託研究である「インターネット上の違法・有害情報検出技術の研究開発」の一部として開発されたもの。本技術の利用により、Web上の文書を高精度に解析し、違法・有害な情報のフィルタリング精度を向上させたり、掲示板の口コミ情報から商品の評判を高精度に分析したりすることができるようになる見込みだ。今後は本技術を違法・有害情報フィルタリング技術などに応用していく予定。
《冨岡晶》
【注目の記事】[PR]

関連ニュース

特集

page top