お知らせ
What's New

德永一輝さんが、ELECTRA単語分散表現とLightGBMを使った固有表現抽出に関する研究成果について、言語処理学会で発表しました。

2025年10月29日

DEMLセンター研究支援者の德永一輝さんが、ELECTRA単語分散表現とLightGBMを使った固有表現抽出に関する研究成果について、2024年3月13日(水)「言語処理学会第30回年次大会(NLP2024)」にて発表しました。その研究成果の概要を本ページで紹介します。プログラムや予稿の詳細は、開催プログラムをご覧ください。

【概要】
専門分野における固有表現抽出は、ビジネスにおけるニーズが強いが、学習データを作成するアノテーションコストが高いことが課題である。本研究では、対象とするドメインとして自動車部品用語に着目し、少数の自動車部品用語の辞書を元にして、テキストデータから自動車部品用語を抽出し、自動車部品辞書を拡張する方法を提案する。人手でアノテーションした検証データで評価実験を行い、提案手法による固有表現の抽出と辞書の拡張の有効性を確認した。

本研究により、特定ドメインにおける少量の辞書と関連するテキストを用意することで、高い確率で新たな用語を抽出し、辞書を拡張することが可能となる。部品やサプライヤーの管理などへの活用が期待される。