エンティティ・リンキング (英: entity linking、named entity linking、entity disambiguation)は、テキスト中のエンティティ名をWikipedia 等の知識ベース 上のエントリに結びつける自然言語処理 のタスクである。例えば、ワシントンというエンティティ名は、地名(ワシントン州 、ワシントンD.C. )や、人名(ジョージ・ワシントン 、デンゼル・ワシントン )等を示す可能性がある。しかし、"ワシントンはアメリカにある州の一つである"という文の場合は、ワシントン州 を指すことは明らかである。エンティティ・リンキングは、テキストからのエンティティ名の抽出だけでなく、知識ベースに結びつけることで、エンティティの曖昧性の解消までを行うため、固有表現抽出 とは異なるタスクである。
概要
エンティティ ・リンキング (Entity Linking) とは、テキスト中に出現する対象語(人名、地名、企業名など)を、知識ベース 内の一意のエンティティに対応付ける処理である。これらの対象語は固有表現 とも呼ばれる。対象となる知識ベースは用途によって異なるが、汎用的な自然言語処理のシステムでは、 Wikidata や DBpedia といったWikipedia に由来する知識ベースがよく用いられる[ 1] [ 2] 。この場合、Wikipediaの各ページが1つのエンティティとみなされる。Wikipedia上のエンティティに固有表現を対応付ける技術は、ウィキフィケーション とも呼ばれる[ 3] 。
例えば「東京は日本の首都だ」という文章では、エンティティリンキングの出力として東京 と日本 が期待される。これらは知識ベースにおける一意の識別子 (Uniform Resource Identifier, URI) として表現できる。知識ベースによってURIは異なる場合があるが、Wikipediaをもとにした知識ベースでは1対1対応のマッピングが存在する[ 4] 。
知識ベースは多くの場合、人手で構築されるが、コーパス が豊富に存在する場合は、学習データセットから自動的に推定されることもある[ 5] 。
エンティティリンキングは、Web上の膨大かつノイズの多い生データに注釈を付けるための重要な処理であり、セマンティック・ウェブ の実現に貢献する[ 6] 。
応用
エンティティ・リンキングは、テキストから抽象的な意味を抽出する必要がある分野、たとえばテキスト分析 、レコメンダシステム 、セマンティック検索 (英語版 ) 、チャットボット などで広く利用されている[ 7] [ 8] 。
たとえば「日本の首都」についての文書を検索したい場合を考える。エンティティ・リンキングを行わない単純な文字列検索では、「東京」という語を含む文書を見つけられない偽陰性 の可能性がある。逆に、「日本」という語だけを含む無関係な文書がヒットしてしまう偽陽性 のリスクもある。
他の手法として、潜在意味解析 (LSA)や word2vec などでも類似文書検索は可能だが、エンティティ・リンキングのように高精度で意味的に対応する情報を得るには不十分である。たとえば「東京」に関する Wikipedia のインフォボックス のような構造化情報を取得することは難しい[ 9] 。
エンティティリンキングは、情報検索 [ 10] や 電子図書館 [ 11] において検索性能を高める手法としても使われており、セマンティック検索にも不可欠な構成要素とされている[ 12] [ 13] 。
課題
エンティティ・リンキングには、いくつかの課題が存在する[ 14] 。
表記ゆれ : 同じエンティティが複数の表記で現れることがある(例:「ニューヨーク」、「New York」、「NY」、「Big Apple」)。
曖昧性 : 同一の表現が複数の異なるエンティティを指すことがある(例:「山口」は都市か人物か不明)。
欠落 : 知識ベースに存在しないエンティティに遭遇する場合がある。
スケーラビリティと速度 : 実用的なシステムでは、リアルタイムでの処理能力が求められる。Wikipedia には900万以上のエンティティと1億7千万以上のリレーションがあるとされる[ 15] 。
情報の更新性 : 新たに登場するエンティティに迅速に対応する必要がある[ 16] 。
多言語対応 : 複数言語の入力に対応するため、言語によらない識別精度が求められる[ 17] 。
関連する概念
エンティティリンキングは以下のような概念と関係が深い:
固有表現抽出 : 非構造テキストから人名、地名、組織名などの固有表現を検出・分類する手法。エンティティ・リンキングの前処理として利用されることが多い。
固有表現の曖昧性解消 : エンティティ・リンキングとほぼ同義だが、固有表現を「既に知識ベースに存在するエンティティ」に統一する[ 18] [ 19] [ 20] 。
ウィキフィケーション : Wikipediaのエンティティにリンクする処理。英語版Wikipediaに限定される場合もある。
名寄せ (Record linkage ) : 異なるデータソースに存在する同一エンティティを同定する処理で、エンティティ・リンキングより広義。
脚注
^ M. A. Khalid, V. Jijkoun and M. de Rijke (2008). The impact of named entity normalization on information retrieval for question answering . Proc. ECIR.
^ Han, Xianpei; Sun, Le; Zhao, Jun (2011). “Collective entity linking in web text” . Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval . ACM. pp. 765–774. doi :10.1145/2009916.2010019 . ISBN 9781450307574 . https://dl.acm.org/citation.cfm?id=2010019
^ Rada Mihalcea and Andras Csomai (2007)Wikify! Linking Documents to Encyclopedic Knowledge . Proc. CIKM.
^ “Wikipedia Links ” (2023年5月4日). 2025年5月22日閲覧。
^ Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. ACL -ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17–24.
^ Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460.
^ “How Google Uses Named Entity Disambiguation for Entities with the Same Names ” (2015年9月16日). 2025年5月22日閲覧。
^ Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). “Entity Linking for Queries by Searching Wikipedia Sentences” (英語). Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing . pp. 68–77. arXiv :1704.02788 . doi :10.18653/v1/D17-1007 . https://aclweb.org/anthology/papers/D/D17/D17-1007/
^ Le, Quoc; Mikolov, Tomas (2014). “Distributed Representations of Sentences and Documents” . Proceedings of the 31st International Conference on International Conference on Machine Learning 32 : II–1188–II–1196. arXiv :1405.4053 . http://dl.acm.org/citation.cfm?id=3044805.3045025 .
^ M. A. Khalid, V. Jijkoun and M. de Rijke (2008). The impact of named entity normalization on information retrieval for question answering . Proc. ECIR.
^ Hui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method," ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334-343, 2005
^ “STICS ”. 2021年9月1日時点のオリジナル よりアーカイブ。2015年11月16日閲覧。
^ Hoffart, Johannes; Milchevski, Dragan; Weikum, Gerhard (2014-07-03). “STICS: Searching with strings, things, and cats” . Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval . SIGIR '14. New York, NY, USA: Association for Computing Machinery. pp. 1247–1248. doi :10.1145/2600428.2611177 . ISBN 978-1-4503-2257-7 . https://doi.org/10.1145/2600428.2611177
^ Rao, Delip; McNamee, Paul; Dredze, Mark (2013). “Entity Linking: Finding Extracted Entities in a Knowledge Base” (英語). Multi-source, Multilingual Information Extraction and Summarization . Theory and Applications of Natural Language Processing. Springer Berlin Heidelberg. pp. 93–115. doi :10.1007/978-3-642-28569-1_5 . ISBN 978-3-642-28568-4
^ Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). “Fast and Accurate Entity Linking via Graph Embedding” . Proceedings of the 2nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA) . ACM. pp. 10:1–10:9. doi :10.1145/3327964.3328499 . hdl :11311/1119019 . ISBN 9781450367899 . https://dl.acm.org/citation.cfm?doid=3327964.3328499
^ Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). “Discovering emerging entities with ambiguous names” . Proceedings of the 23rd international conference on World wide web . ACM. pp. 385–396. doi :10.1145/2566486.2568003 . ISBN 9781450327442 . https://dl.acm.org/citation.cfm?id=2568003
^ Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011) (英語). Cross-Language Entity Linking .
^ Alhelbawy, Ayman; Gaizauskas, Robert (August 2014). Collective Named Entity Disambiguation using Graph Ranking and Clique Partitioning Approaches . Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers . pp. 1544–1555. https://www.aclweb.org/anthology/C14-1147 .
^ Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). “Robust and Collective Entity Disambiguation through Semantic Embeddings” . Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval . ACM. pp. 425–434. doi :10.1145/2911451.2911535 . ISBN 9781450340694 . https://dl.acm.org/citation.cfm?doid=2911451.2911535
^ Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). “Evaluating Entity Linking with Wikipedia”. Artif. Intell. 194 : 130–150. doi :10.1016/j.artint.2012.04.005 . ISSN 0004-3702 .
関連項目