アノテーションT辞書とは
用語抽出と解析に特化した辞書です。
アノテーションT辞書を用いることで
- ある概念に包含される用語を幅広く抽出
- より高度な文章解析
などを可能にします。
収録語は
・臨床検査関連語(検査対象物質、試験・検査)
・微生物名(細菌名、ウイルス名、寄生虫名)
・医薬品名(一般名、商品名、略語、レジメン名等)
・薬効名
・疾患名(病名・症状、副作用用語、検査値異常)
・その他(剤型、試験方法、投与関連、薬物動態、医療機器等)
となっており、総収録語数は132,256語となっています(2023年9月1日現在)。
アノテーションT辞書の構成
以下の2つのcsvファイルで構成されます。
同義語ファイルでは、用語と対応するコード、また用語の区分(代表語、同義語、略語、英語、医薬品の場合は販売名コード)が収録されています。
主に用語の検索、用語に対してコードを付与する場合に使用します。
用語関連ファイルでは、コードに包含される用語のコードが収録されています。
主に用語を下層概念まで包含して抽出する場合に使用します。
アノテーションT辞書の使用例
ある概念に包含される用語を全て抽出する場合
- 同義語ファイルを用いて、用語に対応するコードを取得します。
- 用語関連ファイルを用いて、1で取得したコードに包含されるコードを取得します。
- 再び同義語ファイルを用いて、2で取得したコードに対応する用語を取得します。
文章中の用語にコードを付与し、文章解析を行う場合
- 同義語ファイルを用いて、文章中の用語をコードに変換します。
- 用語関連ファイルを用いて、変換したコードをもとに文章を解析します。