アノテーションT辞書とは

用語抽出と解析に特化した辞書です。

アノテーションT辞書を用いることで

  • ある概念に包含される用語を幅広く抽出
  • より高度な文章解析

などを可能にします。

収録語は
・臨床検査関連語(検査対象物質、試験・検査)
・微生物名(細菌名、ウイルス名、寄生虫名)
・医薬品名(一般名、商品名、略語、レジメン名等)
・薬効名
・疾患名(病名・症状、副作用用語、検査値異常)
・その他(剤型、試験方法、投与関連、薬物動態、医療機器等)
となっており、総収録語数は132,256語となっています(2023年9月1日現在)。

同義語の例へ

 

アノテーションT辞書の構成

以下の2つのcsvファイルで構成されます。

同義語ファイルでは、用語と対応するコード、また用語の区分(代表語、同義語、略語、英語、医薬品の場合は販売名コード)が収録されています。
主に用語の検索、用語に対してコードを付与する場合に使用します。

用語関連ファイルでは、コードに包含される用語のコードが収録されています。
主に用語を下層概念まで包含して抽出する場合に使用します。

 

アノテーションT辞書の使用例

ある概念に包含される用語を全て抽出する場合

 

  1. 同義語ファイルを用いて、用語に対応するコードを取得します。
  2. 用語関連ファイルを用いて、1で取得したコードに包含されるコードを取得します。
  3. 再び同義語ファイルを用いて、2で取得したコードに対応する用語を取得します。

 

文章中の用語にコードを付与し、文章解析を行う場合

 

  1. 同義語ファイルを用いて、文章中の用語をコードに変換します。
  2. 用語関連ファイルを用いて、変換したコードをもとに文章を解析します。

同義語の例

こちらをご覧ください(PDF)

サンプル

サンプルデータ

仕様書(PDF)