編集距離

編集距離(edit distance)とは、二つの文字列がどの程度異なっているかを示す距離の一種です。二つの核酸配列間の編集距離は、アラインメントにおける置換、挿入、欠失の合計 (の最小値) になります。

以下に例を示します。アラインメント内では、“|”, “X”, “I”, “D” をそれぞれ「一致」「置換」「挿入」「欠失」を意味する記号として使用しています。

編集距離0の例

TGGGTTTTGTAGCA  query
||||||||||||||
TGGGTTTTGTAGCA  target

完全一致の場合は、編集距離が0になります。

編集距離1の例 (I)

TGGGTTTTGTAGCA  query
||||||X|||||||
TGGGTTGTGTAGCA  target

これは、一塩基の置換の例です。この二つの配列の組み合わせでは、下記のように挿入と欠失を一塩基つずつ入れたアラインメントを構成することも可能ですが、「一致」「置換」「挿入」「欠失」の合計を最小にするアラインメントの距離が編集距離になりますので、やはり編集距離は1となります。

TGGGTT-TTGTAGCA  query
||||||DI||||||
TGGGTTG-TGTAGCA  target

編集距離1の例 (II)

もちろん、挿入・欠失が一つの場合でも編集距離は1になります。

一塩基の挿入

TGGGTTTTGTAGCA  query
|||||||||I||||
TGGGTTTTG-AGCA  target

一塩基の欠失

TGGGTTTTGTA-GCA  query
|||||||||||D|||
TGGGTTTTGTAGGCA  target

編集距離2の例

二塩基の置換

TGGGTTTTGTAGCA  query
|||X|||||X||||
TGGTTTTTGAAGCA  target

一塩基ずつの欠失と置換

TGGG-TTTTGTAGCA
||||D||||X|||||
TGGGCTTTTATAGCA  target

一塩基ずつの欠失と挿入

TGGG-TTTTGTAGCA  query
||||D||||||I|||
TGGGCTTTTGT-GCA  target

編集距離は、置換・挿入・欠失の合計ですので、編集距離2以上のアライメントにはこれら複数種類の組み合わせも含まれます。

D3Gが提供する「RefSeqのタンパク質コード遺伝子」セット

RNAデータを提供しているデータベースは複数存在し、また一つのデータベースの中にも複数のクラスの配列が存在します。一口に「タンパク質コード遺伝子のRNA配列」といっても様々な組み合わせが考えられるのですが、「少なくともこれらはタンパク質コード遺伝子のRNA配列である」と多くの専門家が合意できる(であろう)塩基配列として、D3GではRefSeqデータベースの一部を編纂したものを提供しています。

RefSeqに登録されている塩基配列は、そのアクセッション番号の接頭辞(プレフィックス)で分類されています。RNAについては、タンパク質をコードするもののアクセッションが “NM” や “XM” から、タンパク質をコードしないものが “NR” や “XR” から始まっています。それぞれ、“N” から始まっているものはNCBIのスタッフによる監修済であることを意味しており、“X” はその目が通っていないということになります。従って、“XM” から始まる番号が付いているRNAは、タンパク質コード遺伝子として異論が出る可能性が大きいと考え、これは “NR”, “XR” だけでなく “XM” も「タンパク質コード遺伝子」には含めておりません。

一方、“NM”, “XM”はいずれも核DNAにコードされている遺伝子のみで構成されていることに注意が必要です。ミトコンドリアDNAにコードされていタンパク質コード遺伝子は、RNAとしてでなくタンパク質のアクセッション(ヒトの場合は“NP”、マウスの場合は“YP”)により参照されています。そこでD3Gでは、「RefSeqのタンパク質コード遺伝子」セットを、“NM” と “NP” (あるいは“YP”) から始まるアクセッション番号を持つ配列から構成しています。