Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >PDB文件说明

PDB文件说明

作者头像
全栈程序员站长
发布于 2022-09-05 03:10:56
发布于 2022-09-05 03:10:56
1.8K00
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
蛋白质数据库Protein Data Bank(PDB)是一个包含蛋白质、核酸等生物大分子的结构数据的数据库,网址是http://www.rcsb.org。PDB可以经由网络免费访问,
是结构生物学研究中的重要资源。为了确保PDB资料的完备与权威,各个主要的科学杂志、基金组织会要求科学家将自己的研究成果提交给PDBPDB数据库存储结构数
据的文件是PDB文件,每一个蛋白质或核酸都对应着一个编号,即PDBID, 文件的扩展名为.pdb。PDB文件可以由各种3D结构显示软件打开,比如pymol,Swiss-PDB
viewer,VMD等。PDB文件里面的信息是有严格的格式的。各行数据,如标识,原子名,原子序号,残基名称,残基序号等,不仅要按照严格的顺序书写,而且各项所占的空符
串长度,及其所处的各行的位置都是严格规定。今天为大家介绍一下PDB文件中信息的格式。Protein Data Bank(PDB)是一个包含蛋白质、核酸等生物大分子的结构数据的数据库,网址是http://www.rcsb.org。PDB可以经由网络免费访问,
是结构生物学研究中的重要资源。为了确保PDB资料的完备与权威,各个主要的科学杂志、基金组织会要求科学家将自己的研究成果提交给PDBPDB数据库存储结构数
据的文件是PDB文件,每一个蛋白质或核酸都对应着一个编号,即PDBID, 文件的扩展名为.pdb。PDB文件可以由各种3D结构显示软件打开,比如pymol,Swiss-PDB
viewer,VMD等。PDB文件里面的信息是有严格的格式的。各行数据,如标识,原子名,原子序号,残基名称,残基序号等,不仅要按照严格的顺序书写,而且各项所占的空符
串长度,及其所处的各行的位置都是严格规定。今天为大家介绍一下PDB文件中信息的格式。

PDB文件中的记录类型:

一.标题部分

  1. HEADER: 分子类, 公布日期, ID号
  2. OBSLTE: 注明此ID号已废弃, 改用新ID号
  3. TITLE: 说明实验方法类型
  4. CAVEAT: 可能的错误警告
  5. COMPND: 化合物分子组成
  6. SOURCE: 化合物来源
  7. KEYWDS: 关键词
  8. EXPDTA: 测定结构所用的实验方法
  9. AUTHOR: 结构测定者
  10. REVDAT: 修订日期及相关内容
  11. SPRSDE: 已撤销或更改的相关记录
  12. JRNL: 发表坐标的期刊
  13. REMARK REMARK 1: 有关文献 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和统计方法. 记述结构优化的方法和相关统计数据. REMARK 4-999: 其他信息

二. 一级结构

  1. DBREF: 其他序列库的有关记录
  2. SEQADV: PDB与其他记录的出入
  3. SEQRES: 残基序列
  4. MODRES: 对标准残基的修饰

三. 杂因子

  1. HET: 非标准残基
  2. HETATM: 非标准残基的名称
  3. HETSNY: 非标准残基的同义字
  4. FORMOL: 非标准残基的化学式

四. 二级结构

  1. HELIX: 螺旋. 标识螺旋的位置和类型(右手α螺旋等), 每个螺旋一条记录.
  2. SHEET: 片层. 标识每个片层的位置, 类型(sense, 如反平行等), 相对于模型中每个束的片层(如果存在的话)中前一束的说明, 每个片层一条记录.
  3. TURN: 转角

五. 连接注释

  1. SSBOND: 二硫键. 定义半胱氨酸CYS残基之间的二硫键
  2. LINK: 残基间化学键
  3. HYDBND: 氢键
  4. SLTBRG: 盐桥
  5. CISPEP: 顺式残基

六. 晶胞特征及坐标变换

  1. CRYST1: 晶胞参数(NMR除外). 记述晶胞结构参数(a, b, c, α, β, γ, 空间群)以及Z值(单位结构中的聚合链数).
  2. ORIGXn: 直角-PDB坐标
  3. SCALEn: 直角-晶体分数坐标(n=1, 2, 3, NMR除外). 说明数据中直角坐标向晶体分数坐标的变换因子.
  4. MTRIXn: 非晶相对称
  5. TVECT: 平移矢量

七. 坐标部分

  1. MODEL: 多亚基时显示亚基号 当一个PDB文件中包含多个结构时(例: NMR结构解析), 该记录出现在各个模型的第一行. MODEL记录行的第11-14列上记入模型序号. 序号从1开始顺序记入, 在11-14列中从右起写. 比如说有30个模型, 则第1至9号模型, 该行的7-13列空白, 在14列上记入1-9的数字; 第10-30号模型, 该行的7-12列空白, 13-14列上记入10-30的数字.
  2. ATOM: 标准残基的原子. 记述标准残基(氨基酸以及核酸)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息.
  3. SIGATM: 标准差
  4. ANISOU: 各向异性
  5. SIGUIJ: 各种温度因素导致的标准差
  6. TER: 残基链的末端. 表示残基链的结束. 在每个聚合链的末端都必须有TER记录, 但因序列无序造成的链中断处不需要该记录. 例如, 一个血红蛋白分子包含四个亚链. 彼此之间并不相连. TER标识了每条链的结束, 以防显示时这条链与下一条相连.
  7. HETATM: 非标准残基的原子. 记述非标准残基(标准氨基酸以及核酸以外的化合物, 包括抑制剂, 辅因子, 离子, 溶剂)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息. 与ATOM记录的唯一区别在于HETATM残基默认情况下不会与其他残基相连. 注意, 水分子也应放在此记录中.
  8. ENDMDL: 亚基结束. 与MODEL记录成对出现, 记述在各模型的链末端的TER记录之后.

八. 连接信息部分

  1. CONECT: 原子间的连接信息

九. 簿记

  1. MASTER: 版权拥有者
  2. END: 文件结束. 标志PDB文件的结束, 必需记录.

一些记录类型的说明

PDB文件里面的每个记录都有着严格的格式. 每个记录中的字段, 如标识, 原子名称, 原子序号, 残基名称, 残基序号等, 不仅要按照严格的顺序书写, 而且每个字段所占的字符串长度, 及其所处的位置都是严格规定好的. 这些记录中, 通常最关心的是原子记录, 其详细说明可参考PDB原子记录官方文档.

一些老的PDB文件可能不完全遵循新格式. 对大多数用户而言, 最值得注意的区别在于ATOMHETATM记录中的温度因子字段. 下文的例子中没有使用这些字段. 此外, 有些字段常常留空, 例如, 如当原子没有可替换位置时, 可替位置标识符就会留空.

ATOM记录

数据

格式, 对齐

说明

1-4

ATOM

字符, 左

Record Type 记录类型

7-11

serial

整数, 右

Atom serial number 原子序号. PDB文件对分子结构处理为 segment, chain, residue, atom四个层次(一般并不用到chain), 因此此数位限定了一个残基中的最大原子数为为99999

13-16

name

字符, 左

Atom name 原子名称. 原子的元素符号在13-14列中右对齐 一般从14列开始写, 占四个字符的原子名称才会从13列开始写. 如, 铁原子FE写在13-14列, 而碳原子C只写在14列.

17

altLoc

字符

Alternate location indicator 可替位置标示符

18-20

resName

字符

Residue name 残基名称

22

chainID

字符

Chain identifier 链标识符

23-26

resSeq

整数, 右

Residue sequence number 残基序列号

27

iCode

字符

Code for insertion of residues 残基插入码

28-30

留空

31-38

x

浮点, 右

Orthogonal coordinates for X in Angstroms 直角x坐标(埃)

39-46

y

浮点, 右

Orthogonal coordinates for Y in Angstroms 直角y坐标(埃)

47-54

z

浮点, 右

Orthogonal coordinates for Z in Angstroms 直角z坐标(埃)

55-60

occupancy

浮点, 右

Occupancy 占有率

61-66

tempFactor

浮点, 右

Temperature factor 温度因子

67-72

留空

73-76

segID

字符, 左

Segment identifier(optional) 可选的片段标识符 VMD会使用此数据

77-78

element

字符, 右

Element symbol 元素符号

79-80

charge

字符

Charge on the atom(optional) 可选的原子电荷. 实际分子模拟中往往重新定义电荷, 故此列往往不用. VMD写出的PDB文件中无此列.

HETATM记录

数据

1-6

HETATM

7-80

与ATOM记录相同

TER记录

数据

格式, 对齐

说明

1-3

TER

字符

7-11

Serial number

整数, 右

序号

18-20

Residue name

字符, 右

残基名称

22

Chain identifier

字符

链标识符

23-26

Residue sequence number

整数, 右

残基序列号

27

Code for insertions of residues

字符

残基插入码

SSBOND记录

数据

格式, 对齐

说明

1-6

SSBOND

字符

8-10

Serial number

整数, 右

序号

12-14

Residue name (CYS)

字符, 右

残基名称(CYS)

16

Chain identifier

字符

链标识符

18-21

Residue sequence number

整数, 右

残基序列号

22

Code for insertions of residues

字符

残基插入码

26-28

Residue name (CYS)

字符, 右

残基名称(CYS)

30

Chain identifier

字符

链标识符

32-35

Residue sequence number

整数, 右

残基序列号

36

Code for insertions of residues

字符

残基插入码

60-65

Symmetry operator for first residue

整数, 右

第一个残基的对称操作

67-72

Symmetry operator for second residue

整数, 右

第二个残基的对称操作

HELIX记录

数据

格式, 对齐

说明

1-5

HELIX

字符, 左

8-10

Helix serial number

整数, 右

螺旋序号

12-14

Helix identifier

字符, 右

螺旋标识符

16-18

Initial residue name

字符, 右

起始残基名称

20

Chain identifier

字符

链标识符

22-25

Residue sequence number

整数, 右

残基序列号

26

Code for insertions of residues

字符

残基插入码

28-30

Terminal residue name

字符, 右

终止残基名称

32

Chain identifier

字符

链标识符

34-37

Residue sequence number

整数, 右

残基序列号

38

Code for insertions of residues

字符

残基插入码

39-40

Type of helix

整数, 右

螺旋类型注1

41-70

Comment

字符, 左

注释

72-76

Length of helix

整数, 右

螺旋长度

注1: 螺旋类型有如下几种:

  • 1: Right-handed alpha (default) 右手α螺旋(默认)
  • 2: Right-handed omega 右手ω螺旋
  • 3: Right-handed pi 右手π螺旋
  • 4: Right-handed gamma 右手γ螺旋
  • 5: Right-handed 3/10 右手3/10螺旋
  • 7: Left-handed omega 右手ω螺旋
  • 6: Left-handed alpha 右手α螺旋
  • 8: Left-handed gamma 右手γ螺旋
  • 9: 2/7 ribbon/helix 2/7带状螺旋
  • 10: Polyproline 聚脯氨酸

SHEET记录

数据

格式, 对齐

说明

1-5

SHEET

字符

8-10

Strand number (in current sheet)

整数, 右

束编号(当前片层中)

12-14

Sheet identifier

字符, 右

片层标识符

15-16

Number of strands (in current sheet)

整数, 右

束数目(当前片层中)

18-20

Initial residue name

字符, 右

起始残基名称

22

Chain identifier

字符

链标识符

23-26

Residue sequence number

整数, 右

残基序列号

27

Code for insertions of residues

字符

残基插入码

29-31

Terminal residue name

字符, 右

终止残基名称

33

Chain identifier

字符

链标识符

34-37

Residue sequence number

整数, 右

残基序列号

38

Code for insertions of residues

字符

残基插入码

39-40

Strand sense with respect to previous

整数, 右

相对于前一个片层的类型注2

以下字段标识两个原子,第一个位于当前片层, 第二个位于前一片层,它们彼此之间以氢键相连.对束1这些字段应留空.

42-45

Atom name (as per ATOM record)

字符, 左

原子名称(每个ATOM记录一个)

46-48

Residue name

字符, 右

残基名称

50

Chain identifier

字符

链标识符

51-54

Residue sequence number

整数, 右

残基序列号

55

Code for insertions of residues

字符

残基插入码

57-60

Atom name (as per ATOM record)

字符, 左

原子名称(每个ATOM记录一个)

61-63

Residue name

字符, 右

残基名称

65

Chain identifier

字符

链标识符

66-69

Residue sequence number

整数, 右

残基序列号

70

Code for insertions of residues

字符

残基插入码

注2: 类型标识:

  • 1: 平行
  • -1 反平行
  • 0: 用于束1

格式说明

对于熟悉FORTRAN程序语言的用户, 下面是格式说明

  • ATOMHETATM: Format ( A6,I5,1X,A4,A1,A3,1X,A1,I4,A1,3X,3F8.3,2F6.2,6X,A4,A2,A2 )
  • SSBOND: Format ( A6,1X,I3,1X,A3,1X,A1,1X,I4,A1,3X,A3,1X,A1,1X,I4,A1,23X,2I3,1X,2I3 )
  • HELIX: Format ( A6,1X,I3,1X,A3,2(1X,A3,1X,A1,1X,I4,A1),I2,A30,1X,I5 )
  • SHEET: Format ( A6,1X,I3,1X,A3,I2,2(1X,A3,1X,A1,I4,A1),I2,2(1X,A4,A3,1X,A1,I4,A1) )

在FORTRAN语言的输入/输出格式中, X表示输入/输出空格; An表示输入/输的字符串占n位, 左对齐; In表示输入/输的整数占n位, 左对齐; Fm.n表示输入/输的浮点数占m位, 其中小数点后的数字占n位. 这些格式前面的整数则表示重复次数, 如23X表示23个空格, 3F8.3表示F8,3格式重复三次.

如果你使用其他程序语言, 可根据上面的格式说明转换为相应的形式.

PDB文件示例

单链蛋白

胰升血糖素(Glucagon)是一个小蛋白, 29个残基处于单条链中. 第一个残基是终端为氨的氨基酸HIS, 接着的是SER和GLU残基. 坐标部分开头如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   HIS     1      49.668  24.248  10.436  1.00 25.00
ATOM      2  CA  HIS     1      50.197  25.578  10.784  1.00 16.00
ATOM      3  C   HIS     1      49.169  26.701  10.917  1.00 16.00
ATOM      4  O   HIS     1      48.241  26.524  11.749  1.00 16.00
ATOM      5  CB  HIS     1      51.312  26.048   9.843  1.00 16.00
ATOM      6  CG  HIS     1      50.958  26.068   8.340  1.00 16.00
ATOM      7  ND1 HIS     1      49.636  26.144   7.860  1.00 16.00
ATOM      8  CD2 HIS     1      51.797  26.043   7.286  1.00 16.00
ATOM      9  CE1 HIS     1      49.691  26.152   6.454  1.00 17.00
ATOM     10  NE2 HIS     1      51.046  26.090   6.098  1.00 17.00
ATOM     11  N   SER     2      49.788  27.850  10.784  1.00 16.00
ATOM     12  CA  SER     2      49.138  29.147  10.620  1.00 15.00
ATOM     13  C   SER     2      47.713  29.006  10.110  1.00 15.00
ATOM     14  O   SER     2      46.740  29.251  10.864  1.00 15.00
ATOM     15  CB  SER     2      49.875  29.930   9.569  1.00 16.00
ATOM     16  OG  SER     2      49.145  31.057   9.176  1.00 19.00
ATOM     17  N   GLN     3      47.620  28.367   8.973  1.00 15.00
ATOM     18  CA  GLN     3      46.287  28.193   8.308  1.00 14.00
ATOM     19  C   GLN     3      45.406  27.172   8.963  1.00 14.00

注意到, 每一行(记录)都以记录类型ATOM开始, 记录中的下一项是原子序号.

原子名称是ATOM记录中的第三项, 它的前一或二个字符包含原子类型的元素符号. 所有以C开始的原子名称都代表碳原子, 同理, N代表氮原子, O代表氧原子. 原子名称的下一字符为远程标识符, 表示离氨基碳原子的远近, 含义如下

  • A: α
  • B: β
  • G: γ
  • D: δ
  • E: ε
  • Z: ζ
  • H: η

如果需要, 原子名称的最后一个字符可以代表分支标识符.

ATOM记录的下一数据字段为残基类型. 注意, 每一 记录都包含残基类型. 在上面的例子中, 链中的第一个残基为HIS, 第二个为SER.

ATOM记录的下一数据字段为残基的序列号. 注意到, 残基从HIS变为SER后, 残基序列号从1变为2. 两个相同的残基可能相邻, 因此残基编号对于区分它们非常重要.

ATOM记录的下三个数据字段分别为原子的X, Y, Z坐标. 后面接着的数据字段是占有率. 最后的数据字段是温度因子(也称B值).

胰升血糖素的PDB文件以这种方式继续下去, 直至最后一个残基

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM    239  N   THR    29       3.391  19.940  12.762  1.00 21.00
ATOM    240  CA  THR    29       2.014  19.761  13.283  1.00 21.00
ATOM    241  C   THR    29        .826  19.943  12.332  1.00 23.00
ATOM    242  O   THR    29        .932  19.600  11.133  1.00 30.00
ATOM    243  CB  THR    29       1.845  20.667  14.505  1.00 21.00
ATOM    244  OG1 THR    29       1.214  21.893  14.153  1.00 21.00
ATOM    245  CG2 THR    29       3.180  20.968  15.185  1.00 21.00
ATOM    246  OXT THR    29       -.317  20.109  12.824  1.00 25.00
TER     247      THR    29

注意, 这一残基包含额外的氧原子OXT, 它处于末端羰基上. TER记录终止了氨基酸链.

双链蛋白

更复杂的一个蛋白, 胎血红蛋白(fetal hemoglobin), 包含两条残基酸链(α和γ), 以及两个血红素基团. 这个蛋白坐标部分的前10行内容如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL A   1       6.280  17.225   4.929  1.00  0.00
ATOM      2  CA  VAL A   1       6.948  18.508   4.671  1.00  0.00
ATOM      3  C   VAL A   1       8.436  18.338   4.977  1.00  0.00
ATOM      4  O   VAL A   1       8.813  17.657   5.941  1.00  0.00
ATOM      5  CB  VAL A   1       6.317  19.598   5.527  1.00  0.00
ATOM      6  CG1 VAL A   1       6.959  20.999   5.376  1.00  0.00
ATOM      7  CG2 VAL A   1       4.819  19.636   5.383  1.00  0.00
ATOM      8  N   LEU A   2       9.259  18.958   4.152  1.00  0.00
ATOM      9  CA  LEU A   2      10.715  18.872   4.330  1.00  0.00
ATOM     10  C   LEU A   2      11.156  20.058   5.187  1.00  0.00

数据文件与上面胰升血糖素的基本一样, 除了第五个数据字段包含单个字符的链标识符A, 它标识血红蛋白分子的α链. 而在胰升血糖素的例子中, 这一字段为空. 在链A的终止处, 出现血红素基团的记录

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM   1058  N   ARG A 141      -6.576  12.834 -10.275  1.00  0.00
ATOM   1059  CA  ARG A 141      -8.044  12.831 -10.214  1.00  0.00
ATOM   1060  C   ARG A 141      -8.186  14.096  -9.365  1.00  0.00
ATOM   1061  O   ARG A 141      -7.591  15.139  -9.671  1.00  0.00
ATOM   1062  CB  ARG A 141      -8.579  11.531  -9.580  1.00  0.00
ATOM   1063  CG  ARG A 141      -8.386  11.441  -8.054  1.00  0.00
ATOM   1064  CD  ARG A 141      -8.727  10.045  -7.568  1.00  0.00
ATOM   1065  NE  ARG A 141      -9.095  10.056  -6.143  1.00  0.00
ATOM   1066  CZ  ARG A 141      -9.268   8.931  -5.414  1.00  0.00
ATOM   1067  NH1 ARG A 141      -8.602   8.795  -4.282  1.00  0.00
ATOM   1068  NH2 ARG A 141     -10.097   7.962  -5.830  1.00  0.00
ATOM   1069  OXT ARG A 141      -8.973  13.984  -8.310  1.00  0.00
TER    1070      ARG A 141
HETATM 1071 FE   HEM A   1       8.133   8.321 -15.014  1.00  0.00
HETATM 1072  CHA HEM A   1       8.863   8.752 -18.417  1.00  0.00
HETATM 1073  CHB HEM A   1      10.362  10.946 -14.389  1.00  0.00
HETATM 1074  CHC HEM A   1       8.482   7.374 -11.743  1.00  0.00
HETATM 1075  CHD HEM A   1       6.982   5.180 -15.773  1.00  0.00
HETATM 1076  N A HEM A   1       9.452   9.545 -16.178  1.00  0.00

α链中最后一个残基为ARG, 额外的氧原子OXT同样出现在末端羰基基团中. TER记录标识了多肽链的结束. 在多肽链的结束处使用TER记录非常重要, 这样, 才不至于将一条链的终结处与另一条链的起始处相连.

上面的例子中, TER记录是正确的, 并且应该存在. 但是, 即便没有TER记录标识, 分子链仍然应该在某处终止, 因为HETATM残基不会与其他残基相连, 或互相相连. 作为单个残基的血红素基团由HETATM记录组成.

在α链血红素基团的结束处, γ链开始出现:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM 1109  CAD HEM A   1       7.582   6.731 -20.480  1.00  0.00
HETATM 1110  CBD HEM A   1       8.992   6.848 -20.968  1.00  0.00
HETATM 1111  CGD HEM A   1       8.998   6.529 -22.465  1.00  0.00
HETATM 1112  O1D HEM A   1       9.693   5.683 -22.895  1.00  0.00
HETATM 1113  O2D HEM A   1       8.276   7.153 -23.229  1.00  0.00
ATOM   1114  C   ACE G   0       7.896 -18.462  -1.908  1.00  0.00
ATOM   1115  O   ACE G   0       7.246 -18.839   -.922  1.00  0.00
ATOM   1116  CH3 ACE G   0       9.415 -18.301  -1.832  1.00  0.00
ATOM   1117  N   GLY G   1       7.354 -18.174  -3.077  1.00  0.00
ATOM   1118  CA  GLY G   1       5.904 -18.282  -3.283  1.00  0.00
ATOM   1119  C   GLY G   1       7.139 -19.112  -2.930  1.00  0.00
ATOM   1120  O   GLY G   1       7.026 -20.248  -2.448  1.00  0.00
ATOM   1121  N   HIS G   2       8.300 -18.533  -3.176  1.00  0.00
ATOM   1122  CA  HIS G   2       9.565 -19.224  -2.889  1.00  0.00

这里, 新链的开始隐含着TER记录存在. 新链的标识符为G. 整个文件以与前面相同的模式继续下去, 到整条γ链及其血红素结束.

数据字段中的空格非常关键. 如果没有提供数据, 相应的字段应该留空. 例如, 仅包含单条氨基酸链的蛋白没有链标识符, 因此, 22列应该留空.

对于上面的例子, 看起来PDB格式依赖于 残基 的概念. 残基的规则总结如下:

  1. 所有处于单个残基内的原子都必须具有唯一的名称. 例如, 残基VAL可能只有一个名称为CA的原子. 其他残基可能也含有CA原子, 但VAL中出现的CA不能超过一个.
  2. 残基名称最大长度为三个字符, 并且能唯一地标识残基类型. 因此, 文件中具有给定名称的所有残基都具有相同的残基类型, 相同的结构. 每个特定残基在PDB文件中出现时都应具有相同的原子和连接性.

PDB格式文件中的常见错误

如果一个PDB文件无法正常展示, 在其成百上千行数据中找到错误位置有时很困难. 这里给出PDB文件中一些最常见的错误.

程序创建的PDB文件

虚假的超长键

由程序创建的PDB文件中, 常见的一种错误会导致在本来不该相连的残基间显示出非常长的键. 这种错误来自于缺少了分子链结束处的TER记录. 根据PDB标准, TER记录标识了分子链的结束. 文件中如果缺失了TER记录, 应该插入它们. 或者, 作为替代方法, 对每条链使用不同的链标识符.

显示超长键的第二个常见原因是不正确地使用ATOM记录, 而不使用HETATM记录. HETATM记录应该用于那些不形成链的化合物, 如水或血红素. 许多程序创建的PDB文件没有正确地使用HETATM记录. 在这种情况下, ATOM记录的开头 6 列应改为HETATM, 这样, 其余列的排列仍然正确.

未正确排列的原子名称

PDB记录中未正确排列的原子名称可能导致问题. ATOMHETATM记录中的原子名称由下列内容组成: 元素符号(如C), 对齐在13-14列中; 远程标识字符(如A), 对齐在15-16列中. 许多程序只是简单地从第13列开始将整个原子名称左对齐. 在下面血红蛋白的一部分文件中可以清楚地看到区别:

正确的

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM  976 FE   HEM     1      12.763  34.157   9.102  1.00  0.00
HETATM  977  CHA HEM     1      16.124  33.461  10.405  1.00  0.00
HETATM  978  CHB HEM     1      11.350  32.580  12.046  1.00  0.00
HETATM  979  CHC HEM     1       9.326  34.709   7.887  1.00  0.00
HETATM  980  CHD HEM     1      14.138  35.379   6.119  1.00  0.00

错误的

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM  976  FE  HEM     1      12.763  34.157   9.102  1.00  0.00
HETATM  977  CHA HEM     1      16.124  33.461  10.405  1.00  0.00
HETATM  978  CHB HEM     1      11.350  32.580  12.046  1.00  0.00
HETATM  979  CHC HEM     1       9.326  34.709   7.887  1.00  0.00
HETATM  980  CHD HEM     1      14.138  35.379   6.119  1.00  0.00

手动创建的PDB文件

重复的原子名称

在手动创建的PDB文件中, 一个可能的编辑错误是, 对于一个给定残基中的所有原子没有指定唯一的名称. 在下面的例子中, 残基VAL中有两个原子具有名称CA.

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL A   1       6.280  17.225   4.929  1.00  0.00
ATOM      2  CA  VAL A   1       6.948  18.508   4.671  1.00  0.00
ATOM      3  C   VAL A   1       8.436  18.338   4.977  1.00  0.00
ATOM      4  O   VAL A   1       8.813  17.657   5.941  1.00  0.00
ATOM      5  CA  VAL A   1       6.317  19.598   5.527  1.00  0.00
ATOM      6  CG1 VAL A   1       6.959  20.999   5.376  1.00  0.00
ATOM      7  CG2 VAL A   1       4.819  19.636   5.383  1.00  0.00
ATOM      8  N   LEU A   2       9.259  18.958   4.152  1.00  0.00
ATOM      9  CA  LEU A   2      10.715  18.872   4.330  1.00  0.00
ATOM     10  C   LEU A   2      11.156  20.058   5.187  1.00  0.00

取决于所用的可视化程序, 可能无法正确显示残基的连接, 或者只有当标记残基才会给出缺少CB原子的错误.

序列之外的残基

在下面的例子中, 出现于文件中的第二个残基(SER)被错误地编号为残基5. 许多可视化程序会显示残基5与残基1和3相连, 但只有当初确实需要这样时才正确. 如果残基5被假定出现在残基4和残基6之间, 它就应该出现在那里.

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  C   HIS     1      49.169  26.701  10.917  1.00 16.00
ATOM      2  CA  HIS     1      50.197  25.578  10.784  1.00 16.00
ATOM      3  CB  HIS     1      51.312  26.048   9.843  1.00 16.00
ATOM      4  CD2 HIS     1      51.797  26.043   7.286  1.00 16.00
ATOM      5  CE1 HIS     1      49.691  26.152   6.454  1.00 17.00
ATOM      6  CG  HIS     1      50.958  26.068   8.340  1.00 16.00
ATOM      7  N   HIS     1      49.668  24.248  10.436  1.00 25.00
ATOM      8  ND1 HIS     1      49.636  26.144   7.860  1.00 16.00
ATOM      9  NE2 HIS     1      51.046  26.090   6.098  1.00 17.00
ATOM     10  O   HIS     1      48.241  26.524  11.749  1.00 16.00
ATOM     11  C   SER     5      47.713  29.006  10.110  1.00 15.00
ATOM     12  CA  SER     5      49.138  29.147  10.620  1.00 15.00
ATOM     13  CB  SER     5      49.875  29.930   9.569  1.00 16.00
ATOM     14  N   SER     5      49.788  27.850  10.784  1.00 16.00
ATOM     15  O   SER     5      46.740  29.251  10.864  1.00 15.00
ATOM     16  OG  SER     5      49.145  31.057   9.176  1.00 19.00
ATOM     17  C   GLN     3      45.406  27.172   8.963  1.00 14.00
ATOM     18  CA  GLN     3      46.287  28.193   8.308  1.00 14.00

输入错误

有时字母l和数字1被互相替换了. 取决于这种错误在文件中出现的位置, 导致的问题也不一样. 错误放置的原子可能预示着错误出现在坐标字段中. 确定这种错误的一种方式是, 使用大写字母表示文件中的数据, 然后使用文本编辑器查找所有的小写字母l.

氢原子约定

PDB文件中的氢原子约定如下:

  1. 出现在ATOM记录中的氢原子, 处于特定残基所有其他原子的后面.
  2. 每个氢原子的名称根据与它相连原子的名称来确定: 名称的第一个位置(13列)为可选的数字, 当有两个或多个氢原子与同一个原子相连时才使用; 第二个位置(14列)为元素符号H; 接下来的两列包含与氢原子相连原子的远程和分支标识符(1或2个字符).

示例如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL     1     -13.090   1.966   9.741  1.00  0.00
ATOM      2  CA  VAL     1     -12.852   3.121   8.892  1.00  0.00
ATOM      3  C   VAL     1     -13.047   4.399   9.711  1.00  0.00
ATOM      4  O   VAL     1     -12.143   5.228   9.800  1.00  0.00
ATOM      5  CB  VAL     1     -13.753   3.058   7.658  1.00  0.00
ATOM      6  CG1 VAL     1     -13.930   4.446   7.036  1.00  0.00
ATOM      7  CG2 VAL     1     -13.208   2.063   6.631  1.00  0.00
ATOM      8  H   VAL     1     -13.919   1.449   9.527  1.00  0.00
ATOM      9  HA  VAL     1     -11.816   3.075   8.557  1.00  0.00
ATOM     10  HB  VAL     1     -14.734   2.707   7.977  1.00  0.00
ATOM     11 1HG1 VAL     1     -13.951   4.357   5.950  1.00  0.00
ATOM     12 2HG1 VAL     1     -14.866   4.883   7.384  1.00  0.00
ATOM     13 3HG1 VAL     1     -13.098   5.085   7.333  1.00  0.00
ATOM     14 1HG2 VAL     1     -12.623   1.298   7.142  1.00  0.00
ATOM     15 2HG2 VAL     1     -14.039   1.594   6.104  1.00  0.00
ATOM     16 3HG2 VAL     1     -12.575   2.588   5.917  1.00  0.00

在上面的例子中

  • 所有氢原子都出现在残基的其他原子之后
  • 9号原子HA与2号原子CA相连. 这两个原子的远程标识符A相同.
  • 有三个氢原子与CG1相连. 它们具有相同的远程标识符, 分支标识符, 但13列中含有区分数字, 因此每个氢原子都具有唯一的名称.
  • 当只有一个氢原子与给定原子相连时, 不需要使用数字作为氢原子名称的前缀.

氨基酸残基与核酸缩写

单字母

三字母

中文

单字母

三字母

中文

单字母

三字母

中文

单字母

中文

A

Ala

丙氨酸

I

Ile

异亮氨酸

R

Arg

精氨酸

A

腺苷

C

Cys

半胱氨酸

K

Lys

赖氨酸

S

Ser

丝氨酸

C

胞苷

D

Asp

天门冬氨酸

L

Leu

亮氨酸

T

Thr

苏氨酸

G

鸟苷

E

Glu

谷氨酸

M

Met

蛋氨酸

V

Val

缬氨酸

I

肌苷

F

Phe

苯丙氨酸

N

Asn

天门冬酰胺

W

Trp

色氨酸

T

胸苷

G

Gly

甘氨酸

P

Pro

脯氨酸

Y

Tyr

酪氨酸

U

尿苷

H

His

组氨酸

Q

Gln

谷氨酰胺

X

Unk

未指定或未知氨基酸

X

未指定或未知核酸

一些概念说明

温度因子 B-factor

The B-factor (or temperature factor) is an indicator of thermal motion about an atom. However, it should be pointed out that the B-factor is a mix of real thermal displacement, static disorder (multiple but defined conformations) and dynamic disorder (no defined conformation), and all the overlap between these definitions.

B因子也叫温度因子, 一般在晶体测定的pdb中都有, 是晶体学中的一个重要参数. 晶体学中结构因子可以表达为坐标x, y, z与Bj因子的函数. 物理学上对于Bj的表征有很多理论模型, 最成功的是由Debye和Waller提出的. 将固体内振荡的量子本质计算在内后, 他们将Bj表征为绝对温度T和其他各基本参数的函数. 由此可见, Bj与原子的质量等基本性质有关, 也与实验温度有关.

B因子体现了晶体中原子电子密度的”模糊度”(diffusion), 这个”模糊度”实际上反映了蛋白质分子在晶体中的构象状态. B因子越高, “模糊度”越大, 相应部位的构象就越不稳定. 在晶体学数据中, B因子一般是以原子为单位给出的, 我们可以换算成相应残基的B因子, 从而分析残基的构象稳定性. 另外, 计算出的B因子中实际上包含了实验中的很多因素, 如晶体结构测定的实验误差等, 精度高的晶体结构数据提供较可靠的B因子数据.

此外, 另外温度因子还和占有率相关, 如果本身结构解析过程中占有率低, 也会导致温度因子升高. 这个时候只能说是X-ray收集数据的时候这个地方的信号比较弱, 而和结构本身的构象如何, 没有关系.

PDB中的晶体学数据是以原子为单位的, 它所给出的B因子是相对于每个原子的. 统计中, 首先将原子的B因子换算成残基的B因子, 即把每个残基所有原子的B因子取平均值. 由于蛋白质分子表面残基的运动性比较大, B因子相对较高, 所以在统计中除去了这部分残基, 具体方法是将数据中B因子高的残基去掉10%, 对剩下的残基进行统计, 计算平均值.

温度因子做图后可以体现蛋白某些部位的活动性和柔韧性. 它也可以由计算rmsf得到. 在GROMACS中, g_rmsf可以将rmsf换算成B因子输出至pdb. 与晶体测定结构中的B因子相比较, 如果呈较好的相关, 可以说明模拟的过程是正常, 合理的. 但pdb中的B因子都是原子的, 一般是比较残基间的, 可以转换一下.

R-factor

In overview, the R-factor is a measure of how well a particular model structure fits the observed electron density. Or simply, “a measure of agreement between the crystallographic model and the original X-ray diffraction data”.

参考资料

来源:https://jerkwin.github.io/2015/06/05/PDB%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E/

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/136977.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年6月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat Method丨AlphaFill:用配体和辅助因子信息丰富AlphaFold模型
没有相应的辅助因子,许多蛋白质在自然界中就不会出现。比如肌红蛋白或血红蛋白需要血红素才能发生折叠。
智药邦
2023/02/14
9260
Nat Method丨AlphaFill:用配体和辅助因子信息丰富AlphaFold模型
DSSP教程:一步步教你预测蛋白质二级结构
最近在帮实验室的学姐分析一些蛋白质序列,然后就接触到了DSSP这个算法。于是写一篇小笔记,仅此来记录一下本次的使用记录。
Tom2Code
2024/03/20
2.8K0
DSSP教程:一步步教你预测蛋白质二级结构
PyRosetta—Score
Rosetta的基本功能是计算生物分子的能量或得分。Rosetta具有用于所有原子计算的标准能量函数以及用于低分辨率蛋白质表示的多个评分函数。此外,您可以通过在自定义权重中包括对您选择的项计分来定制能量函数。
DrugScience
2021/02/04
9350
IF>10 家系研究 | OGDHL变异导致神经发育谱系疾病,表现为癫痫、听力与视力障碍等
链接:https://doi.org/10.1016/j.ajhg.2021.11.003
生信宝典
2021/12/26
8590
IF>10 家系研究 | OGDHL变异导致神经发育谱系疾病,表现为癫痫、听力与视力障碍等
PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用
今天为大家介绍的是来自英属哥伦比亚大学(UBC)Jorg Gsponer团队的一篇论文。由固有无序蛋白区域(IDRs)介导的相互作用在结构特征描述方面提出了严峻挑战。IDRs非常灵活,能够采用多种结构和结合模式。受到蛋白质结构预测领域最新进展的启发,作者开始探索AlphaFoldMultimer在多大程度上能准确再现涉及IDRs的相互作用复杂性。为此,作者收集了多个数据集,涵盖了IDRs结合模式的广泛范围,并利用这些数据集来测试AlphaFold-Multimer对IDR相互作用及其动态性的预测能力。分析显示,AlphaFold-Multimer不仅能以高成功率预测各种类型的结合IDR结构,还能通过适当使用AlphaFold-Multimer的内在评分来区分真实相互作用与假象,以及不可靠预测与准确预测。研究发现,对于更加异质、模糊的相互作用类型,预测质量会下降,这可能是因为界面疏水性较低和卷曲含量较高。然而值得注意的是,某些AlphaFold-Multimer评分,如Predicted Aligned Error和residue-ipTM,与结合IDR的结构异质性高度相关,使得可以清晰地区分模糊和更均匀结合模式的预测。最后,基准测试表明,在使用全长蛋白时也可以成功预测IDR相互作用,但不如使用对应的IDRs准确。为了便于识别给定伴侣的对应IDR,作者建立了“minD”,该工具可以定位全长蛋白中的潜在相互作用位点。作者的研究表明,AlphaFold-Multimer能够正确识别相互作用的IDRs,并预测它们与给定伙伴的结合方式。
DrugAI
2024/11/27
3050
PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用
J. Chem. Inf. Model. | PlayMolecule Viewer一个用于可视化分子及其他数据的工具包
今天为大家介绍的是来由 Gianni De Fabritiis团队的开发的一个基于网络的数据可视化工具包PlayMolecule Viewer,该工具旨在简化结构生物信息学或计算机辅助药物设计中的数据探索过程。通过利用最新的如 WebAssembly等网络技术,PlayMolecule Viewer 在浏览器环境中直接整合了强大的 Python 库,增强了其处理多种分子数据的能力。PlayMolecule Viewer拥有直观的界面,使用户能够轻松地上传、可视化、选择和操作分子结构及相关数据。该工具包支持多种常见的结构文件格式,并提供多种分子表示方法,以满足不同的可视化需求。
DrugAI
2024/02/23
3490
J. Chem. Inf. Model. | PlayMolecule Viewer一个用于可视化分子及其他数据的工具包
Nat. Commun. | 融入分子动力学的粗粒度建模,MCGLPPI有效解决复合物性质预测任务
今天为大家介绍的是来自英国伯明翰大学、澳门理工大学Shan He团队与深圳大学朱泽轩的一篇论文。基于结构的机器学习算法已经被用于预测蛋白质-蛋白质相互作用(PPI)复合物的性质,例如结合亲和力,这对于理解生物机制和疾病治疗至关重要。目前,大多数现有算法在原子级或残基级表示PPI复合物的图结构,但这些表示可能计算成本高昂,或未能充分整合更精细的化学合理性互动细节。作者在此提出了一种几何表示学习框架MCGLPPI,该框架结合了图神经网络(GNNs)与MARTINI分子粗粒度(CG)模型,能够准确且高效地预测PPI整体性质。大量基于三种下游PPI性质预测任务的实验表明,在CG级别上,MCGLPPI相比原子级和残基级方法展现出具有竞争力的性能,但计算资源消耗仅为其三分之一。此外,在蛋白质结构域-结构域相互作用结构上进行CG级别的预训练,进一步增强了其在PPI任务中的预测能力。MCGLPPI为PPI整体性质预测提供了一种高效有效的解决方案,是大规模生物分子相互作用分析的一个有前景的工具。
DrugAI
2024/12/20
2330
Nat. Commun. | 融入分子动力学的粗粒度建模,MCGLPPI有效解决复合物性质预测任务
太全面了!顶刊综述教你如何从 PPIs 角度研究癌症 | Nat.Rev.Cancer
◉ a–c,肿瘤驱动基因AKT1(a)、PIK3CA(b)和IDH1(c)中的热点突变在相关蛋白质结构上显示出来。翻译为表面暴露残基的氨基酸替换突变在相关晶体结构上进行了注释和标记(蛋白质数据库(PDB)ID:4EJN(AKT1),7PG5(PIK3CA)和5YFN(IDH1))。主要突变在晶体结构上以红色突出显示并标记。◉ AKT1中的E17K替换导致增强的质膜关联和mTORC1信号传导,促进乳腺癌细胞的增殖和生长(a)。同一个驱动基因中的多个热点突变可以存在于不同的结构域中,导致多条通路的改变(b)。◉ PIK3CA在螺旋结构域内的E542或E545处的替换突变以RAS依赖的方式促进宫颈癌和头颈癌的生长。在激酶结构域内,H1047R突变通过增强膜募集促进RAS非依赖性PIK3CA激活,从而促成乳腺癌转移。◉ 同一热点位置的不同替换可能对蛋白质结构和生化活性产生相似或不同的影响(c)。由突变引起的IDH1(R132C)通过R132C上调的新酶活性促进急性髓系白血病(AML)和其他携带R132C癌症的肿瘤发生,并大幅增加R(2)-2-羟基戊二酸(2HG)致癌代谢物。◉ 相反,IDH1(R132H)突变是胶质瘤中最常见的突变,与抑制细胞增殖和下调WNT–β-catenin信号传导有关,导致侵袭性较低的表型。这些图谱是使用cBioPortal基于癌症基因组图谱泛癌图谱数据创建的。PIP3,磷脂酰肌醇3,4,5-三磷酸。
生信菜鸟团
2025/03/28
170
太全面了!顶刊综述教你如何从 PPIs 角度研究癌症 | Nat.Rev.Cancer
Julia-BioStructures
BioStructures提供了读取,写入和操纵大分子结构(蛋白质)的功能。可以将Protein Data Bank(PDB),mmCIF和MMTF格式的文件读入。还提供了访问PDB的功能。
DrugScience
2021/02/22
2.1K0
Julia-BioStructures
读懂蛋白质PDB文件
对于从事生物行业的朋友们来说,PDB文件和蛋白质结构是很多人绕不过去的问题。然而对于天天跑电泳过柱子的生物狗来说,PDB文件打开后与天书无异。这里,我转载一篇网上看到的关于PDB文件内记号说明的文章,希望对大家有用!
全栈程序员站长
2022/09/05
1.7K0
蛋白质基础组成结构
了解蛋白质的基本组成单元和结构,有助于了解蛋白质的特性。对于蛋白质结构的研究,在医药领域是非常核心的重要工作。这里我们仅仅介绍一些蛋白质的基本组成单元——20种氨基酸的种类,以及可以用于蛋白质建模的一些工具。
DechinPhy
2022/05/09
6020
蛋白质基础组成结构
氨基酸分子结构和原子命名
在前面的一篇文章中,我们讲述了蛋白质的组成结构,一共是20种氨基酸。由这20种氨基酸的排列组合,可以得到一条相应的蛋白质链,而这条蛋白质链经过各种螺旋和折叠,会得到一个最终稳定的蛋白质构象,也是我们日常生活中所能够接触到的蛋白质的存在形态。那么在上一篇文章中的表格里面,我们可以看到众多的氨基酸在蛋白质链的中间时候的构象,本文将要讲述一些其他位置所对应的构象,以及其中原子的命名法则。
DechinPhy
2022/06/19
2.4K0
氨基酸分子结构和原子命名
使用Python分析蛋白质pdb文件
首先第一个很重要的函数,通过pdb文件加载蛋白质结构,我们接下来的操作都将基于此函数的返回进行操作:
Tom2Code
2024/01/26
5430
使用Python分析蛋白质pdb文件
BioPython-PDB-1
https://biopython-cn.readthedocs.io/zh_CN/latest/
DrugScience
2021/02/04
9350
BioPython-PDB-1
分子对接简明教程 (一)
分子对接(Molecular Docking)理论 所谓分子对接就是两个或多个分子之间通过几何匹配和能量匹配相互识别找到最佳匹配模式的过程。分子对接对酶学研究和药物设计中有重要的应用意义。 分子对接计算是在受体活性位点区域通过空间结构互补和能量最小化原则来搜寻配体与受体是否能产生相互作用以及它们之间的最佳结合模式。分子对接的思想起源于Fisher E的”钥匙和锁模型”,主要强调的是空间形状的匹配。但配体和受体的识别要比这个模型更加复杂。首先,配体和受体在对接过程中会由于相互适应而产生构象的变化。其次,分子对
生信宝典
2018/02/05
15.4K0
分子对接简明教程 (一)
MindSponge分子动力学模拟——定义一个分子系统(2023.08)
在前面两篇文章中,我们分别介绍了分子动力学模拟软件MindSponge的软件架构和安装与使用教程。这里我们进入到实用化阶段,假定大家都已经在本地部署好了基于MindSpore的MindSponge的编程环境,开始用MindSponge去做一些真正的分子模拟的工作。那么分子模拟的第一步,我们就需要在MindSponge中去定义一个分子系统Molecule()。
DechinPhy
2023/09/01
3030
MindSponge分子动力学模拟——定义一个分子系统(2023.08)
瞄准SARS-CoV‑2主蛋白:一项成功的故事,基于计算的药物重定位方法
今天为大家介绍的是来自Giosuè Costa团队的一篇论文。SARS-CoV-2主蛋白(Mpro)是病毒复制的关键酶,被认为是治疗COVID-19的有吸引力的药物靶点。在这项研究中,将虚拟筛选技术和体外实验相结合,从大约8000种FDA批准的药物中筛选出了新型Mpro抑制剂。对接分析突出显示了17个有前景的最佳候选药物,从生物学角度对它们的Mpro抑制活性进行了表征。其中,有7种头孢菌素和口服抗凝药贝曲沙班能够在微摩尔范围内阻断酶活性,且在测试的最高浓度下没有细胞毒性影响。在评估与研究配体结合相关的Mpro残基的保守程度后,评估了这些配体对SARS-CoV-2复制的影响。贝曲沙班影响SARS-CoV-2复制的能力,与其抗血栓作用相关,可能为其在治疗住院COVID-19患者中的可能应用铺平了道路。
DrugAI
2023/09/27
2620
瞄准SARS-CoV‑2主蛋白:一项成功的故事,基于计算的药物重定位方法
用Python学生信
把《Python生物信息学数据管理》这本书看完了,然后也写了一些笔记,和大家分享一下。
生信技能树
2023/02/27
9800
用Python学生信
分子对接简明教程 (4)
文件格式解释 PDB文件 (详细格式描述) 基本信息部分 HEADER记录: 包括分子的分类、提交日期、PDB ID TITLE记录: 为该结构的描述,如果有多行,除第一行外,其它行有连续的数字标示。 COMPND记录: 包含分子数目、名字、链特征、分子是如何获得的等。 SOURCE记录: 大分子的生物或化学来源 KEYWDS记录:关键字 EXPDTA记录:实验信息 JRNL记录:文献引用信息 REMARK记录:更为丰富的记录信息 HEADER HYDROLASE (ACID PROTEINASE)
生信宝典
2018/02/05
3.2K0
J. Am. Chem. Soc. | UCBShift 2.0!能够预测蛋白质侧链的化学位移
今天为大家介绍的是来自奥地利维也纳大学与美国加州伯克利Teresa Head-Gordon团队的一篇论文。化学位移(chemical shifts)是一种容易获得且可以高精度测量的核磁共振观测值。由于化学位移对构象平均值和局部分子环境比较敏感,因此能够提供溶液中蛋白质结构的详细信息。为了预测蛋白质结构的化学位移,作者开发了UCBShift方法。该方法独特地融合了转移预测模块(transfer prediction module),通过序列和结构比对从实验数据库中选择参考化学位移,并结合机器学习模型(搭配X射线晶体结构中的物理启发特征)来预测蛋白质主链化学位移。在这项研究中,作者将UCBShift 1.0方法扩展到侧链化学位移预测,以实现全蛋白质分析。与广泛使用的SHIFTX2方法相比,这种方法显示出更高的准确性和可靠性。通过更丰富的经过清理的蛋白质位移-结构数据以及UCBShift算法的模块化特点,用户可以深入了解对蛋白质主链和侧链化学位移预测中残基特异性稳定相互作用重要的不同特征。作者认为UCBShift 2.0的多个前向和后向应用可以帮助验证AlphaFold结构并探索蛋白质动力学。
DrugAI
2024/12/27
1010
J. Am. Chem. Soc. | UCBShift 2.0!能够预测蛋白质侧链的化学位移
推荐阅读
相关推荐
Nat Method丨AlphaFill:用配体和辅助因子信息丰富AlphaFold模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验