UVA Health 研究人员正在开发一种新工具来推进基因组学和疾病研究
UVA Health 研究人员开发了一种重要的新工具,可以帮助科学家在研究癌症和其他疾病的遗传原因时区分信号和噪音。除了推进研究并可能加速新疗法之外,该新工具还可以使医生更轻松地检测癌细胞,从而帮助改善癌症诊断。这个新工具由 UVA 博士 Chongzhi Zang 及其团队和合作者开发,是一个数学模型,将有助于确保有关我们染色体的组成部分(称为染色质的遗传物质)的“大数据”的完整性。染色质 – 一种...

UVA Health 研究人员正在开发一种新工具来推进基因组学和疾病研究
UVA Health 研究人员开发了一种重要的新工具,可以帮助科学家在研究癌症和其他疾病的遗传原因时区分信号和噪音。 除了推进研究并可能加速新疗法之外,该新工具还可以使医生更轻松地检测癌细胞,从而帮助改善癌症诊断。
这个新工具由 UVA 博士 Chongzhi Zang 及其团队和合作者开发,是一个数学模型,将有助于确保有关我们染色体的组成部分(称为染色质的遗传物质)的“大数据”的完整性。 染色质(DNA 和蛋白质的组合)在控制基因活性方面发挥着重要作用。 当染色质出现问题时,它会将健康细胞变成癌症或导致其他疾病。
遗传学与基因组学电子书
去年热门采访、文章和新闻的汇编。 下载免费副本
科学家现在可以使用一种称为单细胞 ATAC-seq 的尖端技术来研究单个细胞中的染色质,但这会产生大量数据,包括大量噪声和失真。 臧的新工具打破了这一点,使科学家免遭错误线索和浪费精力。
臧说,在最好的情况下,对单细胞的大规模基因组研究就像“大海捞针”。 但他的新工具可以清除大量坏干草,让事情变得容易得多。
在传统的数据分析方式中,您可能会看到一些模式看起来像是特定染色质状态的真实信号,但由于实验技术本身的偏差,这些模式是错误的。 这种虚假信号会让科学家感到困惑。 我们开发了一个模型来更好地捕获和过滤掉此类错误信号,以便我们正在寻找的真正的针可以更容易地从干草中脱颖而出。”
Chongzhi Zang 博士,UVA 公共卫生基因组学中心和 UVA 健康癌症中心的计算生物学家
关于基因组学工具
Zang 的新工具采用了数论和密码学中的模型,称为“单纯形编码”。 他和他的同事用它来将 DNA 序列编码为数学形式,并最终将复杂的基因组序列转换为更简单的数学形式。 然后,您可以比较不同的形状,以检测序列数据中使用传统方法不易发现的失真和噪声。
“DNA 序列的复杂性随着长度的增加而呈指数级增加。它们很难建模,因为典型的数据集包含来自数千个细胞的数百万个序列,”Zang 实验室的研究员、这项工作的主要作者 Shenen Shawn Hu 博士说。 “但是,由于其优美的数学特性,单纯形编码模型可以提供对序列失真的准确估计。”
该工具的测试表明,它在分析复杂的单细胞数据以表征不同细胞类型方面明显更好。 这对于基础生物学研究和疾病诊断都很重要,医生需要在更大的样本(从数万到数百万个细胞)中检测极少量的疾病细胞。
“这些扭曲并不容易被发现,因为它们与真实信号交织在一起,并隐藏在大量数据中。如果人们只是从大量细胞中挑选出最强的信号,这可能不是什么大问题,”臧说。他最近共同领导了其他几项单细胞基因组学研究,研究冠状动脉疾病和肠道发育。 “但是,当你查看单细胞数据时,不再有任何唾手可得的成果。单个细胞水平上的信号总是很弱,噪声和失真的影响可能是灾难性的。偏差校正经常被忽视,但在单细胞数据分析中可能至关重要。”
为了使他们的新工具广泛使用,研究人员开发了免费的开源软件并将其放在网上。 该软件可以在以下位置找到: https://github.com/zang-lab/SELMA 并在 https://doi.org/10.5281/zenodo.7048767 。
“我们希望这个工具能够使生物医学研究界在染色质生物学和基因组学研究方面受益,并最终支持疾病研究,”臧说。 “看到我们的同事如何使用我们开发的工具在自己的研究中取得重要的科学发现总是令人兴奋。”
结果公布
研究人员在《自然通讯》杂志上发表了他们的研究结果。 (本文是开放获取的,意思是免费阅读。)该团队由 Shenen Shawn Hu、Lin Liu、Qi Li、Wenjing Ma、Michael J. Guertin、Clifford A. Meyer、Ke Deng、Tingting Zhang 和 Chongzhi Zang 组成。
Zang 是 UVA 公共卫生科学系、生物化学与分子遗传学系以及生物医学工程系的成员。 生物医学工程系是 UVA 医学院和工程学院的合作项目。
这项工作得到了美国国立卫生研究院 R35GM133712、K22CA204439 和 R35GM128635 拨款的支持; 美国国家科学基金会,授予 NSF-796 2048991; 匹兹堡大学计算研究中心; 弗吉尼亚大学癌症中心; 以及 NIH 国家癌症研究所癌症中心支持拨款 P30 CA44579。
来源:
参考:
胡,SS,等人。 (2022) 使用 SELMA 进行内在偏差估计,以改进批量和单细胞染色质可及性分析。 自然交流。 doi.org/10.1038/s41467-022-33194-z 。
。