网站地图
 
 
当前位置: 首页 » 资讯 » 新闻快报 » 澳门金沙真人视讯_Ex2SM:一种文本挖掘方法,用于检测生物序列中的重复字符串

澳门金沙真人视讯_Ex2SM:一种文本挖掘方法,用于检测生物序列中的重复字符串

放大字体  缩小字体 发布日期:2019-08-09 12:45  浏览次数:0
摘 要:几年来,研究人员一直在尝试使用计算方法进行精确的字符串匹配,这需要识别长串文本或数字中的重复模式。这是因为可以自动识别
      几年来,研究人员一直在尝试使用计算方法进行精确的字符串匹配,这需要识别长串文本或数字中的重复模式。这是因为可以自动识别这些重复模式的工具可以在遗传学和生物学等领域中具有许多重要的应用。
     Konstantinos F. Xylogiannopoulos是卡尔加里大学的副研究员,最近开发了一种新的文本挖掘技术,可以检测多变量生物序列中每一个可能的重复串。他的工作可以帮助专家寻找治疗严重疾病的高级治疗方法,包括遗传相关疾病,如癌症或老年痴呆症。
     “我的研究受到了一篇关于DNA序列中模式匹配的论文的启发,”Xylogiannopoulos说。 “虽然我具有生物学方面的一般知识,但由于DNA序列的大小,我从未从计算机科学的角度考虑问题的复杂性。从那时起,我致力于通过优化来简化大数据的模式检测。我的重复模式检测算法。“
     在他开始研究DNA序列中的字符串匹配后不久,Xylogiannopoulos就做了一个有趣的观察。他发现许多着名的计算机科学问题可以通过将它们转换为重复的模式检测问题而得到有效解决,而不管它们的大小或复杂程度如何。
    “例如,几个月前,谷歌宣布计算pi的前31万亿个数字。” Xylogiannopoulos说。 “然而,自2016年以来,我已经检测到pi的前1万亿个数字中存在的两个最长的重复模式,其他算法实际上是不可能的。感谢Google pi-api现在很容易验证我的发现。”在他最近的研究中,Xylogiannopoulos开发了一系列高级数据结构和算法,可用于文本挖掘。这种称为Ex2SM的技术通过一系列重要步骤实现了字符串匹配。
 
    “首先,该技术使用LERP-RSA的几个属性为预定长度(LERP)的后缀创建最长的预期重复模式减少后缀数组(LERP-RSA),例如基于DNA字母表的分类(A,C, G和T),“Xylogiannopoulos解释说。 “然后,执行所有重复模式检测(ARPaD)算法以检测至少存在两次的每个模式。对于发现长度精确为LERP的模式,执行移动LERP算法以创建新的LERP-RSA并且执行ARPaD。并行地重复该过程,直到发现所有模式,无论长度如何。“
 
     Xylogiannopoulos开发的方法允许分类和并行化。此外,它可以在完全隔离的不同硬件,软件或云系统上执行。换句话说,无论硬件限制或数据集大小如何,Ex2SM都能正常运行。然而,它与其他现有方法的真正区别在于它是输入不可知的,即它不需要输入字符串来搜索它们。
 
     “我们假设我们有一本书,每次我们需要在一章中搜索一个单词或短语,我们需要使用任何模式匹配算法重复搜索过程,”Xylogiannopoulos说。 “在这种情况下,Ex2SM可以看作是一个过程,只需执行一次过程即可生成本章中所有重复单词,短语等的'索引'。这个索引允许我们为任何类型的元素实现快速输出。通过直接对结果执行复杂和有针对性的查询进行分析(通常是一个简单的二进制搜索),据我所知,到目前为止还没有其他方法或算法实现。“
 
    有趣的是,Ex2SM可以应用于各种不同的任务。例如,它可以扩展到分析简单的章节系统(例如书籍),复杂的多变量系统(例如图书馆或书籍集合),甚至是高维多维系统(例如通用图书馆或集合库)。另一方面,当应用于生物信息学领域时,新技术可用于染色体,人类基因组,人类基因组的集合的串匹配,并且最终甚至可用于通用数据库内所有物种的基因组。
 
     在他的研究中,Xylogiannopoulos特别想要强调在生物信息学领域内深度模式检测和数据挖掘的潜在Ex2SM。值得注意的是,他成功地使用他的方法来分析整个人类基因组并揭示重复模式。这使他能够观察到,例如,存在仅存在于某些染色体中的特定类型的长重复模式。
 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  【澳门金沙真人视讯_Ex2SM:一种文本挖掘方法,用于检测生物序列中的重复字符串】相关评论

 
推荐图文
推荐资讯
点击排行