人工智能走进植物分类学领域

2017-08-21
来源:中国经济网    

  

  实现植物标本的数字化为研究人员开启了一个全新的世界。

  研究人员报告称,通过利用上千株保存下来的植物的图像对计算机算法进行训练,后者成功学会自动鉴别经过压平、干燥并被装入植物标本卡的物种。

  这项日前发表于《BMC进化生物学》杂志的研究,是利用深度学习解决鉴别自然历史馆藏中的物种这一艰巨的分类任务的首次尝试。深度学习是一种教会神经网络利用大型复杂数据集的人工智能技术。

  全球自然历史博物馆正竞相实现馆藏数字化,即将标本图像存入开放的数据库中,从而使任何地方的研究人员都能搜寻到。其中一个数据聚合者——美国国家科学基金的iDigBio项目,拥有来自全美馆藏的1.5亿余张植物和动物图像。

  全球约有3000多个植物标本室,据估测保存着3.5亿个标本——仅有一小部分实现了数字化。然而,不断扩大的数据集以及计算技术的发展,吸引着哥斯达黎加科技学院计算机专家Erick Mata-Montero和法国农业研究国际发展中心植物学家Pierre Bonnet想看看他们可以如何利用这些数据。

  Bonnet带领的团队已通过Pl@ntNet项目在实现植物鉴别自动化方面取得进展。它累积了上百万张新鲜植物的图像。人们在田野中采集了这些植物,并且通常利用智能手机上的软件识别样本。

  研究人员利用扫描植物标本卡获得的2.6万余幅图像对类似算法进行了训练。该计算机程序最终能以近80%的准确度鉴别出植物物种。宾夕法尼亚州立大学古植物学家Peter Wilf表示,这可能比分类学家的表现好很多。

  Bonnet说,此类结果经常会令植物学家担心,其中很多人感觉他们的领域被低估。“人们感觉此类技术将降低植物学专业知识的价值。”Bonnet表示,“但这种方法只有在人类经验的基础上才可能成功。它将永远不会消灭掉人类专业知识。”而且,人们仍需要证实这些结果。

  这种方法或能帮助植物标本室处理新的样本,从而简化有时需要好几个小时才能完成的繁琐任务。类似努力还会在开展其他项目时派上用场,比如目前正在进行的让人们手动标出哪些植物标本以花或者树为特征的众包项目。iDigBio项目数字化专家、佛罗里达州立大学植物学家Gil Nelson表示,研究人员肯定会非常欢迎用一种自动化的方式做这件事情。

  Bonnet介绍说,该算法还能帮助较小的植物标本室鉴别物种。他带领的团队发现,利用来自大型标本室的大规模数据集训练算法,改善了对来自数据相对贫乏地区的植物进行识别分类的努力。此项发现对于生物多样性丰富但拥有较少植物馆藏的地区来说尤其有用。

  同时,这种深度学习方法将使研究人员得以开展额外的分析工作。植物样本含有丰富的数据:比如,样本是何时、何地被采集的,采集时植物是正在开花还是在结果实以及花簇密集程度如何。由于一些样本已有上百年历史,因此这些数据能描述出植物如何适应气候变化的图像。该领域在气候变化的大背景下正日益引发广泛关注。

  Nelson表示,包括鉴别研究在内的类似努力是数字化的下一阶段。“我们正试图向可用来挖掘这些图像的深层含义并从中获得有用数据的方法过渡。”Nelso说,“这是我们目前关注的焦点。”

  该项目并不局限于植物标本室。Nelson介绍了正在进行的实现果蝇鉴别自动化的努力,而Wilf正同合作者一道,对植物化石开展类似分析。此类化石带来了其他问题,部分原因在于它们以各种形式存在——变成化石的果实和花朵、石化的树干或者留在岩石中的叶子。相比之下,植物标本卡要统一得多:平整、干燥,并且通常放在标准尺寸的纸上。不过,尽管该领域尚存一些细节问题,但Wilf坚信,它们终将被破解。