大数据无处不在。该术语集体指的是计算机处理和分析方面的突破,使研究人员能够有效地分析大量复杂数据。大数据的新兴领域正在为包括农业在内的许多行业带来变革性的见解。建立可以将大数据用于开发农业研究的数字平台是使Medha Devare在夜间保持清醒的挑战。
Devare博士是一名高级研究员国际食品政策研究所(ifpri)。她从康奈尔大学获得了作物和土壤科学的博士学位,并曾担任农艺师cgiar,国际农业发展研究中心的全球网络。此前,Medha领导了尼泊尔的一个项目,以提高农业系统的生产率和盈利能力,与农民紧密合作,以实施可持续的管理实践。
目前,Medha是农业大数据的CGIAR平台,一项计划,旨在增加CGIAR 15个研究中心及以后的大数据工具的使用。该平台有三个模块:组织,召集和启发。Medha是该平台组织模块的负责人,旨在动员CGIAR和其他地方的大量农业研究数据产生新的见解和增加农业研究的影响。
w88优德老虎机平台食品坦克有机会与Devare博士交谈,以了解有关她的工作的更多信息。
w88优德老虎机平台食品坦克(FT):作为大数据平台的组织模块的负责人,您如何处理从CGIAR的15个研究中心管理数据的任务?
Medha Devare博士(MD):cgiar的打开访问和打开数据(OA-OD)政策于2013年底生效,要求所有CGIAR研究中心和计划都可以公开访问其研究数据和发现。为了帮助实施这项政策,法案和梅琳达·盖茨基金会(Melinda Gates Foundation)资助了公开访问和开放数据计划,我在2015年领导了该计划。农业大数据平台的组织模块是通过该计划开始的工作的扩展。
我们越来越多地谈论开放数据,而是谈论公平,可访问,可互操作和可重复使用的数据。我们意识到,为了充分收获大数据的好处,我们需要为研究人员和个别数据中心提供支持,并澄清以下问题:我们将如何使数据可找到?我们可以使用哪些标准来确保数据互操作性?公平的每个元素都有相关的指标,使该概念易于实现,并且不太开放解释。
应用公平原则使数据更容易访问,以便大数据分析生成新的见解。因此,我们正在尝试以15个中心的不同方式支持数据管理工作,以实现公平数据的更广泛的目标。在很大程度上,这些努力的重点是“ I”或数据互操作性,这些互动性往往很难实现,所有工作都需要注意技术问题和文化变革的需求。
FT:您能解释Gardian背后的想法,Gardian是CGIAR的新数字基础架构吗?
MD:为了实现使农业数据可找到的目标,该平台创建了加德亚人,或全球农业研究数据创新与加速网络。将其视为一种Google搜索,目前可以在CGIAR中心发现信息资源。通常,每个中心至少有两个存储库:一个用于数据,另一个用于出版物,它们在通常不相互交流的不同平台上。因此,我们需要一种方法,人们可以使用单个或多个关键字(土壤,水,耐旱玉米,您将其命名)搜索跨中心和存储库来识别跨cgiar的该主题存在的资源。
Gardian目前可以发现大约100,000个出版物和2,000多个数据集,将数据和相关出版物链接起来以促进解释。尽管Gardian的搜索目前遍布CGIAR中心,但它将很快允许用户从其他平台找到农业资源。它允许发现农业信息非常轻松,快速地发现,而无需了解数据来自数据的结构,存储库或网址是什么,或者通过一般Web的结果梳理。搜索将产生。
FT:一旦通过Gardian获得数据,下一步是什么?
MD:除了使农业资源可发现,标记和分类以及可通过Gardian下载之外,我们的主要目标之一就是启用发现的数据与模型和分析工具无缝集成。我们希望赋予用户能力,不仅可以通过Gardian找到数据,还可以轻松地在视觉上探索它。
我们的另一个重要功能是将各种数据集组合和汇总以使新见解的生成能力。这很可能需要我们几年才能实施;需要以一致,标准化的格式在各学科中简化数据。与数据进行沟通就像使用任何其他语言,以及如何结构化数据(语法或语法),其含义必须一致,以使研究人员结合来自不同来源的数据集。
这并不是关于创建新的分析,而是要组织数据,以便它可以被人类和机器解释,并且易于插入现有工具。许多相关性的模型和决策支持系统已经存在 - 我们需要弄清楚如何以最佳方式使用它们。
FT:您作为土壤科学家的背景如何在微观层面上处理数据,影响了您在平台上的工作并处理庞大的CGIAR组织的数据?
MD:在康奈尔大学完成博士学位后,我开始研究用于研究土壤微生物的分子技术及其对转基因作物的可能反应。我正在使用分子数据和工具国家生物技术信息中心(NCBI),看到他们做了什么,这绝对令人震惊。从1980年代开始,NCBI认识到,除非生物医学,基因组学,遗传学和盟军部门开始共享数据,否则尽管资金投资于这些部门,但最具变革性的见解和创新可能是难以捉摸的。
NCBI’s efforts began with an attempts to bring together publications and data from across domains in the biomedical and related sciences—including micro-level genetics and genomics data—employing consistent standards and formats which enable researchers to find data from different sources and very easily plug it into a number of analytical tools. I realized we needed a similar approach to enable transformative research and development in the agricultural sector. I have been wanting to build something akin to the NCBI for agriculture for a long time.
FT:您还曾在该领域担任农艺师,为农民提供指导,以改善其农业生产系统。这种经验如何为您在平台上的工作提供信息?
MD:该平台的目标之一是为农民提供可行的选择。作为野外农艺师,我管理了一个与尼泊尔一些最贫穷地区的农民一起工作的项目。在大多数情况下,农民有简单的问题:“这个米季我该怎么办?我应该指导种子大米,还是应该设置一个苗圃进行移植?如果我指导种子,我应该使用什么品种,如何以最高的产量管理农作物?”
领导该项目使我意识到在管理数据并确保我们充分利用以前生成的数据和信息方面需要做得更好。我尝试做的第一件事是标准化我管理的团队如何收集数据。尽管我努力为数据收集创建模板,但我收到了描述不佳的数据,这些数据需要数天的格式以进行整个网站进行有意义的分析。这让我感到震惊,这是一个浪费时间。为什么我们不能在收集点而不是在末尾获得数据的形状?
当我有机会领导OA-OD倡议时,我意识到这是我获得这些标准并建立NCBI型农业功能的机会。我认为,要改变农业研究的发展,我们需要共享井井有条,组织良好,标准化和可互操作的数据,以便可以通过人类或计算机对其进行分析。
我们应该能够通过将公平的数据用于天气,农作物,管理制度和市场来为农民提供更好的特定地点决策支持。例如,稻农想要知道是否指导种子或移植大米,这可能会通过使用短到中期天气预测的决策支持和基于管理,多样性和产量数据的模型来帮助。
FT:大数据平台的最大机会是什么?
MD:第一个机会只是将投资回报率提高到农业发展。第二个机会是以一种对许多层面的决策有所不同的方式使用数据:对于农民,决策者,推广代理商等。为了解决全球挑战,我们已经有很好的描述,通知,可互操作,可重复使用,可读的数据。这需要时间和金钱,但从长远来看可以节省更多的时间和金钱。民主化访问数据访问和数据共享也有很大的机会。我们希望为研究人员提供不仅找到和使用他人数据的手段,还可以分享自己的研究成果。