核心提示:微软研究院科学家Jim Gray(图灵奖获得者— “计算机界诺贝尔奖”之称)在2007年提出了“以数据为基础的科学研究第四范式”的概念,研究方法已经从“我应该设计个什么样的实验来验证这个假设?”逐渐发展为“从这些已知的数据中我能够看到什么相关性?”,实验仪器产生的大量数据将成为图书馆数据的一部分,图书馆在数据密集时代遇到了新挑战。
本博文根据重庆示范大学期刊中心主任,中国高校科技期刊研究会学术委员会主任李若溪编审在中国科技期刊发展论坛中的报告“数据密集型科学环境中科技期刊的数字化走向”PPT编写而成,标题部分编者有所改动。
进化数据爆炸和应运而生的数据处理技术,使科学走到了“数据密集型”研究范式
随着数字化、网络化的进程加快,信息爆炸、数据爆炸引来了科学研究的范式转化,新的范式,微软研究院科学家Jim Gray(图灵奖获得者— “计算机界诺贝尔奖”之称)在2007年提出了“以数据为基础的科学研究第四范式”(The fourth paradigm: data-intensive scientific discovery)的概念,研究方法已经从“我应该设计个什么样的实验来验证这个假设?”逐渐发展为“从这些已知的数据中我能够看到什么相关性?”
◆ 大型天文观察望远镜LSST(Large Synoptic Survey Telescope )投入运行后第一年
生产的数据达到1.28PB(1×1015Bytes)。
◆ 欧洲分子生物实验室核酸序列数据库EMBL-Bank 收到数据的速度每年递增200%。
◆ 人类基因组计划2008年生产数据1万亿碱基对,2009年速率又翻一番。
◆ 医学科学的数据爆炸:在生物医学文献编目中已经有1800万医学文章现在每年增加接近百万篇。
◆ 100年前,一个内科医生知道医学的全面知识。今天,一个基层医生需要知道10000种疾病、3000种药物和1100多种实验室检查才能跟上发展步伐。
基于数据研究的投入高效性
在科学研究的金字塔中,处于塔尖的大型项目屈指可数(如国际合作项目等),大型项目一般有充足的经费支撑软件和硬件的预算,专门为实验建立数据和网络基础设施。
◆ 微软研究院推出的全球望远镜 worldwide telescope WWT
是宇宙探索工具
聚集了大量星云、星座、行星以及宇宙全景等图像数据
免费提供给用户浏览、做研究
用户可在桌面上浏览夜空
数据来自哈勃望远镜及分布于世界各地的10来个天文望远镜
WWT处理的数据实现了远程无缝链接:当观察者注意到一个非同寻常的波长或位置的数据,他可以点击那里,同时远程链 接到相关期刊文章上或数据库上。
◆ 基于excel 的数据管理、搜索、转换工具。你可以对自己的excel 表格中关于天体定位、几何形态等数据直接生成图像。你也可以链接远程的期刊论文、数据库等等
◆ 给科研人员节省了大量重复操作的时间,大大提高工作效率
云计算
◆ 数据云,数据流技术
◆ 对付海量数据加工难题,云计算是很好的办法
◆ 云计算(cloud computing)是一种基于互联网的计算方式,将庞大的计算程序自动分拆成无数个较小的子程序,交由多部服务器组成的系统进行搜索和计算,最后又将处理结果返回给用户
◆ 能够在数秒钟之内处理以亿计的信息
◆ 其特点,就是把分散的用户电脑要计算的内容全部放到服务器上运算,个人的电脑只负责显示结果
◆ 微软卫生库(Microsoft Health Vault)
◆ 谷歌卫生(Google Health)
◆ 都是基于因特网的“用户数据云”
临床病人的数据输入里面形成云
用户数据云为新医学知识即刻传达至病人提供了可能
◆ 维基百科也是用户数据云
发展中国家的大量医学知识和信息还停留在论文纸面上,即使数字化信息也常常是驻留在分散的数据库中。基础设施缺乏和基层组织管理水平低等,妨碍了数据挖掘和分析。
数据与文献的融合-图书馆的新挑战
出版的文献仅仅是全部研究数据的冰山一角。期刊数字化,是要达到文献与所有科学数据能够相互融为一体,在英特网上形成数据与文献互动操作的世界平台,这才算是全面数字化
◆ 所谓数据与文献的融合
◆ 文献数据处于塔尖;基础层是大量的原始数据,中间层是抽取出来的和关联的数据层
三部分在数据场中相互融合,共同有机地构成了全部科学研究的内容整体
◆ 所谓融合:在构建的数据平台上你可以读一篇论文,而同时调取它的原始数据;你甚至可以重演作者的分析过程;或者你能够在分析一些数据的同时找出跟数据相关的全部文献
实验室信息管理系统LIMS
◆ Entrez, 是一个生命科学搜索引擎
它真正实现了数据和文献的交互性操作
用户可以边阅读一篇文章,同时打开基因数据,跟随基因找到这个疾病,然后又回到文章.它确实非常棒!
◆ 微软的WWT,也实行了数据与文献的融合
◆ 融合和交互操作可通过统一的链接、统一的标签和ID号而实现
◆ 把全世界的数据都集成在一起,形成巨型的动态数据集
一个全球化的数据库将必然诞生
李若溪老师的报告PPT下载地址:
upload/李若溪-数据密集型科研环境中科技期刊的数字化走向.ppt
The fourth paradigm: data-intensive scientific discovery 全文下载路径:upload/4th_paradigm_book_complete_lr.pdf