项目名称: 面向复杂应用环境的数据存储系统理论
起止年限:依托部门:与技术基础研究
冯丹 华中科技大学 2011.1至2015.8 教育部
首席科学家:
二、预期目标
3.1 总体目标
本项目的总体目标是针对异构和并发服务的大规模数据存储面临的高效性、安全性、可靠性、低能耗等理论和实践挑战,围绕面向复杂应用环境的数据存储系统中的关键科学问题开展研究;研究面向服务的异构融合存储体系结构和存储服务支撑架构,研究自组织的动态数据对象管理和资源共享方法、存储服务QoS和效用评价方法,并进行大规模的试验和验证,最终建立面向复杂应用环境的数据存储系统理论与技术基础;坚持自主创新,形成一批有自主知识产权的国际标准和专利,逐步建立适应未来存储服务发展趋势的存储体系结构和方法的理论体系,使我国进入本领域的前沿科学技术先进行列;为我国大规模存储系统及其按需服务的技术创新提供基础理论支持,为未来国家信息化发展做出贡献。 3.2 五年预期目标
本项目的五年预期目标如下。
(1)研究面向复杂应用环境的大规模数据存储系统理论和方法,力争在面向服务的异构融合存储体系结构的基本组成、工作原理和实现机制的总体研究上取得新突破。研究存储服务支撑架构,力争在服务需求表达、服务自动适配、服务质量保障机制和效用评价方面取得突破,形成泛在存储按需服务的基本理论。
(2)在面向复杂应用环境下的存储系统高效性、安全性、可靠性和低能耗四个方面取得理论、方法和关键技术的突破,并在实验系统上进行验证,获得对实际具有指导价值的成果,形成能反映安全、节能等需求的高效能价格比的面向服务的异构融合存储系统。
(3)积极参与国际合作和国际标准制定,争取在存储服务方面关于数据服务需求描述、资源对象化方面等成果成为存储领域国际标准。
(4)培养和建立一支学术水平高、创新能力强的学术研究队伍,使我国在该领域的研究进入国际先进行列,为未来国家需求的大规模存储系统组建和服务部署做出实质性的贡献。 3.3 考核指标
五年内将提出以下几项标志性成果作为考核的指标。 (1)融合存储体系结构和服务架构
建立复杂应用环境下融合存储体系结构理论;建立需求表达与特征抽取模型,建立服务适配与按需服务模型;建立网络数据存取复杂性理论;提出一种大规模并发存储服务的支撑架构并建立服务评价模型;提出一类存储智能化方法,包括大规模异构存储系统中多层面信息的发现、感知和融合,以及基于感知的存储部件的自治、协作方法。设计并完成一种基于新型存储器件(如Flash/PCRAM)
且支持自治的存储控制器,验证相应的理论和方法;建立面向服务的高效智能化存储体系。
(2)海量数据组织与资源共享 在海量数据组织方面,提出可适应复杂环境下不同应用的自组织、动态数据对象定义和描述方法;多层次多粒度的可信数据对象安全参考模型及验证方法;提出异构环境下的动态数据对象的自组织方法;实现自组织的动态数据对象统一发现、查询、检索、定位和加载的算法;起草统一的动态数据对象管理与访问接口标准规范;在资源共享方面,实现按需服务的存储虚拟化算法、实现数据共享、存储资源共享。
(3)高效能存储系统组建方法
重点研究支持节能与安全的高效智能化存储系统组件方法,以及大规模存储系统性能优化技术;提出数据高效、安全、可靠存储的保障技术;建立能定量化评价存储设备属性、数据集特性和存储服务质量三方面的协同竞争评价模型。建立存储系统能耗测试基准程序集;建立具有自调节特性的能耗调度机制。组建原型系统:支持多种异构器件、设备和系统;统一管理,支持多应用多用户,提供按需服务;针对典型负载优化操作数/千焦的性能能耗比,能效指标达到:对于单个存储节点,能耗指标达到1.2MB/焦耳以上。
(4)存储服务关键支撑技术
提出一种可高效支撑多类型存储服务的文件系统。该文件系统具有数据对象和存储资源对象动态组织能力,支持对不同典型应用进行存储服务优化,支持存储服务的资源共享、有效区隔以及存储服务质量保障。
(5)混合云存储服务 研究云存储服务,提出开放服务环境下的存储安全、存储服务质量保障机制和方法。重点关注云存储服务外延空间亟待解决的问题,提出面向云存储服务质量优化的新的用户协作机制,及协作有效性的评估方法。
(6)面向数字城市的实时跨媒体信息存储与公众服务
建立充分反映异构融合和泛在服务理论与技术的原型系统,系统的规模为128个节点以上,最大聚合带宽达到100GB/s,融合多种异构的存储设备和存储子系统,包括相变存储、闪存等非易失存储器件与传统磁盘融合构成的智能存储节点等,实现高效能、低能耗,提供不同服务接口。在此原型系统上,通过应用示范“面向数字城市的实时跨媒体存储与公众服务系统”,集成和显示项目的研究成果。
针对数字城市系统的信息存储与服务的需求,通过大型城市(如武汉市)规模的海量的多源异构空间数据的存储和管理来实验和验证异构融合存储服务体系架构;支持WEB、文本、高清图片、流媒体、实时视频等不同类型数据的融合存储,支持大规模动态并发访问的跨媒体信息共享和泛在服务,提升当前数字城市的服务能力,并为面向未来的智慧城市系统提供存储服务技术支持。
提出并获批准的10~20项发明专利和20项软件著作权,发表高质量论文(国际检索)100篇以上,专著1~2部,培养博士60名,提出国际标准(或协议)
1~2份,提出可开发和转化的产品、技术5~10种。
三、研究方案
本项目针对复杂应用环境下存储按需服务的需求,研究支持异构和并发服务的大规模数据存储体系结构和核心技术。以建立“异构融合存储体系理论”为核心,改造现有的存储体系,适应泛在的按需存储服务需求。采用“服务适配模型”实现系统对复杂应用环境的适应。用建立的融合存储理论、服务支撑架构及关键技术实施面向服务的高效能存储系统。由于数据存储规模庞大,系统异质异构,而且运行在复杂的应用环境中,并要支持异构和并发的服务,研究目标是高水平且很具挑战性的。 4.1 学术思路
存储系统发展至目前阶段,其数据访问模式仍然沿用着缺少交互、被动管控的主从模式,其内部组织基本依赖于传统的分层体系结构。主从数据访问模式灵活性不足,当应用需求发生变化时,存储系统难以作出相应调整。分层体系结构在一定程度上考虑到了构成系统的多种资源特性,包括成本、速度、容量这三个要素,但多种新型存储介质的出现则带来了更多未被这种体系涵盖的内容,比如数据易失性、可靠性、能耗等方面。
基于“异构存储融合理论”不仅能够实现支持节能和安全的智能化存储体系,为高效性、安全性、可靠性、低能耗研究奠定基础,而且可以针对在异构和并发服务中多样化的存储需求,更好地发挥多种存储介质的优势,实现自适应服务适配及按需服务。
研究自组织的动态数据对象管理和资源共享方法,为提升存储系统在复杂应用环境中的适应性提供支持,研究存储服务QoS、效用评价方法、以及多目标优化理论,为按需服务提供依据,从融合存储和泛在服务两个层面展开研究。按照这个思路,可以在存储系统的层面上配合存储介质上的进展,以新的异构存储融合体系丰富传统的分层体系结构,针对存储服务化趋势,用“服务支撑架构”满足国家对大规模存储系统及服务的需求。
我们将按照上述学术思路,解决面向复杂应用环境的数据存储系统理论与技术问题。 4.2 技术途径
本着追求原理上创新和方法上创新的原则,进行存储理论和核心技术的研究。跟踪国际新动向,实现跟踪、消化、再创新。用理论研究指导实践工作,以实践结果进一步检验、修正和丰富理论。
围绕面向复杂应用环境的数据存储系统面临的关键科学问题进行研究,重点
突破核心技术,在核心技术研究的基础上提高存储智能性和构建面向服务的异构融合存储系统,并用“数字城市”系统作为应用示范,验证其正确性和有效性。
实施过程中从理论、核心技术、和示范应用系统三个层面进行创新。 (1)系统的理论研究。本项目以复杂应用环境下支持异构和并发服务的大规模数据存储面临的高效性、安全性、可靠性、低能耗等需求为出发点,充分考虑现有存储系统种类繁多的现况,研究异构融合存储系统理论,研究存储服务架构、QoS和效用评价方法;研究高效能存储系统构建方法;研究自组织的动态数据对象管理和资源共享方法;研究混合云存储模式及云存储外延服务,为解决面向复杂应用环境的数据存储系统提供理论基础。
(2)构造存储感知和提供定制服务的核心技术研究。其一是研究存储感知的途径和方法、存储感知的内容以及基于感知的存储智能化方法等。其二是结合存储服务质量保证,建立对存储数据和存储空间统一评价的代价模型指导存储资源分配,建立存储安全代价模型指导存储安全部署,研究规则管理方法,在上述基础上提供定制服务。研究自适应存储优化策略融合和优化调度。系统能够具有多种存储优化机制,可以根据当前的需要改变正在执行的优化策略。系统的优化策略和数据集热点的变化都会导致数据的重新布局,在全局实现数据优化调度。关注数据重新布局本身和优化重新布局的触发机制、目的位臵的选择等一系列问题。
(3)研究用户需求提取、表达、传递和自适应的服务适配方法。借鉴SNIA云数据管理接口标准中关于元数据的描述机制,扩展服务质量需求、应用需求方面的形式化、规范化描述,如访问带宽、响应时间、应用程序上下文环境等,建立描述接口;在存储感知的技术支持下,根据典型应用的数据访问行为规律,研究自动化的应用需求分析和提取方法,并适应用户需求动态变化的特点;在我们前一期973项目中提出的基于主动服务的存储对象基础上,进一步丰富对象的属性和方法,用作载体传递用户需求;最后,建立多目标优化理论,研究服务需求与存储资源的自适应适配方法,实现按需服务。
(4)研究高效能存储系统组建方法。结合动态数据组合管理和多级异构存储融合机制,通过提取异构服务需求和负载特征,综合大规模数据存储高效性、安全性、可靠性、低能耗等全局多目标,以应用服务质量为导向,通过数据在存储系统内的自组织高效分布和重组,建立面向服务且支持节能和安全的高效智能化存储体系。研究协同竞争评价模型和实现机制。建立协同竞争评价模型,对存储系统协同竞争机制的理论体系、建模方法和具体应用等方面进行系统深入的研究,深入挖掘协同竞争机制。研究协同竞争存储系统的组织结构,提出协同竞争评价模型的体系架构和仿真模型,建立了资源分配体系;同时,根据评价体系中所检测的属性指标进行分析,形成一个高可维护性的、高可用的、高性能的协同存储系统。
(5)研究解决异构和并发服务的大规模数据存储面临的高效性、安全性、
可靠性、低能耗问题的存储核心技术。从数据存取过程安全和数据高可靠性两个方面研究大规模存储系统的安全性机制。从存储安全系统结构的层面结合考虑安全策略和存储机制,研究安全存储访问的原理及其关键支撑技术,确定数据存取通道的安全控制点;研究数据访问安全认证机制(如凭证标识机制),确定安全访问策略,设计相应的安全存储访问协议。研究大规模存储系统中数据的高效可靠保证。建立全局的可靠性模型,并分析各种可靠性策略;在设备、子系统和全局系统多个层面平衡考虑性能、能耗等目标和数据冗余之间的关系。研究大规模存储系统节能技术。针对部件、结点和系统建立相应的负载能耗模型;设计实时、高效、无干扰的测试方法和实现系统;开发针对大规模数据存储系统的能耗仿真系统;建立具有自调节机制的能耗调度机制;设计面向大规模数据存储系统的数据中心节能设计方案和评价机制。实现多能级、可调节的低功耗存储系统原型。
(6)在理论和核心技术研究的基础上,建立一个实验和验证平台。为了对理论研究成果进行实验和验证,本项目结合“数字城市”的实际应用需求特点,构建自适应应用环境的存储服务系统,验证智能存储系统的性能和不同应用环境的适用性。同时研究“数字城市”系统中面向数字城市的多源空间数据存储与管理技术、面向数字城市的实时动态信息存储与内容管理技术、时间框架的时态表示模型,建立四维的数字存储技术,为“数字城市”系统提供高效的海量数据存储和管理方法。
本项目将实现三个层次的创新:面向复杂应用环境的异构融合存储体系和服务架构基础理论的创新;一系列围绕解决关键科学问题的理论、方法、技术、机制和策略的创新;一个创新的面向服务且支持节能和安全的智能化存储体系及支持云存储等存储服务的系统实验平台。 4.3 主要创新处和特色
在面向服务的异构融合存储体系及其高效性、安全性、可靠性、低能耗的理论创新基础上,围绕复杂应用环境下的异构和并发服务的数据存储系统和核心技术进行研究,本项目的主要创新处是:
一种新的存储体系结构——“异构融合存储体系”。针对大规模存储异质异构的现状和按需服务的需求,提出将不同层次、不同类型的器件、设备、子系统、区域进行融合的方法,形成自治单元,多单元协作组建大规模存储系统,形成最佳的体系结构,支持按需服务。
一类基于“市场”机制调控的高效能存储系统的组建原理与方法。 一种可适应复杂环境下不同应用的自组织、动态数据对象定义和描述方法。
一种面向泛在服务的自适应服务适配模型——在存储感知和服务感知的前提下,自动提取、表达和传递服务需求,建立存储资源统一评价模型,在多目标优化分析辅助决策下,进行自适应服务匹配,实现泛在服务。
一种按需服务的智能存储分级虚拟化技术——通过虚拟化实现不同级别的存储服务。
一种存储服务的有效区隔和存储QoS保障的原理及方法——应用行为分析方法,判断所需的典型存储服务。
4.4项目组织方式
本项目将在国家科技部和依托部门的领导下进行。项目执行过程中将严格贯彻相关的973项目管理条例。
为了保证项目的顺利实施,成立项目学术顾问组、项目专家组、技术组和管理组。
学术顾问组邀请国内知名专家组成,把握学术前沿,界定研究边界,指导项目的研究工作。
项目专家组由主要课题负责人和若干项目外专家构成,负责项目总体规划和决策;协调各课题组的工作;组织课题组间的学术交流;检查课题组工作进度;根据实际情况进行项目调整等。
技术组由所有课题负责人和若干学术骨干构成,负责各课题组间的技术协调工作,制定项目组内部的技术规范。
管理组由各课题组的学术秘书构成,负责进度管理、文档资料管理及项目日常事务管理。
项目实施中严格贯彻“三个意识”的指导思想和“三个统一”的基本要求。“三个意识”是:创新意识、全局意识和质量意识;“三个统一”是:统一的项目目标、统一的技术规范和统一的组织形式。
项目组的主要交流活动包括:
每年举办一次全项目组范围的学术交流研讨会;
项目专家组会议每年2次,其中一次结合项目组学术会议举行; 每三月举行一次课题负责人参与的课题协调会;
每年结合项目组学术会议向咨询组和顾问组进行正式工作汇报,同时不
定期通过各种形式向专家组和顾问组汇报工作。
4.5 课题设置
本项目设臵六个课题,对研究内容进行合理分工,由组织能力强和有责任心的专家率领一支业务能力强、富有朝气和拼搏精神的研究队伍进行科学研究和技术攻关。有效的组织和协调是取得实质性进展的关键。在核心技术研究的同时启动应用示范系统的研究,并从应用中提取需求和发现问题,指导研究工作。
课题一、融合存储体系结构与服务架构研究 研究目标
围绕按需服务的大规模存储系统面临的挑战性问题,研究面向服务的异构融合存储体系结构理论、网络数据存取复杂性理论、访问特征获取和服务需求表达;研究存储服务架构与服务评价模型、服务适配模型、存储按需服务机制;在融合存储体系框架下,研究大规模异构存储系统中多层面信息发现、感知和融合的存储智能化方法;研究基于感知的存储实体自治协作的方法。
研究内容
1.异构融合存储体系结构研究。新型存储器件的推出,进一步加剧了现有存储系统的异质异构特性,存储结构需要变化以适应其服务化的发展趋势。研究将新型存储器件纳入系统的异构融合存储体系结构及构建方法,包括节点内器件与设备的融合,节点间的协作与融合,以及系统内数据与设备的融合,即将合适的数据在合适的时间存放在合适的存储设备上,使得系统上的存储服务最佳。结合大容量、低价格、高性能等新型存储介质的技术特征,在对象存储的基础上,通过扩展对象的属性,研究异构融合存储的数据对象和资源对象统一评价模型,研究新型非易失性存储介质和磁盘等多种存储设备结合的高性能、高安全、高可靠性和低能耗的大规模存储系统体系结构,满足复杂多应用环境下存储按需服务的需求。
2.网络数据存取特征抽取和服务需求表达。网络规模不断扩展,数据请求种类繁多,操作层次繁琐,网络及其设备异质异构等导致了数据存取的复杂性。从存储系统看,其外在复杂性体现在用户需求的多样性和应用环境的复杂性,内在复杂性体现在网络拓扑的复杂性和异构设备的复杂性。由于网络传输协议和数据访问协议产生的非线性作用,不同应用要求不同的服务质量,而网络设备、协议的多层次架构呈现的多样化使存储系统不可能用一种数据处理模型来求解任意一个最佳服务问题,从而使得网络数据存取更加复杂。在异构和并发的应用环境下,用户的服务需求必然也是复杂多样的。为支持自适应的服务适配模型和面向泛在服务的按需服务机制,必须研究能自动地准确地形式化表达用户需求的方法,研究将用户需求转换成系统能理解和支持的性能技术指标。
3.服务架构与服务评价模型。为提供高效的存储服务,首先应当建立面向大规模、复杂、多样的应用环境的存储服务分层和支撑架构。结合基数效用论和序数效用论,研究和实践两种理论在存储服务中的实现方法,针对异构和并发服务的大规模数据存储具有的不同类型特征维度,综合运用边际效用分析法和无差异曲线分析法,得出可以刻画复杂应用环境中存储服务的效用评价方法。
4.基于感知的存储智能化方法。存储感知方法及感知体系的建立是基于存储感知的大规模网络存储系统数据管理的基础。在异构和并发存储服务环境中,如果存储系统本身不能感知上层应用的服务质量需求和访问模式,不能感知低层
网络环境的拓扑结构和存储设备的物理特性,存储系统无法达到最优化系统性能的目的。基于感知的存储智能化方法主要研究存储感知的途径和方法、存储感知的内容以及基于感知的存储智能化方法等。
5.异构融合存储系统的自治与协作方法。为了增强面向服务的存储系统自我管理和进行决策的能力,提高存储系统的主动服务能力,需要研究存储系统的自治方法,并设计存储控制器进行验证。在研究存储系统自治的同时,也必须考虑系统内的协作,充分发挥存储设备和器件的最大利用效率。
承担单位:
华中科技大学、中国人民解放军通信指挥学院
课题负责人: 冯丹
主要学术骨干:曾令仿、田磊、王芳、江泓、贾连兴 经费比例:
课题二、海量数据组织与资源共享的方法研究 研究目标
复杂应用环境下数据种类繁多,格式复杂,需求多样,因此使“合适的数据放在合适的设备”对异构大规模存储系统来说是一个巨大的挑战。研究数据对象和资源对象的动态组织和管理,数据对象定位和获取方法及资源共享方法,研究按需服务的数据迁移技术,以提高各种存储资源的利用效率。
研究内容
1.数据对象和资源对象的动态组织、管理原理和方法。要研究支持数据对象管理和访问的架构,以统一的接口来支持数据对象的管理和操作,包括创建/抽取、查询、获取、更新、删除等,并能支持智能的数据对象动态分布、迁移、及分发,以及分布式的多版本数据格式和访问协议兼容,使得适合的数据以合适的形态在适合时刻放臵在适合的层次和介质上,以及从适合的层次和介质上通过合适的访问方式获取合适形态的数据,提高存储服务的效用;研究各种异构资源的高效统一管理方法;设计完成一个自组织的动态数据对象统一发现、查询、检索、定位和加载的服务模块。
2.复杂应用环境中动态、大容量的数据迁移研究。研究可适应复杂环境下不同应用的数据对象描述方法,该方法首先要可扩展、易用,其次需要支持存储层兼容、服务层兼容,并支持现有应用对传统存储访问的接口;研究灵活轻载的系统性能监控实现方式、性能监控模型、性能预测模型、数据迁移代价模型,以及结合用户需求和系统负载研发大容量数据迁移的实施时机、方式预测和决策方法或算法,以灵活高效地在复杂环境中进行自组织或半自组织的动态、大容量的数据迁移和复制。
3.面向复杂应用环境的数据对象定位及获取方法研究。在复杂应用环境下,
26%
一个数据对象包含多层次、多类型、多结构、分布、动态的数据内容。这些内容可能以不同的形态和版本存在于不同的存储环境中。研究有效、快速、准确的内容抽取方法以及根据用户需求将抽取的内容打包成满足特定性能、格式、形式的分发数据包的方法;研究数据对象多层次索引方法、数据对象模型、按需的媒体数据类型转换方法、唯一标识符规范及对应资源对象的优化选择方法、数据对象的一致性和安全性验证方法。
4.面向复杂应用环境下的资源共享方法。研究以存储服务为中心的资源调度模型,研究资源多约束分配决策方法;研究如何在数据对象的基础上进行分布调度的资源管理,以及如何在自组织的数据对象管理基础上实现资源的共享;研究可信数据对象如何与存储层和服务层结合,以支持多层次多粒度的数据加密、访问控制、入侵检测等方法,使系统具有高安全性,包括访问控制元数据的支持、数据对象级安全的研究。
5. 研究数据对象的框架和描述方法。扩充现有的数据对象和存储资源描述方法,从多个方面描述数据的内禀(关键字、数据编码格式等)、应用需求(性能、可用性、安全性、持久性等)和资源特性(位臵、访问方式、服务能力等),以支持智能分级的虚拟化、及存储服务的评价;研究可适应复杂环境下不同应用可扩展的数据对象描述方法;需要支持存储层兼容、服务层兼容;并支持现有应用对传统存储访问的接口。
承担单位: 清华大学 课题负责人: 邢春晓
主要学术骨干:周立柱、张勇、李超、王青 经费比例: 13%
课题三、高效能存储系统组建方法研究
研究目标
结合动态数据组合管理和多级异构存储融合机制,通过提取异构服务需求和负载特征,综合大规模数据存储高效性、安全性、可靠性、低能耗等全局多目标,以应用服务质量为导向,通过数据在存储系统内的自组织高效分布和重组,建立面向服务且支持节能和安全的高效智能化存储系统。
研究内容
1.基于“市场”机制的协同竞争评价模型和实现机制研究。考虑到传统的全局集中分配机制根据少量静态目标参数(优先级、负载平衡和空间占用率等)进行分配,很难适应大规模多维度动态资源调度方式。引入所谓“资源市场”机制实现资源在全局的动态调度。每个任务根据其产出的应用重要性确定其输出“价格”,然后以合适“价格”从系统中配臵相应资源,一个竞争激烈的资源具有更高
的价格。通过对基于市场价格机制的协同竞争的体系、原理及其实现机制研究,提出协同竞争评价模型的体系架构和仿真模型,通过对数据集特性、设备的性能属性和服务要求三方面进行评估,建立了资源分配体系;同时,根据评价体系中所检测的属性指标进行分析,以实现对存储设备损坏、数据丢失风险的感知和预警的模式识别,形成一个高可维护性的、高可用的、高性能的协同存储系统。
2.自适应存储优化策略融合和优化调度。当前存在多种存储优化策略,一种策略的优点可能在特定情况下反而导致系统性能的下降;或者特定目标的优化策略导致另一方面的性能下降,例如可用性的提高,有可能导致性能的下降。因此系统能够具有多种存储优化机制,但可以根据当前的需要改变正在执行的优化策略。系统的优化策略和数据集热点的变化都会导致数据的重新布局,因此在全局实现数据优化调度是必不可少的。优化调度不仅关注数据重新布局本身,而且必须优化重新布局的触发机制、目的位臵的选择和迁移机制等一系列问题。
3.大规模存储系统数据安全性机制。从存储安全系统结构的层面结合考虑安全策略和存储机制,研究安全存储访问的原理及其关键支撑技术,包括分析现有网络存储系统的访问技术,确定数据存取通道的安全控制点;研究数据访问安全认证机制(如权能标识机制),确定安全访问策略,设计相应的安全存储访问协议。
4. 研究大规模存储系统中数据的高效可靠保证。搜集和分析现有各种不同设备的可靠性规律,通过理论和仿真研究存储子系统和整体系统的可用性,并研究和建立各种可靠性策略;在设备、子系统和全局系统三个层面平衡考虑性能、能耗等目标和数据冗余之间的关系。建立多级监控-发现-调整机制实现数据自动重分布,从而保证系统整体高可用性。
5.大规模存储系统节能技术。针对部件、节点和系统建立相应的负载能耗模型;设计实时、高效、无干扰的测试方法和实现系统;开发针对大规模数据存储系统的能耗仿真系统;建立具有自调节机制的能耗调度机制;设计面向大规模数据存储系统的数据中心节能设计方案和评价机制。实现多能级、可调节的低功耗存储系统原型。
承担单位:
华中科技大学
课题负责人: 谢长生
主要学术骨干:曹强、黄建忠、万继光、杨庆 经费比例:
课题四、存储服务关键支撑技术研究 研究目标
13%
以数据资源和存储服务资源动态组织和管理为核心,研究适合于复杂应用环境下高效提供多类型存储服务的关键支撑技术及系统方法。
研究内容
1. 存储服务支撑架构。研究存储服务以及应用数据访问需求的定义、类型划分以及相互之间的关系。研究可堆叠的组件化的存储服务架构,通过不同存储服务组件解决不同的存储问题,存储服务组件可选择性堆叠,以灵活满足复杂多变的应用需求。进行存储服务的效用评价研究,指导服务组件优化。研究同时支撑多种类型应用服务的存储架构。
2. 存储服务的有效区隔和存储QoS保障的原理及方法。研究应用行为分析方法,判断所需的典型存储服务,使得宏观上不同服务之间能够有效隔离,微观上应用能够获得存储QoS保障。
3. 数据资源和存储服务资源动态组织和管理。研究资源对象的动态配臵和调度,动态数据对象的抽取,使能数据和资源的细粒度调配;研究数据对象的动态分布技术,使得适合的数据在适合时刻放臵在适合的层次和介质上,提高存储服务的效用;研究各种异构资源的高效统一管理方法。通过数据资源和存储服务的动态组织和统一管理,有效支撑大规模公众应用的数据访问需求。
4. 面向多种典型应用进行存储服务优化的文件系统。研究在公共文件服务基础上的可叠加的文件系统结构,使得针对不同典型应用,可叠加不同的文件系统特征模块;针对数字媒体等开放环境的典型应用,还将研究可叠加文件系统结构的服务效能优化技术和方法。有效满足示范应用系统需要同时支撑多种类型存储服务的要求。
承担单位:
中国科学院计算技术研究所
课题负责人: 许鲁
主要学术骨干:卜庆忠、刘振军、沈玉良 经费比例:
课题五、云存储服务和保障机制研究 研究目标
以保障云存储服务的安全可靠为宗旨,重点研究在复杂的网络环境下用户协作的外延服务保障机制及其相关的理论和方法;研究旨在提高云存储服务的可用性和可靠性的混合型云存储新型构架;研究保障云存储服务的安全策略,从而达到经济、高效、灵活、方便地使用云存储服务的目的。
研究内容
1. 云存储服务架构。研究一种将数据中心与用户协作云相结合的新型云存
13%
储构架;研究在这个构架下基于用户时空属性的数据分发和和资源调度策略;研究云存储层次结构,通过统一的数据组织结构为上层不同类型的云存储服务提供灵活的数据视图。
2. 基于协作的云存储外延服务保障机制。研究一种“以用户服务用户”的理论和协作模型,使协作机制能在副本维护、数据传输、资源调度等方面发挥作用,通过用户之间的相互协作,消除单一用户的性能瓶颈。其中的理论问题包括用户协作有效性评价;云存储外延服务的质量保障的属性描述和定义;用户的行为特征与协作有效性之间关系的量化标准;协作模式与服务质量的关系模型;云存储服务的类型及其优化目标和决策变量的设臵。
3. 云存储安全策略。针对云存储的要求,结合基于身份属性的分布式存储安全方法,采用基于身份的密码技术解决大规模用户的标识和认证问题,将用户身份管理和访问控制相结合,通过减少大规模存储系统访问控制冗余和安全漏洞提高云存储服务的安全性、易管理性并降低访问控制开销。
4. 云存储数据副本机制。采用副本技术解决云存储数据的可用性和可靠性问题,解决如何根据属性产生副本和放臵副本的问题,研究旨在屏蔽用户临时失效对系统可用性的影响的数据迁移和副本维护机制。
承担单位:北京大学、华中科技大学 课题负责人:代亚非
主要学术骨干:周可、杨智、雷凯、彭波 经费比例: 22%
课题六、面向数字城市的实时跨媒体信息存储与公众服务 研究目标
针对数字城市复杂应用给数据存储带来的技术挑战,在项目课题研究发展的异构融合存储体系和泛在服务支撑架构、自组织的动态数据对象管理和资源共享方法基础上,重点提升实时跨媒体信息存储和公众服务能力,验证理论与方法的有效性。
研究内容
1.构建反映异构融合和泛在服务理论与技术的原型系统。融合多种异构的存储设备和存储子系统,包括相变存储、闪存等非易失存储器件与传统磁盘融合构成的智能存储节点等,实现高效能、低能耗,提供不同服务接口。实现异构部件的有机组合,利用不同层次、不同类型、不同种类的异构部件的组织和融合方法,为数字城市系统的信息存储与服务提供可供实验的大规模异构的存储资源。
2. 面向数字城市的多源空间数据存储与管理。针对建立以DEM(数字高程
模型Digital Elevation Model)和GIS(地理信息系统Geographic Information System)为基础的虚实结合的数字城市三维仿真环境的需要,遵循OGC(Open Geospatial Consortium)开放地理信息联盟组织提出的要素模型规范,对多分辨率多时相遥感影像数据、数字高程模型数据等城市空间数据进行集成化表示与组织,融合城市二维矢量地图、遥感影像和三维地形表面模型数据构成城市三维数据环境。研究基于异构融合存储体系和服务架构进行数字城市存储系统构建的方法,提高数据存储的负载能力和并发能力;采用自组织的动态对象管理和资源共享方法,提高数据存储面对密集访问、计算、服务时的适应能力和性能;实现统一的基于三维动态地理框架的高效数据集成管理应用平台。重点考察存储系统对数字城市多源异构海量数据高效存储与集成管理能力。
3.面向数字城市的实时动态信息存储与内容管理。基于目前数字城市数据信息的内涵仍仅限于静态或时态空间实体的表示,而动态的时空信息如环境、交通等还未充分考虑的现状,针对数字城市的应用发展如环境监测和大众服务的需要,研究数字存储系统实现实时动态数据存储的方法。研究基于三维地理空间框架的时态表示模型,建立四维的数字存储环境,支持基于广域分布的传感器数据的动态存储与管理,研究多源动态数据内容描述和内容组织方法,以支持对整个城市空间环境更透彻的感知。以广域分布的典型环境监测数据如空气质量、环境噪声等及大数据量的连续视频数据为对象进行数据的实时采集、存储与处理应用研究,重点考察存储系统的实时动态信息的存储和内容管理能力。
4.面向数字城市的跨媒体信息共享与服务。基于数字城市三维动态地理数据存储与管理平台,结合虚拟现实、传感网和超媒体技术,研究一种具有高真实感、较强交互能力的情景式公众信息服务实现方法。建立可时空(四维)定位的以超媒体数据为主的信息存储系统,结合即时环境数据和视频数据的采集与处理,实现全景交互式视频为表现内容,且能加载文字、图像和音频等内容的公共跨媒体信息共享与服务功能,为研究数字城市实时环境监测、交通、旅游等大众实时信息服务的功能实现提供原型。建立大众服务访问模型,通过理论分析和模拟研究,重点考察存储系统在密集访问与服务情况下的信息共享与并发服务能力。
承担单位:
武汉大学
课题负责人: 徐正全
主要学术骨干:朱庆、刘良明、蔡恒进、李锐 经费比例:
4.6 各课题间的相互关系
本项目分解为6个课题。课题研究内容围绕项目的主题思想,从不同的角度
13%
研究面向复杂应用环境的数据存储系统理论与技术。课题设臵之间的相互关系及其与科学问题的对应关系如图2所示。
科学问题一:面向服务的异构融合存储体系科学问题二:复杂应用环境下泛在存储服务支撑架构科学问题按需服务高效性、安全性、可靠性、低能耗研究内容及课题设置课题六、面向数字城市的实时跨媒体信息存储与公众服务课题三、高效能存储系统组建方法研究课题五、云存储服务和保障机制研究课题二、海量数据组织与资源共享的方法研究课题四、存储服务关键支撑技术研究课题一、融合存储体系结构与服务架构研究
图2 研究内容、课题设臵和科学问题的相互关系图
围绕关键科学问题一“面向服务的异构融合存储体系”和关键科学问题二“复杂应用环境下泛在存储服务支撑架构”,课题一从总体上研究融合存储体系结构与服务架构。课题二和课题三围绕关键科学问题一进行研究,其中课题二“海量数据组织与资源共享的方法研究”解决数据对象和资源对象的动态组织和管理问题,并通过虚拟化实现资源共享;课题三“高效能存储系统组建方法”研究支持节能和安全的存储系统。课题四、五围绕关键科学问题二展开研究,课题四重点研究存储服务关键技术、存储服务质量和效用评价方法;课题五研究云存储服务和保障机制。最后,在解决关键问题的基础上构建一个面向复杂应用环境提供按需服务的高效、高安全、高可靠和低能耗的异构融合存储系统,并用数字城市的实时跨媒体信息存储与公众服务作应用示范(课题六),以验证关键技术方案的正确性和有效性。
四、年度计划
年度 研究内容 预期目标 1. 初步形成存储器件级融合方法,形成存储资源部署原理与方法;形成服务需求表达方法。 2. 提出可适应复杂环境下不同应用的自组织、动态数据对象定义和描述方法。 3. 针对性能和能耗设计出实时、高效、无干扰的测试方法和监控系统;开发出低能耗存储结点;设计新型数据组织模式提高大规模系统整体的可用性。 4. 完成文件系统发展趋势的调研报告以及确定可灵活提供多类型存储服务的文件系统模型的研究内容。建立多种典型应用的资源使用和数据访问模型。完成存储服务的有效区隔和QoS保障机制的调研报告和概要设计,初步建立分布式环境下的资源竞争和性能保障机制。 5. 给出云存储系统架构设计及可行性分析;提出相应的协作消重算法,在模拟环境实现系统原型,并用实际数据验证有效性。 6. 提出一套统一的异构存储设备接口规范;提出多源三维空间实体统一表示模型;收集、加工、整理示范用空间数据;构建反映异构融合和泛在服务理论与技术的基础原型应用系统。 1. 研究存储节点内设备/器件的融合方法,形成具有一定自治能力的存储单元。探寻多种存储器件在系统中的融合方法。研究与数据相适应的存储资源的动态部署与规划。研究服务需求的描述、用户需求表达。 2. 研究数据对象的框架和描述方法,以支持智能分级的虚拟化、及存储服务的评价。研究可适应复杂环境下不同应用的可扩展的数据对象描述方法。 3. 分析和理解复杂应用环境下大规模存储系统动态资源分配及其性第 能、可用性等关联规律;设计低能耗存储结点;研究大规模存储 系统新型数据分布组织策略;研究多维多目标动态平衡理论及其算法。 一 4. 调研文件系统研究现状,包括已有的研究成果、研究思路和技术特色。研究可灵活提供多类型存 储服务的文件系统模型,分析文件系统各类型操作和各部分对性能的影响,构建量化的研究依据。 年 5. 研究云存储系统层次结构与统一的数据视图构建方法。研究基于协作的云存储外延服务保障中的协作消重机制。 6. 研究异构存储设备下的跨服务中间件,设计和实现针对异构存储设备的不同存储服务中间件;研究城市空间数据集成化表示与组织的数据模型。收集、加工、整理不同应用服务所需要的基本数据,为所搭建的面向数字城市的示范系统收集、加工海量的示范数据。
年度 研究内容 预期目标 1. 设计并完成一种基于新型存储器件且支持自治的存储控制器。初步形成多层面信息的发现、感知和融合方法,以及基于感知的存储部件的自治、协作方法。形成融合存储的自治及协作规范、存储资源描述规范。建立需求表达与特征抽取模型,建立服务适配与按需服务模型。 2. 提出异构环境下的动态数据对象的自组织方法;实现自组织的动态数据对象统一发现、查询、检索、定位和加载的算法;起草统一的动态数据对象管理与访问接口标准规范。 3. 建立大规模存储系统中负载和存储资源属性描述和获取机制;设计面向大规模数据存储系统的数据中心节能设计方案和评价机制;建立全局的可靠性模型,并分析各种可靠性策略;实现低能耗存储结点,使得针对特定负载,其能耗指标大于0.5MB/焦耳。 4. 提出并实现一种数据对象和存储资源对象动态组织和管理机制。初步建立可灵活提供多类型存储服务的文件系统模型。初步建立适合于存储服务有效区隔和QoS保障的应用行为分析技术。 5. 建立云存储安全管理原型系统;提出相应的协同传输算法,并将其实现在原型系统中。 6. 提出一种基于动态服务感知的服务中间件组织模型;建立城市三维数据环境;提出数字城市动态信息时空数据模型;海量数据信息与服务的收集整理。 7. 通过前两年的研究,提出并获批准的8项发明专利和8项软件著作权,发表高质量论文(国际检索)40篇以上。 1. 研究存储节点间协作与融合。研究通过高速通道互联的存储节点间的数据副本机制、迁移机制、协作机制以及容错、安全机制等。研究数据与存储资源统一评价模型和存储资源分配方法。挖掘多用户多应用并发时的复杂I/O行为规律,形成需求表达,在存储资源和服务需求间通过动态调度找到相应供需平衡方法。 2. 研究数据对象和资源对象的动态组织、管理原理和方法。研究支持数据对象管理和访问的架构;研究各种异构资源的高效统一管理方法。 3. 研究大规模存储系统中负载和设备属性描述和获取机制;实现低第 能耗存储结点;研究海量元数据组织和检索策略;研究系统长效运行机制;研究存储资源分配协 同竞争机制和原理。 二 4. 研究资源对象的动态配置和调度,动态数据对象的抽取;研究可灵活提供多类型存储服务的文 件系统模型。研究存储服务以及应用数据访问需求的定义、类型年 划分以及相互之间的关系。研究应用行为分析方法,提出适合于存储服务有效区隔和QoS保障的应用行为分析技术。 5. 研究云存储安全策略,结合基于身份属性的分布式存储安全方法;研究基于协作的云存储外延服务保障中的协同传输下载机制。 6. 面向数字城市,研究复杂应用环境下的存储服务中间件的组织模式;设计空间数据的部署方法,研究城市空间数据集成管理的高性能空间数据结构;研究支持数字城市动态信息存储管理的时空数据模型。
年度 研究内容 预期目标 1. 建立网络数据存取复杂性理论。建立多服务目标优化模型。形成提高存储性能、安全性及可靠性的方法,建立面向服务的高效智能化存储体系。提出一种大规模并发存储服务的支撑架构,以及保证服务质量的有效方法。 2. 提出多层次多粒度的可信数据对象安全参考模型及验证方法;设计完成一个自组织的动态数据对象统一发现、查询、检索、定位和加载的服务模块原型。 3. 针对部件、结点和系统建立相应的负载能耗模型;实现低能耗存储结点,使得针对特定负载,其能耗指标大于1.0MB/焦耳。 4. 建立数据对象动态分布模型,为将适合的数据在适合时刻放置在适合的层次和介质上提供进一步研究和系统优化的平台。建立可灵活提供多类型存储服务的文件系统模型。初步确立可堆叠的组件化的存储服务架构。提出应用行为分析技术和应用服务类型判断机制。 5. 完善云存储安全管理原型系统中的安全机制;提出相应的协同资源调度与管理算法,并在原型系统中实现。提出相应的效用最优的云服务选择算法。 6. 建立可时空定位的信息组织模型和存储模型;提出考虑数据量分布不均衡性的空间索引方法;建立完整实现海量遥感数据的预处理流程;提出综合的公共情景式超媒体信息服务方法。 1. 研究面向服务的融合存储系统,结合数据在大规模网络存储系统上的布局和组织,建立包括空间代价和时间代价在内的代价模型,并根据用户服务需求建立多目标优化模型。研究建立面向大规模、复杂、多样的应用环境的存储服务分层和支撑架构。 2. 研究面向复杂应用环境的数据对象定位及获取方法。研究有效、快速、准确的内容抽取方法以及分发数据包的方法;研究数据对象多层次索引方法、数据对象模型、按需的媒体数据类型转换方法、唯一标识符规范及对应资源对象的优化选择方法、数据对象的一致性和安全性验证方法。 第 3. 自适应存储优化策略和数据动态透明迁移机制;设计海量数据高 效组织和检索机制优化低能耗存储结点,建立全局多层次性能能三 耗模型;在平衡考虑性能、能耗等目标和数据冗余之间的关系基 础上,研究和建立各种可靠性、可用性策略。 年 4. 研究数据对象的动态分布技术;研究各种异构资源的高效统一管理方法。构建可灵活提供多类型存储服务的文件系统模型。研究可堆叠的组件化的存储服务架构。研究可高效支撑多类型存储服务的文件系统架构;研究应用行为分析技术。 5. 研究云存储系统访问控制冗余和安全漏洞。研究基于协作的云存储外延服务保障中的资源调度机制。基于效用最优的云选择机制。 6. 研究可时空定位的信息组织方法与存储方法;研究城市多源空间数据一体化高效索引方法;研究反映高效的数据集成管理的数字城市服务原型。
年度 研究内容 预期目标 1. 形成基于感知的存储节点的自治、协作方法。提出并建立一种大规模并发存储服务的服务评价模型。实现存储系统错误自动检测方法和故障快速恢复机制。 2. 提出灵活高效地在复杂环境中进行自组织或半自组织的动态、大容量的数据迁移和复制的实施时机、方式的预测和决策方法/算法。 3. 开发针对大规模数据存储系统的能耗仿真系统;建立具有自调节机制的能耗调度机制;实现低能耗存储结点,使得针对特定负载,其能耗指标大于1.2MB/焦耳。 4. 建立可高效支撑多类型存储服务的文件系统架构,并设计和实现具有自感知应用特征、自优化数据访问机制的海量并行文件系统原型。给出存储服务的有效区隔和QoS保障的核心机制。给出数据对象和存储资源对象动态组织和管理机制。初步完成可高效支撑多类型存储服务的文件系统的原型。 5. 实现混合云存储原型系统;提出相应的协同容错算法,并将其实现在原型系统中。 6. 提出多维时空索引与数据高效调度方法;建立公共跨媒体信息共享与服务模型;实现大中型城市环境监测示范子系统的研制。 1. 研究存储节点间协作与融合、数据按需部署方法。结合基数效用论和序数效用论的理论和实现方法,研究复杂应用环境中存储服务效用评价方法。研究基于感知的存储系统错误侦测方法、容错和故障恢复机制。 2. 研究复杂应用环境中动态、大容量的数据迁移。研究灵活轻载的系统性能监控实现方式、性能监控模型、性能预测模型、数据迁移代价模型,以及结合用户需求和系统负载研发大容量数据迁移的实施时机、方式预测和决策方法或算法。 3. 实现海量数据高效组织和检索;进一步优化低能耗存储结点;降第 低整体能耗水平;设计系统原型。设计多层次系统高可用性技术。 4. 研究可高效支撑多类型存储服务的文件系统架构。研究不同类型四 应用的资源使用方式和数据访问模式,使海量并行文件系统具有 自感知应用特征、自优化数据访问的支撑机制。设计和实现存储年 服务的有效区隔和QoS保障的核心机制。设计和实现数据对象和存储资源对象动态组织和管理机制。设计和实现一种可高效支撑多类型存储服务的文件系统。 5. 研究云存储数据副本机制,解决云存储数据的可用性和可靠性问题。研究基于协作的云存储外延服务保障中的协同容错机制。 6. 研究多源动态数据的智能检索方法;研究公共跨媒体信息共享与服务模型;构建大中型城市环境遥感监测服务示范。
年度 研究内容 预期目标 1. 融合系统的安全性方法和可靠性方法。方法验证与融合存储系统优化方法。优化的存储服务效用评价方法。 形成聚合带宽达到100GB/s的原型存储系统。 2. 结合可信数据对象安全参考模型及验证方法,实现按需服务的存储虚拟化算法、以支持数据共享、存储资源共享。 3. 实现多能级、可调节的低功耗存储系统原型。实现高能效存储系统原型;实现全局监控系统。 4. 给出可高效支撑多类型存储服务的文件系统以及存储效用评价。完成各系统的性能和有效性测试。完成整个系统集成。建立成功的示范性系统实例。 5. 实现云存储系统副本机制算法;实现基于协作的云存储服务的示范应用。 6. 集成与完善提出的成果;完成示范系统功能的集成搭建,并进行模拟运行与评测。 7. 五年累计提出并获批准20项发明专利和20项软件著作权,发表高质量论文(国际检索)100篇以上,出版专著1~2部,提出国际标准(或协议)1~2份,提出可开发和转化的产品、技术5~10种。 1. 研究面向融合存储系统的高安全高可靠性方法。研究并评价融合存储体系的有效性,在应用示范平台上进行实际测试与验证。对存储服务效用评价方法进行实际评测,进行修正优化。 2. 研究面向复杂应用环境下的资源共享方法。研究以存储服务为中心的资源调度模型,资源多约束分配决策方法;研究如何在数据对象的基础上进行分布调度的资源管理,以及如何在自组织的数据对象管理基础上实现资源的共享;研究可信数据对象如何与存储层和服务层结合。 第 3. 融合前期多能级、可调节的低功耗存储优化技术、方法和策略; 设计系统的原型平台。 4. 完成存储服务支撑系统的整体集五 成,完成整体系统的性能和有效性测试。进一步研究可高效支撑 多类型存储服务的文件系统,完善应用分析和优化机制以及存储年 效用评价。根据测试结果,验证系统的可靠性与有效性,并进行系统的持续优化数据分布算法、QoS保障机制以及不同典型应用的优化技术。 5. 研究云存储系统产生副本和放置副本的问题,研究旨在屏蔽用户临时失效对系统可用性的影响的数据迁移和副本维护机制。研究用户协作问题,提出相关的理论模型,完成验证和效能分析。 6. 研究示范系统功能模拟运行与评测的方法和技术。
一、研究内容
针对存储服务模式转变对存储系统带来的冲击和影响,根据对近年来存储介质、存储体系结构、存储系统构建的新发展、新方向和新思路的深入分析,我们对面向复杂应用环境的数据存储系统理论与技术中的关键科学问题进行了认真梳理和凝练,从解决国家安全、信息存储服务化和科学发展的国家重大需求出发,形成了本项目的关键科学问题:(1)面向服务的异构融合存储体系;(2)复杂应用环境下泛在存储服务支撑架构。围绕这两个关键科学问题,拟从具体研究内容着手,提出解决科学问题的理论、方法和处理机制。
如图1所示,“面向服务的异构融合存储体系”解决大规模存储系统的构建问题,是服务的基础,“复杂应用环境下泛在存储服务支撑架构”解决服务的需求表达、提供服务接口,是服务的具体体现。为此,在理论上要研究需求表达与特征抽取模型、服务适配与按需服务机制,包括研究多应用多用户并发的复杂访问规律、数据属性,获取对存储需求的准确描述;研究异构存储资源特征,抽取服务能力模型;研究服务与需求自动适配的服务质量、效用评价方法、多目标优化理
应用示范面向数字城市的实时跨媒体信息服务科学问题2复杂应用环境下泛在存储服务支撑架构高效性、安全性、可靠性、低能耗服务需求数据属性资源特征需求表达与特征抽取模型定义、获取、表达服务混合云存储服务服务定制服层服务保障方法务质量和管海量数据存储资源共享效理管理虚拟化方法用层评价方法存高效能存储系统异构融合方法储层协作多目标优化理论感知自治服务适配智与能按化需服务机制科学问题1面向服务的异构融合存储体系器件融合、节点融合、系统融合、区域融合大规模异构存储资源图1 本项目的科学问题、研究内容关系图
论;研究按需提供服务的存储感知、自治、协同等智能化方法。围绕两个关键科学问题,研究内容划分为三个层面,分别是存储层、管理层和服务层,在存储层研究异构存储器件、节点、子系统、区域等融合方法,研究高效能存储系统组建方法;在管理层研究海量数据组织与管理方法,资源共享方法,以及按需服务的存储虚拟化方法;服务层研究混合云存储服务,个性化服务定制方法,以及服务质量保障机制和方法,提供高效、安全、可靠和低能耗的存储服务。
主要内容有以下几个方面。 (1)面向服务的融合存储体系结构理论
传统的网络存储系统由用户配臵使用,使用过程中系统结构不再发生改变。而面向服务的大规模数据存储系统,其应用具有多样性、复杂性和并发性等特征,需要自适应的存储系统与之对应。异构和并发服务的大规模数据存储系统中数据请求种类繁多、操作层次繁琐等导致了数据存取的复杂性;网络环境下存储设备、器件和系统种类繁多,导致了存储资源管理的复杂性。但是,将新型存储器件不断纳入存储层次中,是技术发展进步的必然趋势,面对大规模异构存储资源,研究将哪些存储器件、在哪些环节、以何种方式引入存储系统,形成最佳存储体系结构的方法及多约束目标集下的优化理论和效用评价模型。探寻存储节点内设备/器件的融合,形成具有一定自治能力的单元;研究存储节点间协作与融合,提高系统的利用效率;通过基于感知的存储智能化和区域融合以提供最佳服务质量。研究对数据与存储资源统一评价模型和存储资源分配方法,研究与数据相适应的存储资源的动态部署与规划。针对大规模数据存储服务的重大理论和实践挑战,建立面向服务的融合存储体系结构。 (2)存储服务架构和效用评价方法
研究存储服务架构层次,将存储服务系统划分为3个层次:存储层、管理层和服务层,研究每一层次的功能及接口,以及自底向上的服务保障机制。以公有云、私有云以及协作云为研究对象,研究混合云存储服务。
海量数据存储服务的高效提供与数据本身价值、使用习惯以及承载数据的存储资源的特性、价格因素等紧密相关。为提供按需存储服务,应当研究存储服务及数据访问类型的定义、划分以及相互之间的关系,研究数据和存储资源的组合方式,以灵活支撑多类型存储服务。此外,由于开放环境下的海量数据应用势必需要大规模的存储资源共享,因此应当研究存储资源的管理和调配方法,以应对共享存储资源对不同服务类型和服务质量的需求保障。以开放环境下海量数据存储服务的典型应用存储特征为输入,通过不同存储服务组件解决不同的存储问题,存储服务组件可选择性堆叠,进行服务定制研究,以灵活满足复杂多变的应用需求。在此基础上,研究保证存储服务QoS的原理和方法,研究存储服务的
效用评价方法。
(3)存储需求表达与按需服务模型
网络规模不断扩展,数据请求种类繁多,操作层次繁琐,网络及存储设备异质异构等导致了数据存取的复杂性。从存储系统看,其外在复杂性体现在用户需求的多样性和应用环境的复杂性,内在复杂性体现在网络拓扑的复杂性和异构设备的复杂性。由于网络传输协议和数据访问协议产生的非线性作用,不同应用要求不同的服务质量,而网络设备、协议的多层次架构呈现的多样化使存储系统不可能用一种数据处理模型来求解任意一个最佳服务问题,从而使得网络数据存取更加复杂。因此,要实现存储按需服务,首先得描述服务需求、理解服务需求,特别是挖掘多用户多应用并发时的复杂I/O行为规律,其次分析存储资源特征,抽取服务能力,在二者之间通过动态调度找到供需平衡。
服务需求表达包括用户需求表达、应用需求表达、多用户多应用并发情况下的需求表达等。其中用户需求表达可借鉴SNIA云数据管理接口CDMI标准关于元数据的描述机制,考虑增加服务质量方面的描述,如访问带宽、响应时间等,建立描述接口;应用需求表达需分析典型应用的数据访问行为规律,进行特征抽取,增加时间因素等,形成需求序列;而多用户多应用并发情况下的需求表达比较复杂,其存储需求不是简单的多用户需求的线性累加,需深入研究,即在应用特征抽取的基础上,研究多用户多应用之间的相互作用与影响,研究复杂环境下的存储服务需求表达模型和方法,用以准确描述需求。
在服务需求表达基础上,研究存储按需服务模型。综合考虑数据特征、用户需求和系统环境,结合数据在大规模网络存储系统上的布局和组织,建立包括空间代价和时间代价在内的代价模型,并根据用户服务需求建立多目标(性能、能耗、安全性等)优化模型,指导存储系统进行自我优化和有选择性地进行数据控制和管理(如:数据的自动迁移、多副本管理等)。 (4)存储智能化方法
在异构和并发存储服务环境中,如果存储系统本身不能感知上层应用的服务质量需求和访问模式,不能感知低层网络环境的拓扑结构和存储设备的物理特性,存储系统无法达到最优化系统性能的目的。因此,存储感知方法及感知体系的建立是基于存储感知的大规模网络存储系统数据管理的基础。基于感知的存储智能化方法主要研究存储感知的途径和方法、存储感知的内容并指导存储系统自治与协作,实现服务适配。
现有的存储系统在向应用提供服务的时候大多沿用的是传统的客户-服务器模式,系统体现出显著的“被动”和“孤立”特点,在存储系统规模不断增长的情况下,这两个特点会导致系统管理上的高难度,从而严重影响到系统所提供的服
务。在访问时采用集中调度的方法可以部分缓解系统内部各单元的孤立性,但会严重增加管理层的负担;即使将部分管理功能下放到存储设备或子系统,也会因设备或子系统缺乏必要的信息而带来管理功能上的局限性,因此仍然难以从根本上解决上述不足。究其原因,还在于存储系统内部仍然缺少决策和协作的手段。因此,为了增强面向服务的存储系统自身进行决策的能力,需要研究存储系统的自治方法,充分发挥存储器件或设备的能力;同时,为了最大化系统资源的利用效率,还需要针对存储系统内的协作方法开展研究。
(5)自组织的动态数据对象管理、存储虚拟化和资源共享方法
大规模存储系统构成异质异构,随着技术进步,新型存储器件还在不断纳入存储系统中,因此使得“合适的数据放在合适的设备”对异构大规模存储系统来说是一个巨大的挑战。在复杂应用环境下研究自组织的动态数据对象管理和资源共享方法,需要动态灵活地利用应用环境所能提供的各类基础设施资源、以尽可能高效稳定的性能满足用户的需求、并兼顾能耗和成本。因此,要建立数据对象和资源对象的动态组织、管理的体系,研究其原理和方法;研究复杂应用环境中自组织动态、大批量的数据迁移方法;研究面向复杂应用环境的数据对象定位及获取方法;研究数据对象的框架和描述方法,扩充现有的数据对象和存储资源描述方法,利用数据对象描述应用对存储服务的需求,利用资源对象描述存储部件能提供的服务能力,并研究支持智能分级的虚拟化和存储服务的评价方法;在此基础上研究面向复杂应用环境下的资源共享方法。
存储虚拟化是上层多样性应用和底层异构存储间的桥梁,传统的存储虚拟化屏蔽了异构设备多样性,实现存储空间的管理,偏重于提高资源管理效率。但存储服务面对的用户多种多样,其需求也各不相同:有的需要高性能、有的需要高安全性、有的需要高可靠、有的需要长期保存数据等,因此,面向服务的大规模网络存储系统中,需要在虚拟化方面研究系统按需服务策略和方法,实现分级别的差异化存储服务,以更好地适应于不同应用需求。研究基于角色的存储优化方法,对用户的要求、习惯等信息进行分析、处理,采用形式化、定量化分析方法,甚至是数据挖掘方法对用户的习惯、偏好进行挖掘,并预测其下一步存储需求,进行存储资源预留。通过资源预留机制、高效Cache机制和多副本机制等,面向用户进行性能优化,提高存储服务质量。
由于网络的动态性、用户访问的突发性等,存储系统的服务不能满足用户需求时,会处于数据供需不平衡状态。智能分级虚拟化中除基于角色进行有针对性的存储优化外,还要从整体上研究大规模网络存储系统中统一的全局数据视图及数据分片策略、负载动态均衡方法、多节点协同方法。通过改进数据存放形式、数据布局等提高存储系统性能、降低能耗,特别关注结合用户访问情况、节点间负载均衡情况等进行数据的重新组织,使系统达到数据供需平衡状态。如:动态
增加热点数据在系统中的副本数以缓解存储瓶颈;研究面向存储访问的网络带宽聚合与分散的方法、缩短I/O路径的方法,提高存储服务质量和系统性能;研究基于指纹的重复数据删除方法,有效降低存储数据量;研究面向节能的数据访问模式挖掘和数据在层次存储系统中的重分布方法,以降低存储系统总能耗等。 (6)混合云存储服务及关键技术
由于互联网在复杂环境下的性能不可预测性以及带宽的限制,在当前云存储和用户之间端到端的服务模式下,导致传输的时间代价巨大,并且没有可靠性保障。研究协作云存储服务,利用互联网用户的存储空间提供协作式的云存储服务,将端到端的传输模式转变为多点并行、分时分区分块的传输模式,消除单一用户的性能瓶颈。研究以公共云、私有云和协作云组成的混合云存储服务关键技术,用以支持泛在服务模式。
影响云存储应用推广的一个重要原因是用户担心存放在云端的数据被窃取,或无法满足用户的需要,重点研究适用于云存储的安全策略以保障存放在云端的数据安全,研究采用数据副本技术以保障存放在云端的数据可靠性与可用性。 (7)高效能存储系统构建方法
研究在复杂多应用环境下,通过存储系统的智能化挖掘数据属性,并以此来动态调整数据在异构的存储器件、设备和存储域中的分布与组织等,发挥异构环境下存储器件和设备的最大利用率。研究支撑高效存储服务的存储理论和方法,根据用户需求或者应用服务的需求在存储系统性能、可靠性、安全性、能耗和价格成本比上达到一个最佳的平衡。采用低能耗的新型半导体存储器件构成的存储系统,必将降低整体能耗,但相对于磁盘而言,由于非易失性半导体存储器件的价格昂贵,大规模存储系统将出现以磁盘、新型非易失性半导体存储器和动态随机存取存储器混合组成的异构存储系统。深入研究和探索大规模异构存储系统的能耗规律,发展存储系统能耗优化的相关理论和关键技术,并在实验系统上进行验证,获得对实际具有指导价值的成果,形成高效能价格比的融合存储系统组成方法。
(8)存储高安全高可靠方法
网络环境下,数据往往是比设备更宝贵的资源,设备坏了可以更换,而数据丢失(包括因存储介质损坏导致数据丢失,以及因网络开放性导致数据被窃取或篡改等)可能造成无法挽回的损失。因此,将充分利用对象“封闭”特点,研究与存储结合的数据加密、访问控制、入侵检测等方法,使系统具有安全性。此外,存储服务的概念使得存储系统不再为某一用户私有,用户敏感数据在遭遇威胁
时,如何从第三方存储系统上安全删除成为新的问题,因此需要研究面向存储服务的安全架构及相应方法。面向复杂应用环境的异构存储系统的可靠性和可用性模型也是不容忽视的,需要建立面向异构融合存储系统和面向多用户多应用并发的可靠性和可用性模型,并在此模型基础上,研究基于感知的存储系统错误侦测方法、容错和故障恢复机制,以提高异构融合存储系统可靠性和可用性。
通过上述研究建立起一整套异构融合的存储体系结构,解决复杂应用环境下面临的高效性、安全性、可靠性和低能耗等存储服务的关键问题,进行面向服务的异构融合存储体系和云存储等存储服务架构的探索性研究,形成系统设计的理论框架。并通过面向数字城市的实时跨媒体信息存储与公众服务应用示范加以理论和关键技术的验证和展示。
因篇幅问题不能全部显示,请点此查看更多更全内容