企业数据内容管理平台

企业信息包括结构化内容(可以在数据库中有效存储和访问的结构化信息)和非结构化内容(不适合数据库存储和检索本身的非结构化信息)。纸质文档、电子邮件、文本消息、wiki、博客、扫描图像、音频文件和视频文件是属于非结构化类别的企业内容的示例。今天,在大多数组织中,非结构化内容(占所有企业信息的80%以上)正在爆炸式增长,而且这些信息中的大部分不存储在数据库中。如何充分利用这些信息,从中获得业务洞察力,以及如何控制与信息相关的基础设施的成本,是各大企业面临的巨大挑战。尽管大多数企业至少已经采取了初始步骤来管理其企业内容,例如部署内容存储库、执行基本归档或实施企业记录管理,但许多企业发现,这些步骤不足以充分解决爆炸式增长的企业内容,并有效地访问、分析和共享它。对处理和控制的巨大需求。

产品功能:

1、数据存储与计算

支持 HDFS、Hbase、Kudu 等从 GB 到 PB 级别的存储方案,支持 Hive 和 MapReduce 等批量计算、Spark 内存计算、Kylin 多维分析、Impala 和流式计算等计算方案,灵活满足客户的各类场景。

1563796912377.jpg 

2、数据集成

将业务数据从各类数据源(MySQL、Oracle、PostgreSQL、MongoDB等)离线导入数据仓库以及其他相关大数据环境,适用于对数据导入实时性要求不高以及静态数据源的场景,例如将某业务上个月的所有数据导入数据仓库用于数据分析。关系型数据库和日志的增量实时/准实时接入:分别使用了自研的NDC系统和DataStream,将业务库中增量数据和APP日志实时导入到大数据环境,延迟可控制在秒级,适用于对数据导入实时性要求高,且业务快速增长的场景。

1563796734571.jpg

3、数据管理

传统软件的开发过程中,有大量丰富的软件保证开发、调试、发布等步骤井然有序地进行。从业人员的高素质和这些管理过程的工具保证了线上应用的高质量。但目前大数据商用软件领域,很少有足够好用的IDE来帮助企业构建数据应用。平台提供了SQL开发、依赖配置与调度管理、交互式查询等,协助管理开发过程,提高开发效率。

1563796745585.jpg

4、数据安全

基于加密方法建立用户(和系统)识别自己的方法,对个人通信以安全的手段进行身份认证,用户和服务器都能验证对方的身份。针对角色授权数据访问。对HDFS、Hive等实现了统一的,细粒度的数据权限控制。从数据角度,可以查看当前何种角色有何种权限。从角色角度,可以查看对哪些数据有何种权限。审计提供较直观事件跟踪,包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及时阻断违规操作,收集并记录用户行为。

1563796756632.jpg

5、数据流计算

使用SQL开发流式计算任务,兼容离线SQL,可实时分析用户的访问数据,展示流量变化和用户分布情况。具备高可用(分布式),高吞吐(1000w/s),低延迟(毫秒级),精准计算(Exactly-once)等特点,用户可在平台上调试和提交流SQL任务,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。

1563796766777.jpg

 

内容文件管理系统架构介绍

内容文件管理系统就是在行业发展大势所趋下,使用现在较先进的分布式文件管理技术搭建的内容管理支撑体系,通过技术和服务两个角度,为企业设计全新的内容管理系统设计,以下为文件管理系统基本构成:分布式文件系统,包括调度管理服务、文件存储服务、元数据存储服务;系统管理与监控中心,提供大数据存储系统虚拟化管理监控解决方案;以及对外访问接口,提供 http 、 Java 等多种格式的对外访问接口。

系统是基于分布式文件管理系统和云存储设备搭建的一套简洁、高效的文件管理平台,特点是通过分布式保证海量数据的采集和访问性能以及数据安全,突破传统内容管理系统的瓶颈。

1.1 调度管理服务器功能

主要做调度工作,在访问上起负载均衡的作用。 在内存中记录集群中组和存储服务器的状态信息,是连接对外访问接口和存储服务的枢纽。因为相关信息全部在内存中,调度管理的性能非常高,一个较大的集群(比如上百个组)中有 3 台就足够了。

1.2 文件存储服务器功能

负责存储文件数据,提供存储、同步和提供存取接口,完成文件管理的所有功能;接受管理服务器的调度,为对外访问接口提供数据传输。

1.3 元数据存储服务器功能

负责存储各文件的元数据信息,主要记录业务类型对应调度服务器的映射关系,文件存储 ID 和文件存储地址的映射关系。

1.4 对外访问接口功能

主要负责从调度管理服务器上获取文件存储信息,并向存储服务器读写数据。

    文件管理系统架构的特点

系统架构搭建了一个分布式文件存储的环境,通常在信息系统的开发上,很多部门考虑到数据保密性,通常会对系统的各种功能加以限制。这种考虑是对的,但是考虑到信息在部门之间流通,系统的共享性是要实现的;同时系统如果具备共享和开放的功能,那么在未来

的结构、容量、信息交换、升级、数据成立、数据库搭建上都会具备先天优势;另外,在系统的整体设计上需要以参数化的方式给相关硬件设备配置、删减等功能进行设置,如果以参数定义的方式进行设置,对今后系统的模块化应用和可延展性都提供了相应的基础。 一般来说,该类系统架构具备以下特点:

    1、规范、统一的开放模式:为相关业务系统实现统一的框架、流程、依据、规则,统一业务处理流程和相关标准;提供功能强大、技术一流、规范完善的软件运行环境,实现企业各业务部门间无缝对接。

    2、实现适配业务的流程,保证系统更新的灵活性:确保系统流程在保证出口、入口相统一的条件下,能够适应业务需求的变化。

    3、对信息资源实现系统共享:在设计上避免数据冗余,使得数据入口唯一,同时紧密结合业务流程,使得信息能够实现各个部门的共享,同时在数据发生变更时,相关的一些数据能够根据关联实施变化,在共享的同时确保数据准确、实时。

    4、能够实现多类系统的整合:能够与企业大多数系统实现对接,并在其基础上进行二次开发,以较低的投入高效实现数据采集与管理的建设任务。