中科聚网

平台架构

1.jpg

数据可视化管理

基于解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。提供键值存储数据库、列存储数据库、文档性数据库、图形数据库等存储模式。支持HBase数据库、Redis数据库、MongoDB数据库、Neoj4数据库等。

系统对采集原始数据,通过数据标注(主要涵盖图像标注、语音标注、文本标注、视频标注等)进行加工,提供计算机可以识别的高质量数据。支持数据专家训练算法模型、开展机器学习工作。数据标注众包管理系统对数据管理、数据加工、数据交付、数据使用为闭环的数据循环生产模式。具体工作模式见下图:

2.jpg

数据采集层

采集层是用来收集和转发数据。Flume是日志收集工具,Kafka是经典的消费队列,OGG是数据实时同步等。这些工具同样是为了解决大数据处理中的一些具体场景诞生的应用,对整个生态圈起到了支撑的拓展的作用。

数据计算层

计算层是大数据的另外一个核心,针对批处理、流计算两类不同的业务场景,分别衍生出ELK、Spark、Storm、Spark Steaming、SAS等计算框架。这些计算框架,在各自的领域发挥着强大效能。

数据服务层

服务层是为了方便开发,提供一些便捷组件。比如HBase可以做数据仓库、Spark SQL可以操作一些结构化数据、Impala可以做实时交互式查询等。

Zookeeper

为整个集群的部分组件,比如HBase,Kafka提供协调服务。它是集群的管理者,监视着集群中各个节点的状态并根据节点的反馈做合理的操作。

集群管理

Ganglia中文意思是神经中枢,支持多操作系统(包括linux、unix、windows),可支持2000个节点的网络监控。Ganglia底层使用RRDTool获得数据。

ZUUL Gateway

ZUUL Gatewayr高速SQL引擎提供最完整的SQL语法支持,支持99%的ANSI SQL2003语法,也是第一个支持Oracle PL/SQL和DB2 SQL PL扩展的SQL on Hadoop引擎,可帮助企业建立高速可扩展的数据仓库和/或数据集市。ZUUL Gateway支持分布式事务,可以保证数据加工的一致性和正确性。ZUUL Gateway也是第一个为SSD高速闪存优化的SQL引擎,结合多种报表工具,提供交互式数据分析、即时报表和可视化能力。

ZUUL Gateway Discover

是针对海量数据平台提供的分布式机器学习引擎,提供数十种分布式的统计算法和机器学习算法,同时可利用6000多个R语言算法包中的串行算法,为包括文本分析、交易反欺诈、风险分析、精准营销、故障检测在内的多种应用提供全面的算法和模型支持。Discover软件提供R语言接口和Java接口两种访问方式。

ZUUL Gateway Hyperbase

ZUUL Gateway Hyperbase实时数据库是融合多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。Hyperbase可以高效地支持企业的在线OLTP应用、高并发OLAP应用、批处理应用和全文搜索应用,结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)的最佳选择。

ZUUL Gateway Stream

ZUUL Gateway Stream实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算。Stream支持SQL来开发应用,极大降低应用开发的门槛。系统具备强扩展性、强容错、低延迟、高吞吐等特点 ,成熟应用于实时数据 ( 如传感器数据 ) 的实时告警、风险控制、在线统计和挖掘等业务。

Kafka

低延时高吞吐的分布式消息队列,支持发布/订阅模式,同时满足在线和离线处理海量消息数据派发的系统。Kafka实现了一套访问控制管理策略,只有授权的用户才可以对Kafka集群进行读写操作,避免发生数据泄露或者其他用户发生误写操作。

HDFS

HDFS作为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS的HA功能而优化;确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合;支持细粒度访问控制、应用程序安全及数据加密及解密等等。

多数据类型支持

支持文档型数据(如JSON/BSON)的存储,索引和搜索,支持对象数据(图片、音视频、二进制文档等)的存储、检索和自动回收。

Ganglia

Ganglia是一个集群监控工具,由UC Berkeley创建并开源。Ganglia的中文意思是神经中枢,现在支持多部分操作系统(包括linux、unix、windows),可支持2000个节点的网络监控。Ganglia底层使用RRDTool获得数据,Ganglia主要分为两个进程组件:gmond(ganglia monitor deamon)、gmetad(ganglia metadata deamon)其中,gmond运行在集群每个节点上,收集RRDTool产生的数据;gmetad运行在监控服务器上,收集每个gmond的数据。Ganglia还提供了一个PHP实现的web front end,一般使用Apache2作为其运行环境,通过Web Front可以看到直观的各种集群数据图表。

Redis

redis是一个key-value存储系统。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。为了保证效率,数据都是缓存在内存中。redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。

RDBMS

RDBMS即关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,常用的数据库软件有Oracle、SQL Server等。

RESTful

RESTful:是一种软件架构风格、设计风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

JDBC

JDBC(Java DataBase Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序。

ODBC

开放数据库连接(Open Database Connectivity)是为解决异构数据库间的数据共享而产生的,现已成为WOSA(The Windows Open System Architecture ),Windows开放系统体系结构)的主要部分和基于Windows环境的一种数据库访问接口标准ODBC 为异构数据库访问提供统一接口,允许应用程序以SQL 为数据存取标准,存取不同DBMS管理的数据;使应用程序直接操纵DB中的数据,免除随DB的改变而改变。用ODBC 可以访问各类计算机上的DB文件,甚至访问如Excel 表和ASCI I数据文件这类非数据库对象。

平台系统逻辑框架

3.jpg

机器学习库

并行化的高性能机器学习算法库,包含分类、聚类、回归、预测、推荐等大量常用机器学习算法,可用于构建在线和离线海量数据挖掘系统。

流式机器学习

支持用户在实时计算过程进行统计学习和机器学习,如聚类算法,可以实时调整聚类中心;分类算法可以实时更新分类模型,并对流数据进行类比判断。

完整的数据仓库功能支持

目前支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;支持绝大部分Oracle PL/SQL和DB2 SQL/PL语法,包括完整的数据类型、流程控制、Package、游标、异常处理以及动态SQL执行,可以满足绝大部分数据应用的从关系型数据库到ZUUL Gateway平台的迁移。支持对数据的增删改操作,允许从多数据源中加工数据,同时为了有效的保证数据处理的准确性,提供了分布式事务的支持,保证了处理过程中数据的ACID,即原子性、一致性、隔离性和持久性。

高并发低延时,支持半结构化和非结构化数据

Hyperbase支持JSON数据格式等非结构化数据,用户可以直接将JSON格式的数据存储在Hyperbase之中,并可以对任意字段进行查询,创建索引以及删改。包含Elastic Search组件,支持分布式全文检索,并可使用SQL语法进行搜索。Object Store技术可以高效的满足单条数据大小在几百K到10M的二进制存储需求,对一些图片和视频类的在线业务非常有效。

交互式数据分析和挖掘能力

Discover支持R交互式数据分析,同时内置了大量常用机器学习算法的分布式实现,可以与R语言中的数千个算法混合使用,可高速分析现有平台中的海量数据。Discover还提供了包括文本分析、交易反欺诈、风险分析、推荐系统在内的多个行业的解决方案,使得用户快速地基于自身业务系统构建解决方案。结合Discover高效快速的数据挖掘能力对主流可视化和BI工具的支持,可以帮助客户将新的大数据应用轻松融合进原有业务中,通过对真实场景全量数据的学习和挖掘,为客户产生更多价值。

OLAP多维分析

OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)等。

钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

北京总部
  • 北京市海淀区大钟寺13号华杰大厦B座3层306-310室
  • 010-56181910
郑州子公司
  • 郑州市金水区紫荆山路5号2号楼1004
  • 15010292898
石家庄办事处
  • 石家庄市新华路294号盛安大厦5楼
  • 15931118033
Copyright 2011-2020 All Rights Reserved | 京ICP备13013562号

微信号

抖音号