云银行的Petabyte Scale数据管理

通过Ajay vij,穆罕默德·Faizanjitendra raisinghani,Sharan Bathija. 2019年7月|简要|21分钟阅读|本文的电子邮件|下载
将银行数据从遗留系统迁移到云上说起来容易做起来难,尤其是在数据量达到pb级的情况下。在银行开始他们的云之旅之前,必须在人员、流程和观念上做出改变。在这个以客户为中心的时代,驾驭这些对银行的转型和生存至关重要。
云银行的Petabyte Scale数据管理

银行仔细观察云

云计算推动了快速增长和创新数字商业模式的采用。从优步(Uber)到Spotify,从Netflix到Slack,成千上万的数字领导者都在云软件上建立了自己的业务。这是因为它支持灵活的、可扩展的、低成本的和不断升级的功能。但对于银行来说,采用云技术可能是一项真正的挑战——尤其是考虑到大型机的可靠性、几乎坚不可摧的本质和管理大量复杂任务的能力,它们仍然是银行业务的核心。事实上,超过90%的世界顶级银行仍然依赖于大型计算机尽管大型机在本质上是过时的,并带来了许多问题,但这仍然是一个事实。

云银行的挑战

1.传统技术

根据Infosys知识研究所调查亚搏电脑登录,遗留系统目前排名为第三个最常见的数字转型障碍(由42%的受访者命名),但金融服务管理人员预计他们可能成为2019年最严重的障碍。亚博比分直播2

每年都花费了数百万,以维持这些古老的系统,3往往与现代技术不相容。这些系统充当更好地满足数字客户需求的障碍。对遗留技术的依赖也停止了银行利用敏捷和专业方式,增加自动化和分析。根据Gartner估计,银行需要通过2020年通过其数字商业创新预算来实现遗产应用。4

专家表示,银行将80%的IT预算用于遗留技术维护,一级银行每年可能会花费高达3亿美元更新现有软件,以满足监管要求。4但云可以充当降低成本的解决方法。6例如,芝加哥联邦住房贷款银行(Federal Home Loan Bank of Chicago)通过将所有内部生产工作负载转移到云计算,将基础设施成本降低了30%。7

2.数据管理

随着数据以每天2500拍字节的速度增长,8数据管理越来越受到银行的关注,9不仅仅是因为监管和安全要求。监管机构要求银行提供详细的报告、压力测试的额外信息和细节信息。10银行继续以多种形式捕获数据(客户个人信息、交易历史、旅行地图、市场数据),这些庞大的数据现在存储在数据仓库和数据湖中。

银行存储各种位置的数据,通常由不同的用户访问,创建静坐方法和多层数据复制。11形成奇异的数据仓库和湖泊,从而引发了存储,满足监管要求,真实性,格式和更高时间来计算的进一步存在。这些都对银行的成本进行间接轴承。

银行收集的数据也必须分析和部署,以促进更好的决策。12然而,由于遗留技术,银行无法利用这些数据进行分析和分析,并改善客户体验。

3.手动数据迁移

目前,当银行决定将数据移动到新系统 - 无论是在云端还是内部部门 - 一个新的项目团队都在设置并在筒仓中工作。数据将从数据湖迁移到新系统中,或者在它们之间创建新连接。由于银行中的孤岛,使用数据的其他团队可能不知道此迁移或新连接。

在许多情况下,多个团队想要相同的数据并遵循类似的过程而不互相连接。这导致数据复制,数据湖中创建的多个副本,并在云或内部运输到不同的系统。

银行手册和淤泥方法的摄取和迁移数据是耗时的。这也是适得其反的,如在这个数字时代,客户对即时,实时和个性化产品和服务的需求已成为新的正常情况。13

4.减少遗留编码器数量

遗留系统构建在过时的语言(如COBOL)之上。例如,美国金融部门目前有超过2000亿行COBOL代码,COBOL支持90%以上的atm机。14尽管COBOL得到了广泛的应用,但如今的程序员更喜欢使用与人工智能、机器学习或云计算兼容的新语言。很少有人愿意学习一种只能与遗留技术对话的语言,熟悉COBOL的程序员可能已经50多岁或60多岁了,15在维持旧技术方面提出了重要的技能短缺挑战。16虽然可以进行升级,但它们仍不足以与这个数字时代的系统竞争或融合。

5.安全问题

任何形式的客户数据对银行来说都是敏感的。主要的云计算供应商,如谷歌和微软,都拥有出色的安全专业知识,并且都通过了符合联邦数据治理标准的认证。然而,多年来,银行一直在拖延并试图避免基础设施现代化的问题。尽管他们同意云基础设施为他们提供了更好地满足数字客户需求的能力,但除非他们确信自己的数据是安全的,否则他们不愿采用云基础设施。他们没有一个清晰的策略来帮助他们快速采用云计算。

6.敏捷和DevOps的工作方式

维护遗留系统是昂贵的,并且会延迟产品的上市时间。17它们也不太适合敏捷编程方法,而是依赖于瀑布方法,这可能会减慢软件的生产速度,导致特性发布不及时。

转向敏捷和DevOps工作方式的银行也从中受益。2012年,摩根大通遵循一个季度软件发布周期,开发和运营之间的协调很少。这些季度发布增加了风险、繁琐和耗时,并增加了交付成本。这家金融机构决定采纳敏捷和DevOps实践。软件发布周期从2015年每季度发布100个,2016年发布200个,2017年超过400个。18

首都一个人从瀑布到敏捷软件开发的举动有助于减少时间建立新的应用程序基础设施99%。Devops的自动化和新代码的持续集成有助于加快银行的开发周期,并且发布频率增加和更高的可靠性。19

7.文化转移

银行需要改变观念。他们必须准备好建立一种成本意识、客户意识和效率意识的文化。20.说,这比做,因为许多系统,流程和人们都与银行长大。一个波士顿咨询集团评估显示,在经历数字转型的公司中,有利可图的企业数量在与没有的人的文化转变相比,盈利企业的数量越来越高。亚博比分直播21

银行如何从云计算中获益?

将数据和应用程序转移到云端可以为银行节省资金。一些人说它可以削减多达75%的it成本。22与Infosys合作解决这一问题的一家大型全球银行估计,采用云计算可以节省50%的成本。银行的一些部门希望在转型过程中节省90%的成本。为了实现这一目标,该行正与印孚瑟斯(Infosys)合作建立一个多云数据管理系统,该系统可与谷歌、亚马逊(Amazon)和微软(Microsoft)的云接口,以迁移其数据。23

云是构建未来银行的关键。银行可以从向云的迁移中受益,不仅可以降低成本,还可以利用云的计算能力、扩展IT解决方案的能力和可靠性。事实上,转移到云端会让银行更像金融科技新贵,它们与之竞争日益激烈。成立于2015年的金融科技公司Monzo拥有一个仅由10名基础设施和可靠性团队支持的基础设施,能够为170万客户提供服务。该行在云上拥有400项核心银行微服务,这些服务帮助其以即时余额查询和实时报表等形式为客户提供价值。24

Infosys银行客户面临的问题

与印孚瑟斯合作建立开源数据管理平台的那家银行,一开始就面临着许多同行所面临的经典挑战。项目团队在竖井中工作,使用各种工具和软件。对于移动数据,采用从头算法;标签,Collibra;对于调度,Control-M。有将近20个活动部件,每个部件都附有许可证。

银行每天产生和移动万亿字节的数据。每一个数据输入过程都需要8到12周才能完成,而且繁琐、耗时、适得其反。

迎来Infosys开源数据管理平台

为了解决这个问题,Infosys建立了一个开源,Petabyte-Scale多云数据摄取和管理平台。它是一个元数据驱动的数据管理生态系统,旨在满足组织的当前和未来的数据传送要求。该平台允许银行内的业务或函数从源以定义的格式从源将数据以约定的频率移动到目的地。

该平台是为解决一系列银行问题的,从数据管理开头。它提供了一种核心方式来监控所有银行数据,并使它能够在无需重复的情况下在云中摄取。该平台还启用了可信源框架的实现,有助于数据谱系。这允许用户跟踪数据使用情况,了解谁已达到最后的变化,如何标记数据并更好地管理可用数据的单个视图。

Infosys开源数据管理平台后面的架构

数据管理平台首先针对的是摄入问题——获取数据并将其转移到云或本地,然后在云系统上摄入数据,如Hadoop、谷歌云平台(GCP)、亚马逊网络服务(AWS)和微软Azure。

其次,它侧重于数据管理问题。该平台使自动摄入数据与前后的手动和纤维方法相比。它还提供集中摄取数据的平台和界面。

该平台可以将数据从本地复制到一个多云环境,同时支持批处理和近实时移动。建立它的目的是保证大规模的数据交付。数据管理平台实现了各种功能,免去了每项功能都需要使用多种类型的软件,节省了许可成本。

该平台在以下阶段获得,摄取和转换数据:

1.获得

银行交易数据存储在遗留大型机技术的多个数据库和交换格式上。结构化和非结构化数据存储在大数据Hadoop平台,Oracle数据库,DB2等中。

该平台与数据库接口以获取存储的数据。

2.摄取

一旦原始数据从内部部门中拉入,需要以耐用的格式存储,并且可以轻松访问。该平台的体系结构以各个阶段摄取此数据:

  • 数据提取
    • 结构化、非结构化或半结构化数据从各种数据库和源系统中提取或复制。数据管理平台易于使用的界面支持与超过25个源系统的交互,包括关系数据库管理系统(如Oracle, Teradata, MS SQL Server, Hadoop, HDFS)和多个云(GCP, Azure, AWS)。数据的提取和复制是使用Kafka处理引擎进行的,而NiFi用于批量处理。
    • 特定的数据集可以通过用户友好的界面提取,使开发人员和业务用户能够创建摄入管道,并实时跟踪他们的移动。
    • 该接口允许数据以pb级的速度从不同的本地系统快速移动到本地Hadoop数据湖或多个云平台(GCP、AWS、Azure)。
    • 与作为单个单元构建的单片应用程序不同,Infosys平台的微服务驱动架构有助于减少开发时间。它的服务套件(每个都独立运行和部署)减少了对熟练开发人员交付数据移动的依赖。
  • 数据掩蔽
    • 数据屏蔽有助于金融机构保护受限制和敏感的客户数据(包括个人身份信息(PII)),防止未经授权的数据访问和避免无根据的数据暴露。因此,银行欺诈行为减少了。
    • 数据在输入到本地位置或云之前会被屏蔽。平台密钥管理服务(KMS)对数据进行实时屏蔽,只有授权用户才能解除屏蔽。
    • 这有助于银行符合网络安全和监管要求,并帮助他们与数据访问路径安全的用户建立信任。
  • 数据沿袭
    • 数据沿袭显示了数据的生命周期,即它的来源、它随时间移动的位置(在本地位置或云中)、对它执行了什么操作以及它的最终目的地。它有助于将数据追溯到其原始来源(无论是本地还是云中),协调数据,减少重复,并快速将错误追溯到其源。
    • 另一个重要的方面是“可解释性”。由于对特定数据有多种依赖关系,数据沿袭可以帮助银行解释为什么做出某些决策。它还有助于银行遵守维护和管理客户数据的监管要求,例如,通用数据保护条例(GDPR)。
    • Infosys的开源数据管理平台使用Java,Python和D3.js库构建的数据谱系。
  • 工作安排
    • 这有助于自动触发重复的或临时的数据传输——每天、每周、每月或基于任何事件的发生。
    • 银行需要快速处理大量交易,没有任何错误或任何停机时间。作业调度的自动化确保了必要的数据在正确的时间有效地传输到正确的位置。
    • 当服务器故障时,触发容灾过程,并将任务负载切换到容灾服务器上。
    • 平台的作业计划程序使用事件驱动的架构来安排作业。
  • 数据加密
    • 包括PII在内的受限和敏感的客户数据在休息时在多个级别加密,而在运输过程中,以确保不会发生数据泄露。事实上,美国的格拉姆leach-blyiley法案(GLBA)也要求机构保护客户的非公共个人信息(NPI)。
    • KMS符合所有银行标准。它使用一个4096位RSA密钥库,确保防篡改保护和数据加密。这高于256位加密的行业标准。该平台的KMS有用于数据屏蔽和数据加密的独立模块。
    • 传输到云端的数据采用TLS (Transport Layer Security)加密,使用证书进行身份验证,以确保客户端和服务器之间的通信是可信的。云证书使用双重加密密钥存储。
  • 实时流媒体
    • 印孚瑟斯(Infosys)的开源数据管理平台旨在实现数据从源到目标的连续、近实时移动。为了加速数据从本地到云的移动,该平台使用了infosys开发的开源组件、NiFi、Kafka和云。
    • 更改通常只能代表总数据量的一小部分。数据管理平台使用infosys开发的开源组件读取日志,然后将更改复制和镜像到云中。
    • 云为数据在处理、存储和分析过程中提供了一个暂存位置。

3.发布、转换和管理

存储的数据被转换成可操作的信息,结果被转换成一种易于获取见解的格式。

  • 数据发布
    • 现在正在清除和存储的数据,并在云数据库或数据仓库中进行干净和组织。此外,基于所提供的元数据信息,在目标数据库中创建目标表。云数据管理器使用Google BigQuery与互动和分析巨大的存储数据卷。
    • 该函数使用Java、Python、Cloud SDK、Cloud原生工具和谷歌BigQuery构建。
  • 数据掩蔽
    • 在将其摄入到本地位置或云中再次屏蔽数据。KMS实时掩码数据,数据可以仅为授权用户解开。
  • 数据分析
    • 数据分析有助于评估可用数据的质量和关系。数据分析作业是在平台的调度程序中进行的。
  • 用户管理
    • 用户管理功能基于组织的Active Directory对用户进行认证和板载。它还分配角色或提供对授权用户使用的平台的各种特性的安全访问。
    • 数据管理平台使用Java Spring Boot,Active Directory,Cloud Identity和Access Management(IAM)和KMS获取此功能。
  • 元数据
    • 该功能存储平台接收、处理和调度的数据的业务和技术元数据。
    • 它帮助跟踪数据沿路、日志和跟踪数据,并提供用于跟踪提要状态的指示板。
    • Infosys的开源数据管理平台使用Postgres或MySQL数据库来存储元数据。
  • 数据沿袭
    • 数据被输入到本地地点或云后就会被公开。KMS只允许授权用户公开数据。
    • 这有助于银行遵守网络安全和监管要求,并有助于与用户建立数据访问路径是安全的信任。
  • 业务词汇表
    • 该平台捕获业务术语表,并将数据移动到本地和云中的目的地。它为所吸收的数据和属性标记业务术语表,对于审计目的也很有帮助。
    • Infosys的开源数据管理平台使用Java和开源业务词汇表模型来保存业务词汇表。

Infosys开源数据管理平台的好处

  • 通过数据管理平台,一家大型全球银行的数据迁移周期缩短了75%以上,每日流动性报告时间缩短了近80%。
  • 该平台改进了银行的数据管理,成为数据迁移的一站式商店。这导致存储和操作的成本降低,以及改进的数据谱系。
  • 它还帮助Infosys的客户节省了850万美元的许可续订费用,了解了解决实时数据处理和应用程序集成的AB Initio软件。
  • 凭借其Petabyte-Scale转移能力,Infosys的开源数据管理平台对银行提供了显着的好处,并帮助将数百个应用程序和Petabytes移动到云端。

印孚瑟斯开源数据管理平台的银行业未来

使用Infosys的数据管理平台,银行现在可以在规模上快速迁移数据,并部署人工智能和机器学习以分析数据,提供更好的洞察力并做出更好的决策。因此,银行可以开始真正作为数字第一公司的行动,就像金融技术竞争对手一样,他们越来越遇到市场。作为开源解决方案,Infosys的数据管理平台将从开源社区和选择测试和使用它的其他银行的贡献中受益。我们希望将来,它将成为一个标准平台,使传统的大型银行能够在Petabyte规模与云进行互动。

参考
  1. “两台平台it:为什么大型机仍然存在于现代企业中的位置,”2018年4月12日的信息时代
  2. “Infosys数字雷达2019:金融服务业数字转型的障碍和加速器,2019年6月亚博比分直播
  3. “银行从50岁的情况下抚摸成本,”2017年10月2日的财经新闻
  4. 消费者想要传统银行系统无法提供的体验,《金融品牌》杂志,2018年4月2日
  5. “AWS案例研究:芝加哥联邦房屋贷款银行,”亚马逊网络服务
  6. “数据带来无尽的可能性:从现在驶向下一个,”印孚瑟斯知识研究所,2018年11月亚搏电脑登录
  7. “银行通过令人耳目敬的数据管理法规,”Pymnts.com,2017年12月5日,Pymnts.com留在脚趾上
  8. “监管数据管理:亚洲银行的数据质量和诚信问题,”穆迪的分析,2019年4月
  9. “金融服务的数据管理挑战,”数字主义杂志,2019年1月15日
  10. “为什么银行不是充分利用数据的大部分数据?,”Raconteur,2019年6月18日
  11. “数字银行转型:重新定义银行核心”,印孚瑟斯知识研究所,2019年4月亚搏电脑登录
  12. “COBOL BLUES,”路透社
  13. “你知道Cobol吗?”如果是的话,也许会有个适合你的工作。”《华尔街日报》2018年9月21日报道
  14. Finextra网站2018年10月26日报道:“遗留系统是银行的痛苦。
  15. “摩根大通资产管理如何从季度发布变成每日发布,”TechBeacon, 2018年
  16. “AWS上的按需基础设施帮助Capital One的DevOps团队比以往更快地发展”,亚马逊网络服务
  17. 波士顿咨询集团2018年亚博比分直播4月13日发表《没有数字文化就不是数字转型》
  18. “Monzo如何在AWS上为50多万客户建立数字银行”,亚马逊网络服务