概述

基于Hadoop的生态系统帮助企业处理不同的数据集,构建可操作的分析。然而,随着这些平台被大规模采用,企业将面临供应集群、成本增加、治理和性能方面的挑战。分析的沙盒类型的环境需要供应按需计算需求,这在预部署Hadoop架构中比较困难,因为它不支持解耦计算和存储。

标志

企业可以通过迁移到稳定、安全、受治理的云平台来解决这些问题,该云平台可以按需伸缩、有效地管理成本、促进按使用量付费特性并满足遵从性需求。分析用户还可以使用按需提供的基础设施,并利用大量的预构建库组件。Hadoop迁移到云在数据景观现代化中扮演着关键角色,可以帮助利用数据经济提供的机会。

我们的Hadoop迁移策略和加速器可以帮助企业有效地加速向云的迁移旅程。

Infosys的数据和分析团队通过明确定义的战略和一套工具构建了解决方案,以加速Hadoop向云平台的迁移。

我们已经确定了向云高效迁移的不同方法:

  • 提升/移位-迁移内部流程,不改变云
  • 改造——以最小的改变迁移对象,比如存储组件和与新环境兼容的功能
  • 重新架构:重新设计应用程序,以实现现代化平台的好处
  • 混合:使用不同模式的组合迁移应用程序
数据操作服务提供

图1:Hadoop迁移到AWS-模式

我们设计了加速器和流程,以帮助迁移基于上述模式的数据湖对象和应用程序,并遵循实现策略,以帮助客户实现可伸缩和可预测的结果。

数据操作服务提供

图2:实施策略

使用Infosys Wizard和AWS加速云迁移

与我们的专家交流

通过功能加速了50%的云迁移旅程

  • 目录元数据集合
  • 模式转换
  • 历史数据迁移&追赶负载
  • 数据认证

Infosys数据向导可以帮助加快迁移过程。解决方案包括以下组件:

  • 评估:一个全面的评估框架,可以识别源数据存储的使用模式,并推荐最适合的目标数据存储
  • 现代化建议:决策矩阵帮助确定每种类型的数据存储的正确方法
  • 数据库对象迁移:帮助迁移不同类型的DB对象库存类的解决方案加速器
  • 代码/管道迁移:帮助迁移不同类型的数据处理对象库存类的解决方案加速器
  • 消费迁移解决方案加速器,帮助迁移不同类型的消费对象库存类
  • 历史数据迁移:帮助将历史数据迁移到目标数据平台的解决方案加速器
  • 测试和验证:一个全面的测试解决方案,可以加速已迁移资产的验证
  • 伙伴生态系统:供应商伙伴关系补充了迁移框架和解决方案

我们有不同的方法来满足客户特定的需求,在不同的平台上迁移与工具兼容的工作流/代码。

从Hadoop迁移到AWS可以通过以下方式实现:

  • 云上Hadoop平台
  • Hadoop到AWS EMR
  • Hadoop到下一代服务(原生+第三方)
行

挑战与解决方案

  • 在一开始就建立价值实现框架,并在整个过程中捕获和监控它
  • 利用目标平台提供的功能,如:
    • 管理服务,以简化和节省行政成本
    • 与持久性相比,临时的、按需存储和处理集群(临时模型)的使用
    • 定期进行存储/计算设计,以节约成本

通过功能加速了50%的云迁移旅程

  • 通过考虑目标平台工具的优点,确保遵循正确的迁移方法,如Lift-n-Shift, Retrofit, Re-Architect等。另外,根据工作负载的不同,可以使用所有这些方法,而不是一种。
  • 启动小型构建测试沙箱,运行具有较小/非关键数据的POCs,相关作业,并调优目标产品配置
  • 识别数据流模式(模式、工具、业务领域),并在目标工具中为数据输入、数据工程、公共数据库、数据治理(质量、元数据、沿袭)构建基本组件
  • 通过目标产品供应商或其合作伙伴利用迁移工具
  • 利用现成的测试工具(由目标产品供应商推荐)

用清晰的RACI(负责、负责、咨询和知情)构建正确的迁移团队

  • 适当降低程序的风险。
  • 制定全面的规划计划,包括治理、硬件、Hadoop软件、架构、应用(数据、对象、代码、工作流、消费)、测试和部署

按时间戳、业务线、工作负载分割数据域,并将其转换为最合适的MVP(最小可行产品)

  • sprint在计划
  • 人才流失是不可避免的,所以要考虑知识管理。、问题管理。作为一种批判性活动

  • 一开始就应该考虑安全性(授权/访问)和迁移监控(审计、日志)
  • 使用较小的数据集验证每个目标技术组件的安全性(网络、防火墙、软件、应用程序、静态/动态加密)
  • 在将迁移发布到生产环境之前,在每个主要任务之后运行安全性