首页 科技资讯 业界

亚马逊云科技陈晓建:实现数据分析和机器学习融合 需解决三个问题

【TechWeb】5月6日消息,企业数字化转型需求已经从单纯的业务“线上化”向业务“智能化”进化。Gartner预计到2024年,75%的企业将把机器学习技术用于生产,为企业业务赋能。

而这一趋势背后,正是数据驱动业务所带来的降本增效力量。福布斯调研报告显示,如果一家企业成为数据驱动型公司的话,其收入会增加20%,同时成本会减少30%。

亚马逊云科技大中华区产品部总经理陈晓建表示,机器学习作为人工智能的重要分支,其同样依赖“算力、算法、数据”三大因素。企业要重塑数据洞察,一定是将数据(大数据技术)和智能(机器学习技术)进行融合和统一。这种融合,能更加高效地围绕数据构建和实施项目,使得数据在两者之间无缝流转,成员快速具备相关能力,推动公司企业数字化转型迈向新的高度。

不过现实情况中,企业的数据分析和机器学习融合普遍存在三大问题:

一是,在企业内部,由于数字化发展的历史原因,数据和机器学习往往由不同部分不同团队分而治之,这种数据和技术的孤岛状态制约了敏捷迭代。

二是,很多传统企业存在数据处理能力不足的情况。一个好的算法如果要产生效果,不只是算法本身要优秀,还需要有大量业务数据输入进行不断迭代,最后才能把算法优化到很好的效果。在现实情况中,很多机器学习的团队不具备处理海量数据规模的能力,在这样情况下,如果只有好的算法,没有大量的数据,致使预测不准确,无法达到预期业务目标。

三是,数据分析人员对业务的参与度低。现实情况经常是,模型在实验环节效果良好,但实际使用中却不尽人意。因为技术人才的实验环境只是对真实环境的简单模拟,而真正的生产环境要复杂得多。

如果要实现数据分析和机器学习有效融合,就需要解决上述问题,陈晓建强调:“要实现数智有效融合,企业首先需要建立统一融合的治理底座,如数据质量、数据权限、数据开发、数据工作流、可视化;其次,大数据和机器学习之间应该是高效充分的双向互动,互为支撑,互为因果,形成正向循环,最终为企业发展提供新动力。”

谈到“融合”,就需要了解企业目前数据分析和机器学习能力的实际情况。有一类企业的技术路径是机器学习能力完全诞生于大数据团队;第二类企业进行机器学习和大数据项目创新的时候,它的起步其实是由于深度学习所带来的,比如图像识别、语音识别,类似这样的机器学习项目。

对于不同发展路径的企业,在实现“数智融合”这一共同目标上,陈晓建介绍,亚马逊云科技提供了有针对性的服务和工具,来解决上述“遍存在三大问题”。

首先,亚马逊云科技能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排,来打破数据和技术孤岛。

其中, Amazon Lake Formation作为“智能湖仓”架构的核心功能,能够实现跨部门、跨地域,允许不同组织内的机构共享同一个元数据,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。

Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。

这些云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。

其次,为机器学习提供生产级别的数据处理能力。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。

最后,让数据分析技术更加低门槛,让业务人员也能有自主式训练机器学习模型进行探索创新的能力。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。

亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。

IDC中国助理研究总监卢言霞表示:“根据IDC 2022年中国人工智能及自动化市场的十大预测,人工智能将无处不在。到2022年,60%的中国1000强公司将在所有关键业务的横向职能中扩大使用AI/ML,如营销、法务、人力资源、采购和供应链、物流等。由于机器学习更加依赖算力、算法、数据,人工智能的快速发展拉动了对AI基础数据服务的需求,预计在未来几年内将稳步增长。在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,通过云、数、智深度融合迎合市场需求,能够降低更多行业用户上云用数赋智的门槛,更好地开展云上数智融合之旅。”

据悉,迄今为止,亚马逊云科技已经帮助全球数十万的用户通过利用大数据和AI技术帮助业务发展。而亚马逊云科技在其中主要做的事情有三件,“第一,通过权限控制以及自由的数据访问,打破数据以及技能的孤岛;第二,将无服务器数据处理的能力,带给机器学习的项目真正实现从实验转为实践。第三,通过更智能化的数据分析工具,将机器学习赋能给业务人员,极大地赋能业务人员进行智能化的探索和创新。”陈晓建总结道。

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。

手机游戏更多