什么是 Apache Spark?
Apache Spark 是一个用于大界限处理和机器学习的超快速鉴别式框架。Spark具有无尽可膨胀性,使其成为钞票 500 强企业乃至微软、苹果和 Facebook 等科技巨头值得相信的平台。
Spark 先进的非轮回处理引擎不错算作寂然装配、云奇迹或任何依然运行的流行鉴别式计算系统(如 Kubernetes 或 Spark 的前身Apache Hadoop)运行。
关于民风使用 Java、Python、Scala 或 R 布景的法子员来说,Apache Spark 往往只需要很短的学习弧线。与悉数 Apache 应用法子相似,Spark 也得到了民众开源社区的复旧,况且不错放纵与大多数环境集成。
底下简要先容 Apache Spark 的演变、责任旨趣、它提供的上风,以及合适的合作伙伴如安在确切悉数组织中简化和简化 Spark 部署。
从 Hadoop 到 SQL:Apache Spark 生态系统
与悉数鉴别式计算框架相似,Apache Spark 的责任旨趣是将多半计算任务分发到多个节点,然后在这些节点上将其剖释为不错同期处理的较小任务。
但 Spark 的碎裂性内存数据引擎使其随纯真态扩充大多数计算功课,而不需要进行多阶段处理以及在内存和磁盘之间往复进行屡次读写操作。
这一伏击特质使 Spark 随机以高达 100 倍的速率完成Apache Hadoop中使用的多阶段处理周期。其速率加上易于掌捏的 API 使 Spark 成为大型企业和开荒东谈主员的默许器具。
Apache Spark 与 Hadoop 和 MapReduce
这并不是说 Hadoop 已进程时了。它能作念 Spark 作念不到的事情,况且往往提供 Spark 责任所依赖的框架。Hadoop鉴别式文献系统使该奇迹随机存储和索引文献,充任虚构数据基础设施。
而 Spark 则在该架构上扩充鉴别式高速计算功能。淌若 Hadoop 是领有器具和确立来构建和烹调数据大餐的专科厨房,那么 Spark 等于快速拼装和分发这些大餐以供破费的加快器。
伏击的是要意识到,并非每个组织齐需要 Spark 的先进速率。Hadoop 依然使用名为MapReduce的系统来加快鉴别式处理,况且不错以惊东谈主的速率处理高达 TB 的数据集。它通过同期将并行功课映射到特定位置进行处理和检索,并通过比拟重迭和荒唐集来减少复返的数据,并提供“干净”的信息来终了这少量。
MapReduce 扩充这些功课的速率相称快,因此独一数据最密集的操作才可能需要 Spark 提供的速率。其中包括:
外交媒体奇迹电信多媒体流媒体奇迹提供商大界限数据分析
由于 Spark 是为配合 Hadoop 基础架构而构建的,因此这两个系统不错很好地协同责任。基于 Hadoop 构建的快速增长组织不错凭据需要放纵添加 Spark 的速率和功能。
Spark SQL
Spark SQL是 Apache 用于处理结构化数据的模块。Spark SQL 包含在 Spark 下载中,算作模块提供对最流行数据源的集成造访,包括 Avro、Hive、JSON、JDBC 等。
Spark SQL 将数据排序为定名的列和行,相称符合复返高速查询。最伏击的是,它不错与新的和现存的 Spark 应用法子无缝集成,以终了最好性能和最低计算资本。
Spark SQL 是 Apache Spark 生态系统中的一个器具,该生态系统还包括 Spark Batch、Spark Streaming、MLlib(机器学习组件)和 GraphX。底下先容其他模块在 Spark 寰球中阐扬的作用。
Spark Streaming — Spark 可能是用于极快分析批量数据的圆善器具,然而当存储库受到及时数据变化的影响时会发生什么?使用Spark Streaming,它在 Spark 装配之上运行,并为从确切悉数流行的存储库源中索要的及时数据添加交互式分析功能。Spark Streaming 为需要及时数据的纷乱应用法子提供复旧,并具有 Spark 可靠的容错功能,使该器具成为开荒火器库中的有劲火器。MLlib — MLlib(机器学习库)也在 Apache Spark 上土产货运行,提供快速、可膨胀的机器学习。MLlib 足下 Spark 的 API 并与任何 Hadoop 数据源无缝息争。MLib 提供可靠的算法和惊东谈主的速率来构建和爱戴复旧交易智能的机器学习库。GraphX — 使用GraphX构建和操作图形数据,在 Spark 平台上扩充比拟分析。以业内最快的速率颐养和统一结构化数据。使用友好的 GUI 从延续增长的算法聚集中进行采选,或构建自界说算法来追踪 ETL 知悉。
Spark 生态系统的悉数这些组件齐无缝交互并以最小的支拨运行,从而使 Spark 成为一个纷乱、可膨胀的平台。
Apache Spark 的上风
关于依赖大数据终了超卓的公司来说,Spark 比竞争敌手具有一些较着的上风:
速率— 如上所述,Spark 的速率是其最受接待的资产。Spark 的内存处理引擎比 Hadoop 和访佛居品快 100 倍,后者需要读取、写入和麇集传输时刻来处理批处理。容错性— Spark 生态系统在容错数据源上运行,因此批处理使用已知“干净”的数据。然而,当流数据与源交互时,需要特等的容错层。Spark 及时将流数据复制到不同的节点,并通过将辛苦流与原始流进行比拟来终了容错。通过这种模式,Spark 致使不错为及时流数据提供高可靠性。最大约束地减少手工编码— Spark 添加了 Hadoop 所可贵的 GUI 界面,使其更容易部署,而无需多半手工编码。天然有时手动定制最符合应用法子挑战,但 GUI 提供了快速便捷的选项来终了常见任务。可用性——Spark 的中枢 API 与 Java、Scala、Python 和 R 兼容,从而不错放纵构建立时界限的健壮应用法子。活跃的开荒者社区— 日立治理有绸缪、TripAdvisor 和雅虎等行业巨头已奏效大界限部署 Spark 生态系统。民众复旧和开荒社区为 Spark 提供复旧并依期更始构建。
淌若组织发现这些领域的需求,Apache Spark 将为大数据运营带来熟谙的治理有绸缪和无与伦比的处理速率。
责任旨趣
Apache Spark 构建于现存架构中确切无缝运行,复旧四种类型的装配:
当地的寂然YARN 客户端YARN 集群
每种装配类型齐使用略有不同的任务圭表,但 Spark 中的悉数大数据操作齐分为 Spark Batch 或 Spark Streaming 功课。
Spark Batch — 批处理功课分析已麇集到一个或多个数据存储中的数据(历史数据)。批处理功课从存储库提供信息以供分析。
Spark Streaming ——Spark 分析器具及时索要流数据,并通过分析器具提供对流数据和历史数据的知悉,以便大家随机随时延续变化的数据。
运筹帷幄使用 Spark Batch 和 Streaming 过甚关联组件的更多详备信息,请参考此 Spark 时间初学。
Talend 和 Apache Spark
Talend Big Data为企业提供了开释 Spark 纷乱功能所需的平台,并能立即产生影响。以下是 Talend 简化和改善 Spark 体验的五种模式:
搭伙操作——Talend 为悉数土产货、云或搀杂环境提供单一治理有绸缪源,通过非开荒东谈主员不错阐述和操作的直不雅界面竣工约束大数据。可视化联想器具— Talend 使违章子员随机在 Spark、Spark Streaming 和 Spark MLlib 中构建和裁剪功课。裁汰大数据任务的时间复杂性使组织决策者更容易取得深度交易智能。简化合规性— 在线交易寰球监管日益严格,监管雷区层见迭出,确切任何企业齐会濒临资本好意思丽且耗时的难题。Talend 提供器具和意见,匡助您粗疏合规性挑战,举例 HIPPA、PCI DSS、萨班斯-奥克斯利法案、欧洲通用数据保护条例 (GDPR) 等,提供诈骗保护、数据治清醒决有绸缪、风险缓解等,让组织不错专注于业务,而不是合规性。足下机器学习——预构建、拖放开荒东谈主员组件以及多样预构建和可定制的算法闪开荒东谈主员和数据科学家不错通过 Spark 友好的 GUI 器具足下机器学习。裁汰总领有资本— 通过 Talend 延续界面,Apache Spark 包含数据准备即奇迹,只需几分钟即可在职何环境中使 Spark 上线。简化的爱戴和轻量级图形联想器具充分足下了 Spark 生态系统的一齐功能,同期裁汰了时刻和计算支拨的投资。
了解运筹帷幄 Talend 奈何足下 Hadoop 和 Spark 终了数据敏捷性的更多信息。
Apache Spark 初学
Apache Spark 是一种卓越的鉴别式框架,具有超快的操作和高均分析功能。Spark 大幅升迁了 Hadoop 框架的速率,增多了复杂的流式分析、快速无缝的装配和较低的学习弧线,因此专科东谈主士不错立即升迁交易智能。
Talend 的单点管清醒决有绸缪增多了 Spark 友好的 GUI 部署器具、更始的机器学习和纷乱的分析器具,从而放纵终了升迁数据敏捷性。
立即驱动下载最新版块的 Apache Spark,其中包含用于特有环境构建的预竖立选项。然后下载 Talend Big Data Sandbox,驱动尝试在 Spark、Spark Streaming 和其他顶端大数据时间中进行搭伙延续。