博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark的数据存储(十九)
阅读量:5319 次
发布时间:2019-06-14

本文共 452 字,大约阅读时间需要 1 分钟。

  Spark本身是基于内存计算的架构,数据的存储也主要分为内存和磁盘两个路径。Spark本身则根据存储位置、是否可序列化和副本数目这几个要素将数据存储分为多种存储级别。此外还可选择使用Tachyon来管理内存数据。

  为了适应迭代计算,Spark将经常被重要的数据缓存到内存中以提升数据读取速度,当内存容量有限时,则将数据存入磁盘中或根据最近最少使用页面置换算法将内存中使用频率较低的文件空间收回,从而让新的数据进来。

  Tachyon的出现主要是为了解决3个问题而设计。一是多应用数据共享问题,二是JVM缓存数据丢失问题,三是GC开销问题。Tachyon将过去的Spark中的计算和内存管理两个部分分离,专门使用Tachyon在JVM堆外管理Spark计算所需要的数据,极大地减轻了Spark管理上的负担和JVM内存负担。这种设计思路能很好地解决以上3个问题并提升了程序运行的稳定性和速度。

  

转载于:https://www.cnblogs.com/zlslch/p/6185659.html

你可能感兴趣的文章
利用VS自带的dotfuscator混淆代码的学习
查看>>
安装VS.net2003时 microsoft Frontpage 2000 web 扩展客户端安装失败的解决办法
查看>>
GIT历史:Why Bitkeeper Isn't Right For Free Software
查看>>
android O 蓝牙设备默认名称更改
查看>>
mysql查询今天,昨天,近7天,近30天,本月,上一月数据方法
查看>>
malloc free[zz]
查看>>
Django基础,Day9 - 静态文件目录与路径设置说明(eg. images, JavaScript, CSS)
查看>>
summernote 上传图片到图片服务器的解决方案(springboot 成功)
查看>>
简单理解Socket
查看>>
sql中 in 、not in 、exists、not exists 用法和差别
查看>>
Android BroadCastReceiver介绍
查看>>
关于腾讯云视频的接入遇到的坑
查看>>
【Linux笔记】CentOS 7 systemctl、firewalld
查看>>
SDK目录结构
查看>>
springmvc注解
查看>>
结对作业-四则运算GUI
查看>>
malloc() & free()
查看>>
HDU 2063 过山车
查看>>
jdbc oracle 连接字符串
查看>>
LLVM language 参考手册(译)(3)
查看>>