`
wsql
  • 浏览: 11782712 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

hadoop回收站功能

 
阅读更多

回收站简介
在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash
回收站里的文件可以快速恢复。
可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。


hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启

--手动开启trash功能,添加fs.trash.interval属性
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls /user/grid/.Trash
ls: Cannot access /user/grid/.Trash: No such file or directory.

[grid@rac2 hadoop-0.20.2]$ vi conf/core-site.xml
<property>
<name>fs.trash.interval</name>
<value>1440</value>
<description>Number of minutes between trash checkpoints.
If zero, the trash feature is disabled.
</description>
</property>

注:fs.trash.interval 的含义是文件删除后保留时长,默认为0,单位为分钟,这里设的是1天(60*24)


--测试删除数据
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls in
Found 2 items
-rw-r--r-- 2 grid supergroup 12 2012-11-26 15:31 /user/grid/in/test1.txt
-rw-r--r-- 2 grid supergroup 13 2012-11-26 15:31 /user/grid/in/test2.txt
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -rmr in
Moved to trash: hdfs://gc:9000/user/grid/in
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -rm abc
Moved to trash: hdfs://gc:9000/user/grid/abc

--检查回收站数据,发现多出了.Trash目录
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls /user/grid/.Trash
Found 1 items
drwxr-xr-x - grid supergroup 0 2012-11-28 15:49 /user/grid/.Trash/Current
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls /user/grid/.Trash/Current
Found 1 items
drwxr-xr-x - grid supergroup 0 2012-11-28 15:49 /user/grid/.Trash/Current/user
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls /user/grid/.Trash/Current/user
Found 1 items
drwx------ - grid supergroup 0 2012-11-28 15:50 /user/grid/.Trash/Current/user/grid
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls /user/grid/.Trash/Current/user/grid
Found 2 items
-rw-r--r-- 2 grid supergroup 0 2012-11-27 14:04 /user/grid/.Trash/Current/user/grid/abc
drwxr-xr-x - grid supergroup 0 2012-11-26 15:31 /user/grid/.Trash/Current/user/grid/in
注:在HDFS上的回收站数据在 /user/$USER/.Trash/Current/user/$USER/目录下

--恢复回收站数据
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -mv /user/grid/.Trash/Current/user/grid/in /user/grid/in
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls in
Found 2 items
-rw-r--r-- 2 grid supergroup 12 2012-11-26 15:31 /user/grid/in/test1.txt
-rw-r--r-- 2 grid supergroup 13 2012-11-26 15:31 /user/grid/in/test2.txt

--清空回收站
清空回收站命令:hdfs dfs -expunge
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls .Trash/Current/user/grid
Found 1 items
-rw-r--r-- 2 grid supergroup 0 2012-11-27 14:04 /user/grid/.Trash/Current/user/grid/abc
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -expunge
12/11/28 16:09:12 INFO fs.Trash: Created trash checkpoint: /user/grid/.Trash/1211281609
[grid@rac2 hadoop-0.20.2]$ bin/hadoop dfs -ls .Trash/Current/user/grid
ls: Cannot access .Trash/Current/user/grid: No such file or directory.

分享到:
评论

相关推荐

    Hadoop 2.X新特性回收站功能的讲解

    开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 1.回收站参数设置及工作机制 2.启用回收站 修改core-site.xml,配置垃圾回收时间为1分钟。 &lt;name&gt;fs.trash....

    HDFS的Trash回收站功能的配置和使用

    HDFS是Hadoop分布式计算的存储基础。HDFS具有高容错性,可以部署在通用硬件设备上,适合数据密集型应用,并且提供对数据读写的高吞 吐量。HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决...

    HadoopYARN架构设计要点

    如果你的应用程序也需要借助YARN的资源管理功能,你也可以实现YARN提供的编程API,将你的应用程序运行于YARN之上,将资源的分配与回收统一交给YARN去管理,可以大大简化资源管理功能的开发。当前,也有很多应用程序...

    【容器系统】之大数据容器化-基于Kubernetes构建现代大数据系统.pdf

    任务执⾏完成后,Executor Pod会被销毁, ⽽Driver Pod会持久化相关⽇志,并保持在'completed'状态,直到⽤户⼿清理或被K8s集群的 垃圾回收机制回收. Spark原⽣⽀持K8s的好处也是很明显的:可以更好的利⽤K8s的集群资源...

    大数据-Inceptor技术白皮书.pdf

    稳定性:由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在内存中, Java垃圾回收缓慢的现象严重,导致Spark的性能不稳定,在复杂场景SQL的性能甚至不如现有Map/Reduce。 不能处理...

    大数据教育平台方案.docx

    此功能提供给老师可分配资源的总览和回收资源的管理功能。 展示老师管理的所有账号包含自身账号对集群资源占用的情况,通过饼状图展示资源占用情况,列表形式展示资源使用情况,包含登录名、姓名、学号、性别、集群...

    网站架构技术

    站内搜索 lucene nutch 分词器 no-sql库 mongodb hadoop 业务拆分 web service restful 分布式服务 大型网站架构演化的价值观 核心价值:随网站所需灵活应对 驱动力量:...

    2021数据仓库服务常见问题汇总-华为-51页.pdf

    1.5 数据仓库和Hadoop 大数据平台有什么差别? 1.6 为什么要使用公有云数据仓库服务GaussDB(DWS) ? 1.7 数据仓库服务的优势有哪些? 1.8 如何选择公有云GaussDB(DWS) 或者公有云RDS? 1.9 GaussDB(DWS) 和MRS 分别...

Global site tag (gtag.js) - Google Analytics