pidstat 命令详解
概述
pidstat是sysstat工具的一个命令,用于监控全部或指定进程的cpu、内存、线程、设备IO等系统资源的占用情况。pidstat首次运行时显示自系统启动开始的各项统计信息,之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。
安装
apt-get install sysstat
yum install sysstat
示例
pidstat 的用法:
pidstat [ 选项 ] [ <时间间隔> ] [ <次数> ]
常用的参数:
-u:默认的参数,显示各个进程的cpu使用统计
-r:显示各个进程的内存使用统计
-d:显示各个进程的IO使用情况
-p:指定进程号
-w:显示每个进程的上下文切换情况
-t:显示选择任务的线程的统计信息外的额外信息
-T: { TASK | CHILD | ALL }
这个选项指定了pidstat监控的。TASK表示报告独立的task,CHILD关键字表示报告进程下所有线程统计信息。ALL表示报告独立的task和task下面的所有线程。
注意:task和子线程的全局的统计信息和pidstat选项无关。这些统计信息不会对应到当前的统计间隔,这些统计信息只有在子线程kill或者完成的时候才会被收集。
-V:版本号
-h:在一行上显示了所有活动,这样其他程序可以容易解析。
-I:在SMP环境,表示任务的CPU使用率/内核数量
-l:显示命令名和所有参数
示例一:查看所有进程的 CPU 使用情况( -u -p ALL)
pidstat
pidstat -u -p ALL
pidstat 和 pidstat -u -p ALL 是等效的。
pidstat 默认显示了所有进程的cpu使用率。
[root@centos ~]# pidstat
Linux 5.12.13-1.el8.elrepo.x86_64 (VM-8-6-centos) 07/08/2021 _x86_64_ (2 CPU)
10:31:40 AM UID PID %usr %system %guest %wait %CPU CPU Command
10:31:40 AM 0 1 0.00 0.01 0.00 0.01 0.01 1 systemd
10:31:40 AM 0 2 0.00 0.00 0.00 0.00 0.00 0 kthreadd
10:31:40 AM 0 11 0.00 0.01 0.00 0.10 0.01 0 ksoftirqd/0
10:31:40 AM 0 12 0.00 0.04 0.00 2.10 0.04 1 rcu_sched
10:31:40 AM 0 13 0.00 0.00 0.00 0.00 0.00 0 migration/0
10:31:40 AM 0 17 0.00 0.00 0.00 0.00 0.00 1 migration/1
10:31:40 AM 0 18 0.00 0.01 0.00 0.10 0.01 1 ksoftirqd/1
10:31:40 AM 0 26 0.00 0.00 0.00 0.01 0.00 0 kauditd
10:31:40 AM 0 28 0.00 0.00 0.00 0.00 0.00 1 khungtaskd
10:31:40 AM 0 31 0.00 0.00 0.00 0.02 0.00 1 kcompactd0
10:31:40 AM 0 33 0.00 0.00 0.00 0.00 0.00 1 khugepaged
10:31:40 AM 0 92 0.00 0.00 0.00 0.00 0.00 0 kworker/0:1H-kblockd
10:31:40 AM 0 105 0.00 0.00 0.00 0.00 0.00 0 kswapd0
...
详细说明
- PID:进程ID
- %usr:进程在用户空间占用cpu的百分比
- %system:进程在内核空间占用cpu的百分比
- %guest:进程在虚拟机占用cpu的百分比
- %CPU:进程占用cpu的百分比
- CPU:处理进程的cpu编号
- Command:当前进程对应的命令
示例二: cpu使用情况统计(-u)
pidstat -u
使用-u选项,pidstat将显示各活动进程的cpu使用统计,执行”pidstat -u”与单独执行”pidstat”的效果一样。
示例三: 内存使用情况统计(-r)
使用-r选项,pidstat将显示各活动进程的内存使用统计:
pidstat -r
[root@centos ~]# pidstat -r -p 982 1 3
Linux 5.12.13-1.el8.elrepo.x86_64 (VM-8-6-centos) 07/08/2021 _x86_64_ (2 CPU)
10:36:11 AM UID PID minflt/s majflt/s VSZ RSS %MEM Command
10:36:12 AM 0 982 0.00 0.00 1958288 112236 2.79 kubelet
10:36:13 AM 0 982 0.00 0.00 1958288 112236 2.79 kubelet
10:36:14 AM 0 982 0.00 0.00 1958288 112236 2.79 kubelet
Average: 0 982 0.00 0.00 1958288 112236 2.79 kubelet
- PID:进程标识符
- Minflt/s:任务每秒发生的次要错误,不需要从磁盘中加载页
- Majflt/s:任务每秒发生的主要错误,需要从磁盘中加载页
- VSZ:虚拟地址大小,虚拟内存的使用KB
- RSS:常驻集合大小,非交换区五里内存使用KB
- Command:task命令名
示例四:显示各个进程的IO使用情况(-d)
pidstat -d
[root@centos ~]# pidstat -d -p 982 1 3
Linux 5.12.13-1.el8.elrepo.x86_64 (VM-8-6-centos) 07/08/2021 _x86_64_ (2 CPU)
10:37:25 AM UID PID kB_rd/s kB_wr/s kB_ccwr/s iodelay Command
10:37:26 AM 0 982 0.00 0.00 0.00 0 kubelet
10:37:27 AM 0 982 0.00 0.00 0.00 0 kubelet
10:37:28 AM 0 982 0.00 0.00 0.00 0 kubelet
Average: 0 982 0.00 0.00 0.00 0 kubelet
报告IO统计显示以下信息:
- PID:进程id
- kB_rd/s:每秒从磁盘读取的KB
- kB_wr/s:每秒写入磁盘KB
- kB_ccwr/s:任务取消的写入磁盘的KB。当任务截断脏的pagecache的时候会发生。
- COMMAND:task的命令名
示例五:显示每个进程的上下文切换情况(-w)
pidstat -w -p 982
[root@VM-8-6-centos ~]# pidstat -w -p 982 1 3
Linux 5.12.13-1.el8.elrepo.x86_64 (VM-8-6-centos) 07/08/2021 _x86_64_ (2 CPU)
10:38:55 AM UID PID cswch/s nvcswch/s Command
10:38:56 AM 0 982 0.00 0.00 kubelet
10:38:57 AM 0 982 0.00 0.00 kubelet
10:38:58 AM 0 982 0.00 0.00 kubelet
Average: 0 982 0.00 0.00 kubelet
- PID:进程id
- Cswch/s:每秒主动任务上下文切换数量
- Nvcswch/s:每秒被动任务上下文切换数量
- Command:命令名
示例六:显示选择任务的线程的统计信息外的额外信息 (-t)
pidstat -t -p 982 1 3
[root@VM-8-6-centos ~]# pidstat -t -p 982 1 3
Linux 5.12.13-1.el8.elrepo.x86_64 (VM-8-6-centos) 07/08/2021 _x86_64_ (2 CPU)
10:39:41 AM UID TGID TID %usr %system %guest %wait %CPU CPU Command
10:39:42 AM 0 982 - 2.00 2.00 0.00 0.00 4.00 1 kubelet
10:39:42 AM 0 - 982 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:42 AM 0 - 1071 0.00 0.00 0.00 2.00 0.00 1 |__kubelet
10:39:42 AM 0 - 1075 1.00 0.00 0.00 1.00 1.00 0 |__kubelet
10:39:42 AM 0 - 1076 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:42 AM 0 - 1077 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1109 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1372 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:42 AM 0 - 1692 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1704 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:42 AM 0 - 1775 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1809 0.00 0.00 0.00 1.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1871 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 1880 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 2034 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:42 AM 0 - 2035 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 3126 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 3130 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:42 AM 0 - 3131 1.00 2.00 0.00 2.00 3.00 0 |__kubelet
10:39:42 AM UID TGID TID %usr %system %guest %wait %CPU CPU Command
10:39:43 AM 0 982 - 4.00 0.00 0.00 0.00 4.00 1 kubelet
10:39:43 AM 0 - 982 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:43 AM 0 - 1071 0.00 0.00 0.00 1.00 0.00 1 |__kubelet
10:39:43 AM 0 - 1075 0.00 0.00 0.00 1.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1076 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:43 AM 0 - 1077 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1109 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1372 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:43 AM 0 - 1692 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1704 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:43 AM 0 - 1775 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1809 2.00 0.00 0.00 0.00 2.00 1 |__kubelet
10:39:43 AM 0 - 1871 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 1880 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 2034 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:43 AM 0 - 2035 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 3126 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 3130 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:43 AM 0 - 3131 1.00 0.00 0.00 1.00 1.00 0 |__kubelet
10:39:43 AM UID TGID TID %usr %system %guest %wait %CPU CPU Command
10:39:44 AM 0 982 - 2.00 1.00 0.00 0.00 3.00 1 kubelet
10:39:44 AM 0 - 982 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 1071 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 1075 1.00 0.00 0.00 0.00 1.00 1 |__kubelet
10:39:44 AM 0 - 1076 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 1077 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 1109 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 1372 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 1692 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 1704 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 1775 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 1809 1.00 0.00 0.00 1.00 1.00 0 |__kubelet
10:39:44 AM 0 - 1871 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 1880 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 2034 0.00 0.00 0.00 0.00 0.00 1 |__kubelet
10:39:44 AM 0 - 2035 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 3126 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 3130 0.00 0.00 0.00 0.00 0.00 0 |__kubelet
10:39:44 AM 0 - 3131 1.00 0.00 0.00 1.00 1.00 0 |__kubelet
Average: UID TGID TID %usr %system %guest %wait %CPU CPU Command
Average: 0 982 - 2.67 1.00 0.00 0.00 3.67 - kubelet
Average: 0 - 982 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1071 0.00 0.00 0.00 1.00 0.00 - |__kubelet
Average: 0 - 1075 0.67 0.00 0.00 0.67 0.67 - |__kubelet
Average: 0 - 1076 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1077 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1109 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1372 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1692 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1704 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1775 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1809 1.00 0.00 0.00 0.67 1.00 - |__kubelet
Average: 0 - 1871 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 1880 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 2034 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 2035 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 3126 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 3130 0.00 0.00 0.00 0.00 0.00 - |__kubelet
Average: 0 - 3131 1.00 0.67 0.00 1.33 1.67 - |__kubelet
- TGID:主线程的表示
- TID:线程id
- %usr:进程在用户空间占用cpu的百分比
- %system:进程在内核空间占用cpu的百分比
- %guest:进程在虚拟机占用cpu的百分比
- %CPU:进程占用cpu的百分比
- CPU:处理进程的cpu编号
- Command:当前进程对应的命令
fsck 磁盘修复
fsck不能乱用。先要把文件系统umount掉,然后检查。最好启动到单用户模式下fsck。
常见的5种损坏类型
1 未被引用的inode
2 难以置信的超大链接数
3 没有记录在磁盘块映射表中的未用数据快
4 列出的空闲数据快还在某个文件中便用
5 超级块中不正确的汇总信息
如果一个受损的文件系统(也就是fsck无法自动修复的文件系统)包含了非常有价值的数据,那么在稳固地备份它之前不要对其进行任何试验,,您可以试着转储(dump)硬盘,用最保险的策略就是dd整个硬盘到另一个备份文件或都备份硬盘中去。注意:如果使用不正确的话,dd命令有时候能够破坏分区信息,它只能在大小完全相同的两个分区之间复制文件系统。
dd if=/dev/sda of=/dev/sdb
修复下面这两个参数用的比较多,其它的基本上不用:
-a,自动修复
-y,自动确认
fsck -ay /dev/sda5
若我们只想知道文件系统上有哪些错误而不想修复这些错误,那么可以使用选项 -n
fsck-n /dev/sdb1
要保证 fsck 只在卸载的磁盘上操作,可以使用选项 -M,
xfs_repair
需要修复的场景
<1>.主机侧发现存在文件系统不可读写的情况,也可以通过查看主机端日志来确认是否有文件系统异常发生: xfs_force_shutdown 、I/O error
<2>.出现异常停电,供电恢复正常,主机和阵列系统重起之后
<3>.存储介质故障:出现LUN失效、RAID失效、以及IO超时或者出现慢盘,对慢盘进行更换,系统恢复正常之后
<4>.传输介质故障:如光纤、网线等损坏等,数据传输链路断开后又恢复正常之后
xfs常用命令
xfs_admin: 调整 xfs 文件系统的各种参数
xfs_copy: 拷贝 xfs 文件系统的内容到一个或多个目标系统(并行方式)
xfs_db: 调试或检测 xfs 文件系统(查看文件系统碎片等)
xfs_check: 检测 xfs 文件系统的完整性
xfs_bmap: 查看一个文件的块映射
xfs_repair: 尝试修复受损的 xfs 文件系统
xfs_fsr: 碎片整理
xfs_quota: 管理 xfs 文件系统的磁盘配额
xfs_metadump: 将 xfs 文件系统的元数据 (metadata) 拷贝到一个文件中
xfs_mdrestore: 从一个文件中将元数据 (metadata) 恢复到 xfs 文件系统
xfs_growfs: 调整一个 xfs 文件系统大小(只能扩展)
xfs_logprint: print the log of an XFS filesystem
xfs_mkfile: create an XFS file
xfs_info: expand an XFS filesystem
xfs_ncheck: generate pathnames from i-numbers for XFS
xfs_rtcp: XFS realtime copy command
xfs_freeze: suspend access to an XFS filesystem
xfs_io: debug the I/O path of an XFS filesystem
具体应用
查看文件块状况: xfs_bmap -v sarubackup.tar.bz2
查看磁盘碎片状况: xfs_db -c frag -r /dev/sda1
文件碎片整理: xfs_fsr sarubackup.tar.bz2
磁盘碎片整理: xfs_fsr /dev/sda1
修复xfs文件系统:
xfs_repair /dev/mapper/centos-root
xfs_repair /dev/mapper/centos-home
xfs_repair -L /dev/mapper/centos-root
xfs_repair -L /dev/mapper/centos-home