基于ebpf的性能工具-bpftrace

C/C++
257
0
0
2024-01-06

在前面我已经分享了关于ebpf入门的文章:

基于ubuntu22.04-深入浅出 eBPF。

这篇文章介绍一个基于ebpf技术的强大工具--bpftrace。

在现代计算机系统中,了解系统的内部运行情况对于诊断问题、优化性能以及进行安全监控至关重要。bpftrace作为一款强大的跟踪工具,为开发人员和系统管理员提供了一种独特的方式来监视和分析Linux系统的内部运行。本文描述bpftrace的原理和使用。

bpftrace

「bpftrace是基于eBPF和BBC实现了通过探针机制采集内核和程序运行的信息,然后用图表等方式将信息展示出来,帮助开发者找到隐藏较深的Bug、安全问题和性能瓶颈。」「bpftrace是一种高级跟踪,适用于最新的Linux内核(4.x)中提供的Linux增强型Berkeley数据包过滤器(eBPF)。bpftrace使用LLVM作为将脚本编译为BPF码字节语言,并使用BCC与Linux BPF系统交互,以及现有的Linux跟踪功能:内核动态跟踪(kprobes)、用户级动态跟踪(uprobes)、和跟踪点。bpftrace语言的灵感来自awk和C,以及DTrace和SystemTap等前身跟踪」

「bpftrace通过高度抽象的封装来使用eBPF,大多数功能只需要寥寥几笔就可以运行起来,可以很快让我们搞清楚eBPF是什么样的,而暂时不关心eBPF复杂的内部机理。由于bpftrace深受AWK和c的影响,bpftrace使用起来于AWK非常相似,那些内核hook注入点几乎可以按普通字符串匹配来理解,非常容易上手。」

bpftrace安装

在bpftrace的项目中,提供了一些常见系统的安装方法,官方文档:(https://github.com/iovisor/bpftrace/blob/master/INSTALL.md#ubuntu-packages)。支持的系统:Ubuntu,Fedora,Gentoo,Debian,openSUSE,CentOS,Arch,Alpine。

  • 作者使用ubuntu22.04系统,安装过程非常简单,步骤如下:
youyeetoo@youyeetoo:~$ sudo apt-get install -y bpftrace
  • 安装完毕,可以确认一下安装情况,如果看到版本号说明安装成功:
youyeetoo@youyeetoo:~$ bpftrace -V
bpftrace v0.14.0

bpftrace使用

bpftrace是eBPF的高级封装,借助bpftrace可以一窥 eBPF 轮廓。

## 列出ebpf支持的探针指令:
$ bpftrace -l

## 查看ebpf支持的探针个数:
$ bpftrace -l  | wc -l

## 查看不同类型ebpf探针个数:
$ bpftrace -l  | awk -F ":" '{print $1}' | sort | uniq -c

bpftrace执行脚本

bpftrace提供了两种不同的方式执行脚本:

  1. 单行指令执行:bpftrace -e 'cmds'
  • 单行指令模式是即用即弃,执行一些简短的指令非常方便,所有指令都包含在最后一个参数中,需要注意的是,虽然单行指令模式的指令可能很长,但对于 bpftrace 来说,它只接受了 2 个参数:-e 和 一个指令字符串(需要使用单引号包裹,确保所有指令都被识别为一个完整的字符串)。
  • 单行指令,官方也提供了一些样例,如下:
# Files opened by process
$ bpftrace -e 'tracepoint:syscalls:sys_enter_open { printf("%s %s\n", comm, str(args->filename)); }'

# Syscall count by program
$ bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @[comm] = count(); }'

# Read bytes by process:
$ bpftrace -e 'tracepoint:syscalls:sys_exit_read /args->ret/ { @[comm] = sum(args->ret); }'

# Read size distribution by process:
$ bpftrace -e 'tracepoint:syscalls:sys_exit_read { @[comm] = hist(args->ret); }'

# Show per-second syscall rates:
$ bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @ = count(); } interval:s:1 { print(@); clear(@); }'

# Trace disk size by process
$ bpftrace -e 'tracepoint:block:block_rq_issue { printf("%d %s %d\n", pid, comm, args->bytes); }'

# Count page faults by process
$ bpftrace -e 'software:faults:1 { @[comm] = count(); }'

# Count LLC cache misses by process name and PID (uses PMCs):
$ bpftrace -e 'hardware:cache-misses:1000000 { @[comm, pid] = count(); }'

# Profile user-level stacks at 99 Hertz, for PID 189:
$ bpftrace -e 'profile:hz:99 /pid == 189/ { @[ustack] = count(); }'

# Files opened, for processes in the root cgroup-v2
$ bpftrace -e 'tracepoint:syscalls:sys_enter_openat /cgroup == cgroupid("/sys/fs/cgroup/unified/mycg")/ { printf("%s\n", str(args->filename)); }'
  1. 脚本文件执行:bpftrace
  • 通过bpftrace就可以执行c style的代码,通过这类的代码,bpftrace可以实现相对复杂的逻辑。比如通过bpftrace获取当前所有shell的输入,代码如下:
BEGIN
{
        printf("Tracing bash commands... Hit Ctrl-C to end.\n");
        printf("%-9s\t%s\t%s\t%s\n", "TIME", "UID", "PID", "COMMAND");
}

uretprobe:/bin/bash:readline
{
        time("%H:%M:%S\t");
        printf("%d\t%d\t%s\n", uid, pid, str(retval));
}

END
{
        printf("end-test");
}

  • 官方提供了很多工具可直接调用,链接:https://github.com/iovisor/bpftrace/tree/master/tools

工具

说明

tools/bashreadline.bt

在系统范围内打印输入的bash命令

tools/biolatency.bt

以直方图形式显示块I/O延迟

tools/biosnoop.bt

块I/O跟踪工具,显示每个I/O延迟

tools/biostacks.bt

使用初始化堆栈显示磁盘 I/O 延迟

tools/bitesize.bt

以直方图形式显示磁盘 I/O 大小

tools/capable.bt

跟踪安全能力检查

tools/cpuwalk.bt

采样哪些 CPU 正在执行进程

tools/dcsnoop.bt

跟踪目录条目缓存 (dcache) 查找

tools/execsnoop.bt

通过 exec() 系统调用跟踪新进程

tools/gethostlatency.bt

显示 getaddrinfo/gethostbyname[2] 调用的延迟

tools/killsnoop.bt

由kill()系统调用发出的跟踪信号

tools/loads.bt

打印负载平均值

tools/mdflush.bt

跟踪 md 刷新事件

tools/naptime.bt

显示自愿睡眠呼叫

tools/opensnoop.bt

跟踪显示文件名的 open() 系统调用

tools/oomkill.bt

跟踪 OOM 杀手

tools/pidpersec.bt

计算新进程(通过 fork)

tools/runqlat.bt

CPU 调度程序运行队列延迟作为直方图

tools/runqlen.bt

CPU 调度程序运行队列长度作为直方图

tools/setuids.bt

跟踪 setuid 系统调用:权限提升

tools/ssllatency.bt

将 SSL/TLS 握手延迟总结为直方图

tools/sslsnoop.bt

跟踪 SSL/TLS 握手,显示延迟和返回值

tools/statsnoop.bt

跟踪 stat() 系统调用以进行一般调试

tools/swapin.bt

按进程显示交换

tools/syncsnoop.bt

跟踪sync()各种系统调用

tools/syscount.bt

统计系统调用

tools/tcpaccept.bt

跟踪 TCP 被动连接 (accept())

tools/tcpconnect.bt

跟踪 TCP 活动连接 (connect())

tools/tcpdrop.bt

跟踪基于内核的 TCP 数据包丢失的详细信息

tools/tcplife.bt

使用连接详细信息跟踪 TCP 会话生命周期

tools/tcpretrans.bt

跟踪 TCP 重传

tools/ tcpsynbl.bt

以直方图形式显示 TCP SYN 积压

tools/threadsnoop.bt

列出新线程创建

tools/undump.bt

捕获 UNIX 域套接字包

tools/vfscount.bt

统计 VFS 调用

tools/vfsstat.bt

对一些 VFS 调用进行计数,并提供每秒摘要

tools/writeback.bt

跟踪文件系统写回事件的详细信息

tools/xfsdist.bt

将 XFS 操作延迟分布总结为直方图