概念
系统调用
- 系统调用是操作系统提供给用户程序调用系统服务(硬件设备)的一组特殊接口,一个内核与用户空间程序交互的接口。它好比一个信使,把用户进程的请求传达给内核,待内核把请求处理完毕后再将处理结果送回给用户空间。
- 系统调用把用户从底层的硬件编程中解放出来,用户不需要面向具体的硬件编码,降低了开发的复杂性和难度,并且使用户程序具有可移植性,兼容不同平台不同硬件。
- 系统调用的封装,将用户进程隔离实现内核“保护”,用户进程不允许访问内核数据,也无法使用内核函数。用户访问内核的路径是实现规定好的,只能从规定位置进入内核,而不准许肆意跳入内核。有了这样的陷入内核的统一访问路径限制才能保证内核安全无误,从而极大的提高了系统的安全性。
- 系统调用通过软中断实现。
- 频繁使用底层系统调用会因为用户态和内核态的切换(①保存用户进程现场 ②内存等合法性的检查 ③参数传递 ④回复现场)影响程序的执行效率。

系统调用
linux的运行空间
Linux的运行空间 = 内核空间 + 用户空间

运行空间
软件中断
软件中断是通过软件指令触发的中断,linux系统内核在响应软件中断时,会从用户态切换到内核态,执行相应的系统调用。
软件中断执行过程
- 在进程的内核态堆栈中保存大多数寄存器的内容(即保存用于回复进程到用户太执行所需的上下文)
- 根据用户态传递的系统调用好,确定系统调用的执行程序
- 调用相应的执行程序来处理系统调用
- 从系统调用返回
关键要素
系统调用号
每个系统调用被赋予一个系统调用号,与具体的系统调用相关联。
位于/usr/include/asm/unistd.h
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
| #ifndef _ASM_X86_UNISTD_64_H #define _ASM_X86_UNISTD_64_H 1
#define __NR_read 0 #define __NR_write 1 #define __NR_open 2 #define __NR_close 3 #define __NR_stat 4 #define __NR_fstat 5 #define __NR_lstat 6 #define __NR_poll 7 #define __NR_lseek 8 #define __NR_mmap 9 #define __NR_mprotect 10 #define __NR_munmap 11 #define __NR_brk 12 #define __NR_rt_sigaction 13 #define __NR_rt_sigprocmask 14 #define __NR_rt_sigreturn 15 #define __NR_ioctl 16
|
系统调用表
系统调用表由内核维护,保存系统调用函数的起始地址,系统调用号对应系统调用在调用表中的偏移量。

系统调用表
系统调用实现
glibc
glibc实现操作系统提供的系统服务,即系统调用的封装。
- 每个特定的系统调用对应了至少一个glibc封装的库函数
- 多个api也可能只对应同一个系统调用
- 返回值-1在多数情况下标识内核不能满足进程要求
- libc中定义的errorno变量包含特定的错误码

glibc封装
调用syscall
1 2 3
|
int syscall(int sysno, ...);
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
| #include <stdio.h> #include <unistd.h> #include <sys/syscall.h> #include <errno.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h>
int main() { int rc; rc = syscall(SYS_chmod, "./test.txt", S_IROTH | S_IRGRP | S_IRUSR);
if (rc == -1) fprintf(stderr, "chmod failed, errno = %d\n", errno); else printf("chmod succeess!\n");
return 0; }
|
比较
方式 |
优势 |
劣势 |
glibc函数库 |
只需了解glibc提供的api的原型,无需知道更多的细节,可移植性好 |
功能限制,没有封装的调用无法使用 |
syscall调用 |
可定制自己的系统调用 |
使用不方便 |
系统调用列表
进程控制
函数 |
描述 |
fork |
创建一个新进程 |
clone |
按指定条件创建子进程 |
execve |
运行可执行文件 |
exit |
中止进程 |
_exit |
立即中止当前进程 |
getdtablesize |
进程所能打开的最大文件数 |
getpgid |
获取指定进程组标识号 |
setpgid |
设置指定进程组标志号 |
getpgrp |
获取当前进程组标识号 |
setpgrp |
设置当前进程组标志号 |
getpid |
获取进程标识号 |
getppid |
获取父进程标识号 |
getpriority |
获取调度优先级 |
setpriority |
设置调度优先级 |
modify_ldt |
读写进程的本地描述表 |
nanosleep |
使进程睡眠指定的时间 |
nice |
改变分时进程的优先级 |
pause |
挂起进程,等待信号 |
personality |
设置进程运行域 |
prctl |
对进程进行特定操作 |
ptrace |
进程跟踪 |
sched_get_priority_max |
取得静态优先级的上限 |
sched_get_priority_min |
取得静态优先级的下限 |
sched_getparam |
取得进程的调度参数 |
sched_getscheduler |
取得指定进程的调度策略 |
sched_rr_get_interval |
取得按RR算法调度的实时进程的时间片长度 |
sched_setparam |
设置进程的调度参数 |
sched_setscheduler |
设置指定进程的调度策略和参数 |
sched_yield |
进程主动让出处理器,并将自己等候调度队列队尾 |
vfork |
创建一个子进程,以供执行新程序,常与execve等同时使用 |
wait |
等待子进程终止 |
wait3 |
参见wait |
waitpid |
等待指定子进程终止 |
wait4 |
参见waitpid |
capget |
获取进程权限 |
capset |
设置进程权限 |
getsid |
获取会晤标识号 |
setsid |
设置会晤标识号 |
文件系统控制
函数 |
描述 |
fcntl |
文件控制 |
open |
打开文件 |
creat |
创建新文件 |
close |
关闭文件描述字 |
read |
读文件 |
write |
写文件 |
readv |
从文件读入数据到缓冲数组中 |
writev |
将缓冲数组里的数据写入文件 |
pread |
对文件随机读 |
pwrite |
对文件随机写 |
lseek |
移动文件指针 |
_llseek |
在64位地址空间里移动文件指针 |
dup |
复制已打开的文件描述字 |
dup2 |
按指定条件复制文件描述字 |
flock |
文件加/解锁 |
poll |
I/O多路转换 |
truncate |
截断文件 |
ftruncate |
参见truncate |
umask |
设置文件权限掩码 |
fsync |
把文件在内存中的部分写回磁盘 |
access |
确定文件的可存取性 |
chdir |
改变当前工作目录 |
fchdir |
参见chdir |
chmod |
改变文件方式 |
fchmod |
参见chmod |
chown |
改变文件的属主或用户组 |
fchown |
参见chown |
lchown |
参见chown |
chroot |
改变根目录 |
stat |
取文件状态信息 |
lstat |
参见stat |
fstat |
参见stat |
statfs |
取文件系统信息 |
fstatfs |
参见statfs |
readdir |
读取目录项 |
getdents |
读取目录项 |
mkdir |
创建目录 |
mknod |
创建索引节点 |
rmdir |
删除目录 |
rename |
文件改名 |
link |
创建链接 |
symlink |
创建符号链接 |
unlink |
删除链接 |
readlink |
读符号链接的值 |
mount |
安装文件系统 |
umount |
卸下文件系统 |
ustat |
取文件系统信息 |
utime |
改变文件的访问修改时间 |
utimes |
参见utime |
quotactl |
控制磁盘配额 |
系统控制
函数 |
描述 |
ioctl |
I/O总控制函数 |
_sysctl |
读/写系统参数 |
acct |
启用或禁止进程记账 |
getrlimit |
获取系统资源上限 |
setrlimit |
设置系统资源上限 |
getrusage |
获取系统资源使用情况 |
uselib |
选择要使用的二进制函数库 |
ioperm |
设置端口I/O权限 |
iopl |
改变进程I/O权限级别 |
outb |
低级端口操作 |
reboot |
重新启动 |
swapon |
打开交换文件和设备 |
swapoff |
关闭交换文件和设备 |
bdflush |
控制bdflush守护进程 |
sysfs |
取核心支持的文件系统类型 |
sysinfo |
取得系统信息 |
adjtimex |
调整系统时钟 |
alarm |
设置进程的闹钟 |
getitimer |
获取计时器值 |
setitimer |
设置计时器值 |
gettimeofday |
取时间和时区 |
settimeofday |
设置时间和时区 |
stime |
设置系统日期和时间 |
time |
取得系统时间 |
times |
取进程运行时间 |
uname |
获取当前UNIX系统的名称、版本和主机等信息 |
vhangup |
挂起当前终端 |
nfsservctl |
对NFS守护进程进行控制 |
vm86 |
进入模拟8086模式 |
create_module |
创建可装载的模块项 |
delete_module |
删除可装载的模块项 |
init_module |
初始化模块 |
query_module |
查询模块信息 |
*get_kernel_syms |
取得核心符号,已被query_module代替 |
内存管理
函数 |
描述 |
brk |
改变数据段空间的分配 |
sbrk |
参见brk |
mlock |
内存页面加锁 |
munlock |
内存页面解锁 |
mlockall |
调用进程所有内存页面加锁 |
munlockall |
调用进程所有内存页面解锁 |
mmap |
映射虚拟内存页 |
munmap |
去除内存页映射 |
mremap |
重新映射虚拟内存地址 |
msync |
将映射内存中的数据写回磁盘 |
mprotect |
设置内存映像保护 |
getpagesize |
获取页面大小 |
sync |
将内存缓冲区数据写回硬盘 |
cacheflush |
将指定缓冲区中的内容写回磁盘 |
网络管理
函数 |
描述 |
getdomainname |
取域名 |
setdomainname |
设置域名 |
gethostid |
获取主机标识号 |
sethostid |
设置主机标识号 |
gethostname |
获取本主机名称 |
sethostname |
设置主机名称 |
socket控制
函数 |
描述 |
socketcall |
socket系统调用 |
socket |
建立socket |
bind |
绑定socket到端口 |
connect |
连接远程主机 |
accept |
响应socket连接请求 |
send |
通过socket发送信息 |
sendto |
发送UDP信息 |
sendmsg |
参见send |
recv |
通过socket接收信息 |
recvfrom |
接收UDP信息 |
recvmsg |
参见recv |
listen |
监听socket端口 |
select |
对多路同步I/O进行轮询 |
shutdown |
关闭socket上的连接 |
getsockname |
取得本地socket名字 |
getpeername |
获取通信对方的socket名字 |
getsockopt |
取端口设置 |
setsockopt |
设置端口参数 |
sendfile |
在文件或端口间传输数据 |
socketpair |
创建一对已联接的无名socket |
用户管理
函数 |
描述 |
getuid |
获取用户标识号 |
setuid |
设置用户标志号 |
getgid |
获取组标识号 |
setgid |
设置组标志号 |
getegid |
获取有效组标识号 |
setegid |
设置有效组标识号 |
geteuid |
获取有效用户标识号 |
seteuid |
设置有效用户标识号 |
setregid |
分别设置真实和有效的的组标识号 |
setreuid |
分别设置真实和有效的用户标识号 |
getresgid |
分别获取真实的,有效的和保存过的组标识号 |
setresgid |
分别设置真实的,有效的和保存过的组标识号 |
getresuid |
分别获取真实的,有效的和保存过的用户标识号 |
setresuid |
分别设置真实的,有效的和保存过的用户标识号 |
setfsgid |
设置文件系统检查时使用的组标识号 |
setfsuid |
设置文件系统检查时使用的用户标识号 |
getgroups |
获取后补组标志清单 |
setgroups |
设置后补组标志清单 |
进程间通信
函数 |
描述 |
ipc |
进程间通信总控制调用 |
sigaction |
设置对指定信号的处理方法 |
sigprocmask |
根据参数对信号集中的信号执行阻塞/解除阻塞等操作 |
sigpending |
为指定的被阻塞信号设置队列 |
sigsuspend |
挂起进程等待特定信号 |
signal |
参见signal |
kill |
向进程或进程组发信号 |
*sigblock |
向被阻塞信号掩码中添加信号,已被sigprocmask代替 |
*siggetmask |
取得现有阻塞信号掩码,已被sigprocmask代替 |
*sigsetmask |
用给定信号掩码替换现有阻塞信号掩码,已被sigprocmask代替 |
*sigmask |
将给定的信号转化为掩码,已被sigprocmask代替 |
*sigpause |
作用同sigsuspend,已被sigsuspend代替 |
sigvec |
为兼容BSD而设的信号处理函数,作用类似sigaction |
ssetmask |
ANSI C的信号处理函数,作用类似sigaction |
msgctl |
消息控制操作 |
msgget |
获取消息队列 |
msgsnd |
发消息 |
msgrcv |
取消息 |
pipe |
创建管道 |
semctl |
信号量控制 |
semget |
获取一组信号量 |
semop |
信号量操作 |
shmctl |
控制共享内存 |
shmget |
获取共享内存 |
shmat |
连接共享内存 |
shmdt |
拆卸共享内存 |