EPOLL的工作原理及流程 - 华清远见嵌入式学院

EPOLL的工作原理及流程

时间：2018-05-14作者：华清远见

一.Epoll是什么?

epoll是个什么东东呢?按照man手册的说法：是为处理大批量句柄而作了改进的poll。当然，这不是2.6内核才有的，它是在2.5.44内核中被引进的(epoll(4) is a new API introduced in Linux kernel 2.5.44)，它几乎具备了之前所说的一切优点，被公认为Linux2.6下性能最好的多路I/O就绪通知方法。

二.epoll与poll和select对比

[1]select 的缺点：

单个进程能够监视的文件描述符的数量存在最大限制，通常是1024，当然可以更改数量，但由于select采用轮询的方式扫描文件描述符，文件描述符数量越多，性能越差;(在linux内核头文件中，有这样的定义：#define __FD_SETSIZE 1024)

内核 / 用户空间内存拷贝问题，select需要复制大量的句柄数据结构，产生巨大的开销;

select返回的是含有整个句柄的数组，应用程序需要遍历整个数组才能发现哪些句柄发生了事件;

select中应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作，那么之后每次select调用还是会将这些文件描述符通知进程。

相对于我们的select模型，我们的poll是使用链表保持文件描述符，因此没有了监视文件数量的限制，但是2，3，4等缺点依旧存在。

拿select模型为例，假设我们的服务器需要支持100万的并发连接，则在__FD_SETSIZE 为1024的情况下，则我们至少需要开辟1k个进程才能实现100万的并发连接。除了进程间上下文切换的时间消耗外，从内核/用户空间大量的无脑内存拷贝、数组轮询等，是系统难以承受的。因此，基于select模型的服务器程序，要达到10万级别的并发访问，是一个很难完成的任务。

因此，该epoll上场了。

三.Epoll的工作原理

设想一下如下场景：有100万个客户端同时与一个服务器进程保持着TCP连接。而每一时刻，通常只有几百上千个TCP连接是活跃的(事实上大部分场景都是这种情况)。如何实现这样的高并发?

在select/poll时代，服务器进程每次都把这100万个连接告诉操作系统(从用户态复制句柄数据结构到内核态)，让操作系统内核去查询这些套接字上是否有事件发生，轮询完后，再将句柄数据复制到用户态，让服务器应用程序轮询处理已发生的网络事件，这一过程资源消耗较大，因此，select/poll一般只能处理几千的并发连接。

epoll的设计和实现与select完全不同。epoll通过在Linux内核中申请一个简易的文件系统(文件系统一般用什么数据结构实现?二叉树树)。然后epoll的调用分成了3个部分：

1)调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)

2)调用epoll_ctl向epoll对象中添加这100万个连接的套接字

3)调用epoll_wait收集发生的事件的连接

如此一来，要实现上面说是的场景，只需要在进程启动时建立一个epoll对象，然后在需要的时候向这个epoll对象中添加或者删除连接。同时，epoll_wait的效率也非常高，因为调用epoll_wait时，并没有一股脑的向操作系统复制这100万个连接的句柄数据，内核也不需要去遍历全部的连接。

具体流程：

[1]当我们某个进程调用epoll_create()函数的时候，linux内核会默认创建一个eventpoll结构体，这个结构体中有两个成员与epoll的使用方式相关。

每一个epoll对象都有一个独立的eventpoll结构体，用于存放通过epoll_ctl方法向epoll对象中添加进来的事件。这些事件都会挂载在红黑树中，如此，重复添加的事件就可以通过红黑树而高效的识别出来.

而所有添加到epoll中的事件都会与设备(网卡)驱动程序建立回调关系，也就是说，当相应的事件发生时会调用这个回调方法。这个回调方法在内核中叫ep_poll_callback,它会将发生的事件epitem添加到rdlist双链表中。

在epoll中，对于每一个事件，都会建立一个epitem结构体，如下所示：

当调用epoll_wait检查是否有事件发生时，只需要检查eventpoll对象中的rdlist双链表中是否有epitem元素即可。如果rdlist不为空，则把发生的事件复制到用户态，同时将事件数量返回给用户。

总结：

(1)我们我们调用epoll_wait()函数的时候，系统创建一个epoll对象，每个对象都有一个

叫做eventpoll类型的结构体与之对应，该结构体中主要有两个主要的成员，一个是

rbn,代表将要通过epoll_ctl向epll对象中添加的事件。这些事情都是挂载在红黑树中。

一个是rdlist，里面存放的是将要发生的事件

(2)当我们使用epoll_ctrl()函数的时候，就是向epoll对象中添加，删除，修改感兴趣的事件

(3) epoll_wait()系统。通过此调用收集在epoll监控中已经发生的事件。当监控的事件状态发生改变的时候，我们会调用会调用函数把epitem加入到rdlist中去。

一. Epoll的API函数接口

3.1 事件的创建---epoll_create();

int epoll_create(int size);

int epoll_create1(int flags);

功能：poll_create()创建一个epoll的事例，通知内核需要监听size个fd。size指的并不是最大的后备存储设备，而是衡量内核内部结构大小的一个提示。当创建成功后，会占用一个fd，所以记得在使用完之后调用close()，否则fd可能会被耗尽。

Note:自从Linux2.6.8版本以后，size值其实是没什么用的，不过要大于0，因为内核可以动态的分配大小，所以不需要size这个提示了。

其次：epoll_create1()函数，其实它和epoll_create差不多，不同的是epoll_create1函参数flag：

· 当flag是0时，表示和epoll_create函数完全一样，不需要size的提示了;

· 当flag = EPOLL_CLOEXEC，创建的epfd会设置FD_CLOEXEC;

· 当flag = EPOLL_NONBLOCK，创建的epfd会设置为非阻塞。

一般用法都是使用EPOLL_CLOEXEC。

Note:关于FD_CLOEXEC，它是fd的一个标识说明，用来设置文件close-on-exec状态的。当close-on-exec状态为0时，调用exec时，fd不会被关闭;状态非零时则会被关闭，这样做可以防止fd泄露给执行exec后的进程。

返回值：成功返回一个非负的文件描述符。

例如：

int epfd = epoll_create(20); //注：20为随机写的一个值，大于0即可。

或

int epfd = epoll_create1(0);

3.1 事件的注册---epoll_ctl();

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

功能：epoll的事件注册函数，epoll的事件注册函数，它不同于select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。

参数：

@epfd epoll_create()函数的返回值

@op 表示参数的动作，常用以下宏：

EPOLL_CTL_ADD：注册新的fd到epfd中;

EPOLL_CTL_MOD：修改已经注册的fd的监听事件;

EPOLL_CTL_DEL：从epfd中删除一个fd;

@fd 表示我们需要监听的文件描述符

@event 表示告诉内核，我们需要监听什么事件。

结构体如下：

typedef union epoll_data

{

void *ptr;

int fd; //保存我们使用的sockfd

uint32_t u32;

uint64_t u64;

} epoll_data_t;

struct epoll_event

{

uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

events参数是一个枚举的集合，可以用” | “来增加事件类型，枚举如下：

· EPOLLIN ：表示对应的文件描述符可以读(包括对端SOCKET正常关闭);

· EPOLLOUT：表示对应的文件描述符可以写;

· EPOLLPRI：表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);

· EPOLLERR：表示对应的文件描述符发生错误;

· EPOLLHUP：表示对应的文件描述符被挂断;

· EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的;

· EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

返回值：成功返回0，失败返回-1.

3.2等待事件---epoll_wait();

int epoll_wait(int epfd, struct epoll_event *events,int maxevents, int timeout);

功能：收集在epoll监控的事件中已经发送的事件。

参数：

@epfd epoll_create()函数的返回值

@events 已经分配好的epoll_event结构体数组，epoll会把将发生的事情存放到events中。

@maxevents 告诉内核events有多大。必须大于0

@timeout 超时时间 -1 表示epoll将无限制的等待下去

0 立即返回

>0 指定超时时间

返回值：成功返回已经就绪的文件描述符个数。若是设置了超时时间，在超时时间内返回0.

失败返回-1.

五.Epoll的工作模式。

LT(level triggered)是缺省的工作方式，并且同时支

持block和no-block socket.在这种做法中，。当epoll_wait检测到描述符事件发生并将此事件通知应用程序，应用程序可以不立即处理该事件。下次调用epoll_wait时，会再次响应应用程序并通知此事件。

ET (edge-triggered)是高速工作方式，常工作在no-block socket。在这种模式下，当epoll_wait检测到描述符事件发生并将此事件通知应用程序，应用程序必须立即处理该事件。如果不处理，下次调用epoll_wait时，不会再次响应应用程序并通知此事件。

EPOLLIN事件：

EPOLLIN事件则只有当对端有数据写入时才会触发，所以触发一次后需要不断读取所有数据直到读完EAGAIN为止。否则剩下的数据只有在下次对端有写入时才能一起取出来了。设想这样一个场景：接收端接收完整的数据后会向对端发送应答报文，

，对端才会继续向接收端发送数据，从而触发下一次的EPOLLIN，而这时没有读完socket缓冲区中的所有数据，导致接收端无法向对端发送应答报文，而对端没有收到应答报文，也就不会再发送数据触发下一次的EPOLLIN，而没有下一次的EPOLLIN事件，接收端也就永远不知道此socket缓冲区中还有未读出的数据。一个完美的死循环)

示例代码：

实现多个客户端和服务端的回射代码。

Server.c