BPF

Section: Devices and Network Interfaces (4)
索引 jman

BSD mandoc
BSD 4.4

索引

名称

bpf - バークレイパケットフィルタ

索引

書式

pseudo-device bpfilter

索引

解説

バークレイパケットフィルタは、データリンク層においてプロトコル非依存の生の形のインタフェースを提供します。ネットワーク上のパケットは、たとえ他のホストに向けられたものであっても、すべてこの機構を通してアクセスすることができます。

このパケットフィルタは /dev/bpf0 /dev/bpf1 などのキャラクタ型特殊デバイスに見えます。このデバイスをオープンした後、ファイル記述子は BIOCSETIF ioctl によって、特定のネットワークインタフェースに結びつけなければなりません。指示されたインタフェースは複数の監視者で共有することができ、各記述子の下にあるフィルタは、同じパケットの流れを見ることになります。オープンできるファイルの上限は、カーネルの設定で与えられた値に制限されます。上の Sx 書式で与えられた例では、制限は 16 になっています。

それぞれのマイナデバイスには、別々のデバイスファイルが必要です。デバイスファイルが使用中であるならば、オープンは失敗し、 errno には Er EBUSY がセットされます。

オープンされた bpf ファイルの実体それぞれに関連づけられているのが、ユーザが設定可能なパケットフィルタです。あるインタフェースでパケットを受信したときはいつでも、そのインタフェースを監視しているファイル記述子はすべて自身のフィルタを適用します。パケットを受け取る各記述子は、自分用のコピーを受け取ります。

それぞれのファイルからの入力は、フィルタでマッチしたパケットの次のグループを返します。性能を上げるために、read に渡すバッファはが内部で使用するバッファと同じサイズでなければなりません。このサイズは、 BIOCGBLEN ioctl (下記を参照) で得られ、 BIOCSBLEN で設定できます。このサイズより大きい個々のパケットは、必然的に切り詰められてしまうことに注意して下さい。

このパケットフィルタは、固定長ヘッダであればどのリンクレベルプロトコルでもサポートします。今のところ、イーサネットと SLIP と PPP ドライバだけが bpf と協調して動作するように修正されています。

パケットデータはネットワークバイトオーダになっているので、アプリケーションが複数バイトの値を引き出すためには byteorder(3) マクロを使わなければなりません。

bpf ファイル記述子に書き込むことでネットワークにパケットを送出することができます。書き込みはバッファリングされないので、1 回の書き込みにつき 1 つのパケットだけしか処理されません。現在イーサネットと SLIP リンクへの書き込みだけがサポートされています。

索引

IOCTL

次のような ioctl(2) コマンドコードが <net/bpf.h> で定義されています。すべてのコマンドには次のようなインクルードファイルが必要です。

        #include <sys/types.h>
        #include <sys/time.h>
        #include <sys/ioctl.h>
        #include <net/bpf.h>

さらに、 BIOCGETIF と BIOCSETIF は、 Aq Pa sys/socket.h と Aq Pa net/if.h を必要とします。

FIONREAD と SIOCGIFADDR 以外にも、次のようなコマンドをオープンしたファイルに適用できます。 ioctl(2) への (3 番目の) 引数は、指定の型へのポインタでなければなりません。

BIOCGBLEN

(u_int ) ファイル上で読み込みを行うために必要なバッファ長を返します。

BIOCSBLEN

(u_int ) ファイル上で読み込みを行うためのバッファ長を設定します。バッファは、ファイルが BIOCSETIF によってインタフェースに接続される前に設定されなければなりません。要求されたバッファサイズが適用できなかった場合は、許容できるサイズで最も近いものに設定され、それが引数の中に返されます。このサイズでないパケットがバッファを通ったときには、読み込みコールは Er EIO の値で終了します。

BIOCGDLT

(u_int ) 接続されたインタフェースの下にあるデータリンク層の型を返します。インタフェースが指定されていなかった場合 Er EINVAL が返されます。デバイスの型は、 ``DLT_ '' が前に付いた形であり、 Aq Pa net/bpf.h で定義されています。

BIOCPROMISC

強制的にインタフェースを無差別 (promiscuous) モードにします。ローカルホストに向けられたもののみならずすべてのパケットが処理されます。複数のファイルが与えられたインタフェースを監視することができるので、そのインタフェースを無差別でないモードでオープンした監視者でもパケットを無差別に受信することができてしまいます。この問題は適当なフィルタで矯正することができます。

BIOCFLUSH

到着パケットのバッファをフラッシュし、BIOCGSTATS で返される集計値をリセットします。

BIOCGETIF

(struct ifreq ) ファイルが監視しているハードウェアインタフェースの名前を返します。名前は ifreq 構造体の ifr_name フィールドに返されます。他のフィールドはすべて未定義となります。

BIOCSETIF

(struct ifreq ) ファイルに関連付けるハードウェアインタフェースを設定します。このコマンドは、どんなパケットを読み込むよりも前に実行されなければいけません。デバイスは、 ifreq 構造体の ifr_name フィールドを使って名前で示されます。さらに BIOCFLUSH の動作を実行します。

BIOCSRTIMEOUT

BIOCGRTIMEOUT

(struct timeval ) タイムアウトパラメータを設定または取得します。引数には、読み込み要求でタイムアウトするまでの待ち時間の長さを指定します。このパラメータは、 open(2) により 0 に初期化され、タイムアウトしないことを指示します。

BIOCGSTATS

(struct bpf_stat ) パケット集計値の次の構造体を返します:

struct bpf_stat {
        u_int bs_recv;    /* 受信したパケット数 */
        u_int bs_drop;    /* 落としたパケット数 */
};

フィールドは次のようになります:

bs_recv: オープンまたはリセット後に、この記述子によって受信したパケット数 (最後の読み込みコールからバッファされているものを含みます)。
bs_drop: フィルタが受け取りはしたが、バッファのオーバフローによりカーネルが落としたパケットの数 (つまり、アプリケーションの読み込みがパケットの流量に追いついていないということです)。

BIOCIMMEDIATE

(u_int ) 引数の真偽値に基づいて ``直接モード'' を有効または無効にします。直接モードが有効なとき、パケットを受け取ると読み込みはただちに返されます。無効なとき、入力はカーネルバッファがいっぱいになるか、またはタイムアウトが起こるまでブロックされます。これは、リアルタイムにメッセージに応答しなければならない rarpd(8) のようなプログラムには便利です。新しいファイルに対しては、デフォルトではオフになります。

BIOCSETF

(struct bpf_program ) 興味のないパケットを捨てるためにカーネルが使うフィルタプログラムを設定します。次の構造体を通して命令を並べた配列とその長さが渡されます:

struct bpf_program {
        int bf_len;
        struct bpf_insn *bf_insns; 
};

フィルタプログラムは bf_insns フィールドで指定され、 `struct bpf_insn ' の構造体中におけるプログラムの長さが bf_len フィールドで与えられます。そして、 BIOCFLUSH の動作が実行されます。フィルタ言語の説明については Sx フィルタマシンのセクションを見て下さい。

BIOCVERSION

(struct bpf_version ) 現在カーネルに認識されているフィルタ言語のメジャーおよびマイナバージョン番号を返します。フィルタをインストールする前に、アプリケーションは、動作しているカーネルと現在のバージョンとが互換性があるかどうかを調べなければなりません。メジャー番号が一致し、アプリケーションのマイナ番号がカーネルのマイナ番号に等しいか、それ以下ならバージョン番号は互換性があります。カーネルのバージョン番号は以下の構造体で返されます:

struct bpf_version {
        u_short bv_major;
        u_short bv_minor;
};

現在のバージョン番号は Aq Pa net/bpf.h 中の BPF_MAJOR_VERSION と BPF_MINOR_VERSION によって与えられます。互換性のないフィルタでは、予期しない動作に終わるかもしれません (最もありそうなのは、 Fn ioctl によってエラーが返されるか、または偶然にパケットが一致することです)。

索引

BPF ヘッダ

read(2) によって返される各パケットの先頭には、次のような構造体がつけられています:

struct bpf_hdr {
        struct timeval bh_tstamp;     /* タイムスタンプ */
        u_long bh_caplen;             /* キャプチャされた部分の長さ */
        u_long bh_datalen;            /* パケットのオリジナルの長さ */
        u_short bh_hdrlen;            /* bpf ヘッダの長さ (この構造体
                                         + 境界調整パディング) */
};

フィールドはホスト順で保存されており、次のようになります:

bh_tstamp: パケットフィルタによって、そのパケットが処理された時刻
bh_caplen: パケットのキャプチャされた部分の長さ。これは切り詰め量の最小値で、フィルタとパケット長によって指定されています。
bh_datalen: 経路から離れたパケット長。この値はフィルタで指定された切り詰め量には依存しません。
bh_hdrlen: ヘッダの長さ。これは Fn sizeof struct bpf_hdr に等しいとは限りません。

bh_hdrlen フィールドはヘッダとリンクレベルプロトコル間のパディングのために存在します。この目的は、パケットデータ構造の適切な境界調整を保証することです。これは、境界調整に厳しいアーキテクチャが必要とすることであり、また、これによって他の多くのアーキテクチャにおける性能が向上します。パケットフィルタは bpf_hdr とネットワーク層のヘッダがワード境界になることを保証します。境界調整が制約されたマシン上でリンク層プロトコルをアクセスするときには、適切な注意を払わなければなりません (これはイーサネット上では問題にはなりません。なぜなら、フィールドの型が short であり偶数オフセットに落ち着きますし、アドレスがおそらくバイト単位でアクセスされるからです)。

さらに、個々のパケットはワード境界で始まるようにパディングされます。これにより、アプリケーションはパケットから次のパケットを得る方法を知っていることが要求されます。このプロセスを手助けするために、マクロ BPF_WORDALIGN が Aq Pa net/bpf.h 中で定義されています。引数は最も近いワード境界値 (ワードが BPF_ALIGNMENT バイト幅) に切り上げられます。

例えば `p ' がパケットの先頭を指すとき、次の表現はポインタを次のパケットへ進めます:

p = (char *)p + BPF_WORDALIGN(p->bh_hdrlen + p->bh_caplen)

境界調整の機構を適切に動作させるために read(2) に渡されるバッファは、それ自身がワード境界になければなりません。 malloc(3) 関数は常にワード境界のバッファを返します。

索引

フィルタマシン

フィルタプログラムは命令を並べた配列であり、すべての分岐がコードの前方に向かうものであり、また、 return 命令で終わるものです。各命令は、アキュムレータ、インデックスレジスタ、一時メモリ記憶、および暗黙のプログラムカウンタから成る疑似マシン状態上で何らかの動作を行ないます。

次の構造体が命令フォーマットの定義です:

struct bpf_insn {
        u_short code;
        u_char  jt;
        u_char  jf;
        u_long k;
};

k フィールドは命令によって異なる用法で用いられ、 jt と jf フィールドは分岐命令によってオフセットとして用いられます。操作コードは半階層的な形で符号化されます。命令には 8 つのクラス BPF_LD , BPF_LDX BPF_ST BPF_STX BPF_ALU BPF_JMP BPF_RET BPF_MISC があります。他のいろいろなモードと操作ビットは実際の命令を与えるためにビット加算 (or) され、クラスに変換されます。クラスとモードは Aq Pa net/bpf.h 内で定義されています。

以下は定義されたそれぞれの命令です。便宜的に A がアキュムレータ、X がインデックスレジスタ、 P[] がパケットデータ、M[] が寄せ集めの一時メモリ記憶であるとします。 P[i:n] はパケット内の ``i'' バイトオフセットのデータを指し、ワード (n=4)、符号無し半ワード (n=2)、符号無しバイト (n=1) に翻訳されます。 M[i] は、一時メモリ記憶の中で i 番目のワードを指し、ワード単位のアドレスだけが割り振られます。メモリ記憶は 0 から BPF_MEMWORDS - 1 に番号付けされます。 k jt jf は、命令定義の中で対応するフィールドになります。``len'' は、パケット長を参照します。

BPF_LD

これらの命令は、値をアキュムレータに複写します。ソースオペランドの型は、``アドレッシングモード'' で指定され、定数 (BPF_IMM ) でも、固定オフセットのパケットデータ (BPF_ABS ) 、可変オフセットのパケットデータ (BPF_IND ) 、パケット長 (BPF_LEN ) 、一時メモリ記憶内のワード (BPF_MEM ) をとり得ます。 BPF_IND と BPF_ABS の場合、データサイズは、ワード (BPF_W ) 、ハーフワード (BPF_H ) 、バイト (BPF_B ) のいずれかでなければなりません。使用可能な全 BPF_LD 命令の意味は次の通りです。

BPF_LD+BPF_W+BPF_ABS: A <- P[k:4]
BPF_LD+BPF_H+BPF_ABS: A <- P[k:2]
BPF_LD+BPF_B+BPF_ABS: A <- P[k:1]
BPF_LD+BPF_W+BPF_IND: A <- P[X+k:4]
BPF_LD+BPF_H+BPF_IND: A <- P[X+k:2]
BPF_LD+BPF_B+BPF_IND: A <- P[X+k:1]
BPF_LD+BPF_W+BPF_LEN: A <- len
BPF_LD+BPF_IMM: A <- k
BPF_LD+BPF_MEM: A <- M[k]

BPF_LDX

これらの命令は値をインデックスレジスタにロードします。この命令のときのアドレッシングモードは、アキュムレータへのロード時よりも厳密ですが、IP ヘッダ長をロードする効果的な方法である BPF_MSH を含んでいることに注目して下さい。

BPF_LDX+BPF_W+BPF_IMM: X <- k
BPF_LDX+BPF_W+BPF_MEM: X <- M[k]
BPF_LDX+BPF_W+BPF_LEN: X <- len
BPF_LDX+BPF_B+BPF_MSH: X <- 4*(P[k:1]&0xf)

BPF_ST

この命令はアキュムレータを一時メモリに退避します。行き先の可能性が一つしかないのでアドレッシングモードは不要です。

BPF_ST: M[k] <- A

BPF_STX

この命令はインデックスレジスタを一時メモリに退避します。

BPF_STX: M[k] <- X

BPF_ALU

alu 命令は、アキュムレータとインデックスレジスタまたは定数間の操作を実行し、結果をアキュムレータに戻します。バイナリ操作のためにはソースモードが必要です Po BPF_K または BPF_X Pc 。

BPF_ALU+BPF_ADD+BPF_K: A <- A + k
BPF_ALU+BPF_SUB+BPF_K: A <- A - k
BPF_ALU+BPF_MUL+BPF_K: A <- A * k
BPF_ALU+BPF_DIV+BPF_K: A <- A / k
BPF_ALU+BPF_AND+BPF_K: A <- A & k
BPF_ALU+BPF_OR+BPF_K: A <- A | k
BPF_ALU+BPF_LSH+BPF_K: A <- A << k
BPF_ALU+BPF_RSH+BPF_K: A <- A >> k
BPF_ALU+BPF_ADD+BPF_X: A <- A + X
BPF_ALU+BPF_SUB+BPF_X: A <- A - X
BPF_ALU+BPF_MUL+BPF_X: A <- A * X
BPF_ALU+BPF_DIV+BPF_X: A <- A / X
BPF_ALU+BPF_AND+BPF_X: A <- A & X
BPF_ALU+BPF_OR+BPF_X: A <- A | X
BPF_ALU+BPF_LSH+BPF_X: A <- A << X
BPF_ALU+BPF_RSH+BPF_X: A <- A >> X
BPF_ALU+BPF_NEG: A <- -A

BPF_JMP

ジャンプ命令はフロー制御を変更します。条件ジャンプはアキュムレータと、定数 (BPF_K ) またはインデックスレジスタ (BPF_X ) 間の比較を行ないます。結果が真 (つまり非 0) であった場合に真の分岐が選択され、そうでなければ偽の分岐が選択されます。ジャンプオフセットは 8 ビットに符号化されるので、最長ジャンプは 256 命令分です。しかし、常時ジャンプ操作コード (BPF_JA ) は、オフセットとして 32 ビットの k フィールドを使用し、離れた任意の行き先を許します。すべての条件は慣習的に符号無し比較を用います。

BPF_JMP+BPF_JA: pc += k
BPF_JMP+BPF_JGT+BPF_K: pc += (A > k) ? jt : jf
BPF_JMP+BPF_JGE+BPF_K: pc += (A >= k) ? jt : jf
BPF_JMP+BPF_JEQ+BPF_K: pc += (A == k) ? jt : jf
BPF_JMP+BPF_JSET+BPF_K: pc += (A & k) ? jt : jf
BPF_JMP+BPF_JGT+BPF_X: pc += (A > X) ? jt : jf
BPF_JMP+BPF_JGE+BPF_X: pc += (A >= X) ? jt : jf
BPF_JMP+BPF_JEQ+BPF_X: pc += (A == X) ? jt : jf
BPF_JMP+BPF_JSET+BPF_X: pc += (A & X) ? jt : jf

BPF_RET

リターン命令はフィルタプログラムを終了し、受信するパケットの量を指定します (すなわち、切り詰め量を返します)。戻り値 0 は、そのパケットが無視されるべきであることを表しています。戻り値は定数 (BPF_K ) またはアキュムレータ (BPF_A ) のいずれかです。

BPF_RET+BPF_A: A バイト受信
BPF_RET+BPF_K: k バイト受信

BPF_MISC

上記のクラスに適合しないものや、追加されるべき新しい命令のために、その他のカテゴリが作られました。現在、インデックスレジスタをアキュムレータに複写する、またはその逆を行なうレジスタ転送命令があります。

BPF_MISC+BPF_TAX: X <- A
BPF_MISC+BPF_TXA: A <- X

インタフェースは、配列の初期化を手助けする次のマクロを提供しています: Fn BPF_STMT opcode operand と Fn BPF_JUMP opcode operand true_offset false_offset

索引

使用例

以下のフィルタが RARP デーモンから取得されます。フィルタは、 RARP 要求のみを受信します。

struct bpf_insn insns[] = {
        BPF_STMT(BPF_LD+BPF_H+BPF_ABS, 12),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, ETHERTYPE_REVARP, 0, 3),
        BPF_STMT(BPF_LD+BPF_H+BPF_ABS, 20),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, REVARP_REQUEST, 0, 1),
        BPF_STMT(BPF_RET+BPF_K, sizeof(struct ether_arp) + 
                 sizeof(struct ether_header)),
        BPF_STMT(BPF_RET+BPF_K, 0),
};

このフィルタは 128.3.112.15 と 128.3.112.35 の間の IP パケットだけを受け取ります。

struct bpf_insn insns[] = {
        BPF_STMT(BPF_LD+BPF_H+BPF_ABS, 12),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, ETHERTYPE_IP, 0, 8),
        BPF_STMT(BPF_LD+BPF_W+BPF_ABS, 26),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 0x8003700f, 0, 2),
        BPF_STMT(BPF_LD+BPF_W+BPF_ABS, 30),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 0x80037023, 3, 4),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 0x80037023, 0, 3),
        BPF_STMT(BPF_LD+BPF_W+BPF_ABS, 30),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 0x8003700f, 0, 1),
        BPF_STMT(BPF_RET+BPF_K, (u_int)-1),
        BPF_STMT(BPF_RET+BPF_K, 0),
};

最後に、このフィルタは TCP finger パケットだけを返します。 TCP ヘッダにたどり着くためには IP ヘッダを解析しなければなりません。 BPF_JSET 命令は IP フラグメントオフセットが 0 であることを調べます。それで TCP ヘッダであることを確認します。

struct bpf_insn insns[] = {
        BPF_STMT(BPF_LD+BPF_H+BPF_ABS, 12),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, ETHERTYPE_IP, 0, 10),
        BPF_STMT(BPF_LD+BPF_B+BPF_ABS, 23),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, IPPROTO_TCP, 0, 8),
        BPF_STMT(BPF_LD+BPF_H+BPF_ABS, 20),
        BPF_JUMP(BPF_JMP+BPF_JSET+BPF_K, 0x1fff, 6, 0),
        BPF_STMT(BPF_LDX+BPF_B+BPF_MSH, 14),
        BPF_STMT(BPF_LD+BPF_H+BPF_IND, 14),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 79, 2, 0),
        BPF_STMT(BPF_LD+BPF_H+BPF_IND, 16),
        BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 79, 0, 1),
        BPF_STMT(BPF_RET+BPF_K, (u_int)-1),
        BPF_STMT(BPF_RET+BPF_K, 0),
};

索引

バグ

読み込みバッファは固定長 ( BIOCGBLEN ioctl で返される値) でなければなりません。

無差別モードを要求しないファイルは、同じハードウェアインタフェース上でこのモードを要求する他のファイルの副作用として、無差別にパケットを受信するかもしれません。これは、オーバヘッドのある処理を追加すれば、カーネル内で修正できるでしょう。しかし、インタフェースは無差別であるとすべてのファイルがみなさなければならないようなモデルの方が好まれます。必要なら、外部のパケットをはじくためのフィルタを利用しなければなりません。

可変長ヘッダのデータリンクプロトコルは現在サポートされていません。

索引

歴史

Enet パケットフィルタは、 1980 年にカーネギーメロン大学の Mike Accetta と Rick Rashid により作成されました。スタンフォードの Jeffrey Mogul がコードを BSD に移植して 1983 年以降発展させました。その後 DEC の Ultrix パケットフィルタ、 SunOS 4.1 の STREAMS NIT モジュール、 BPF へと進化しました。

索引