スポンサーリンク

FLEX

名称
書式
概説
解説
簡単な例
入力ファイルのフォーマット
パターン
入力のマッチ方法
アクション
生成されたスキャナ
開始条件
複数の入力バッファ
ファイルの終りのルール
雑多なマクロ
ユーザが使用可能な値
YACC とのインタフェース
オプション
性能関連
C++ スキャナの生成
LEX および POSIX との非互換性
診断
関連ファイル
欠陥 / バグ
関連項目
作者

名称

flex − 高速な字句解析処理系の生成ツール

書式

flex [−bcdfhilnpstvwBFILTV78+? −C[aefFmr] −ooutput −Pprefix −Sskeleton] [−−help −−version] [filename ...]

概説

本マニュアルは、テキストのパターンマッチングを行うプログラムを生成す る ツー ル flex を扱います。本マニュアルはチュートリアルとリファレンス節と を含みます:

    解説
        ツールの短い概説

   簡単な例

   入力ファイルのフォーマット

   パターン
        flex が使用する拡張した正規表現

   入力のマッチ方法
        何がマッチするかを決定する規則

   アクション
        パターンがマッチした時に何を行うかを指定する方法

   生成されたスキャナ
        flex が生成するスキャナに関する詳細;
        入力元の制御方法

   開始条件
        スキャナへの文脈の導入と、
        "ミニスキャナ" の制御方法

   複数の入力バッファ
        複数の入力元を扱う方法;
        ファイルではなく文字列からスキャンする方法

   ファイルの終りのルール
        ファイルの終りにマッチする特別なルール

   雑多なマクロ
        アクションで使用可能なマクロのまとめ

   ユーザが使用可能な値
        アクションで使用可能な値のまとめ

   Yacc とのインタフェース
        lex スキャナと yacc パーサとの結合

   オプション
        flex のコマンドラインオプションと、
        "%option" ディレクティブ

   性能関連
        スキャナを可能な限り高速にする方法

   C++ スキャナの生成
        C++ スキャナクラス生成のための
        (実験的な) 機能

   Lex および POSIX との非互換性
        AT&T lex および POSIX lex 標準と
        flex との違い

   診断
        flex (もしくは生成したスキャナ) が出力する
        エラーメッセージで意味が明確でないもの

   関連ファイル
        flex が使用するファイル

   欠陥 / バグ
        flex の既知の問題

   関連項目
        ツールに関係する他のドキュメント

   作者
        連絡方法を含みます

解説

flex は スキャナを生成するためのツールです。ここで、スキャナとは、テ キ ス ト 内 の字句パターンを解析するプログラムです。 flex は指定したファイ ル、もしくはファイル名が与えられなかった場合は標準入力から、生成する ス キャナの記述を読み込みます。この記述は、正規表現と C コードのペアの形を とっています。これは ルールと呼ばれます。 flex は、出力として C ソー ス ファイルの lex.yy.c を生成しますが、その中に yylex() ルーチンが定義され ます。このファイルはコンパイルされ、 −ll ライブラリとともにリンク さ れ て、 実行形式となります。実行形式が走り始めると、正規表現をマッチさせる ために入力が解析されます。マッチするものを見付けると、対応する C コード が実行されます。

簡単な例

ま ず 簡 単な例から、 flex の使い方を見て行きましょう。次の flex の入力 は、"username" という文字列に出会うとユーザのログイン名に置き換え る ス キャナを指定しています:

    %%
    username    printf( "%s", getlogin() );

デ フォルトでは、 flex スキャナにマッチしなかったテキストは出力にコピー されますので、 "username" を展開しながら入力を出力にコピーすることが こ の スキャナの最終的な結果となります。この入力にはただ一つのルールだけが あります。 "username" は パターンであり、"printf" は アクション で す。 "%%" はルールの始まりの印です。

別の例を見てみましょう:

    %{
            int num_lines = 0, num_chars = 0;
    %}

   %%
    \n      ++num_lines; ++num_chars;
    .       ++num_chars;

   %%
    main()
            {
            yylex();
            printf( "# of lines = %d, # of chars = %d\n",
                    num_lines, num_chars );
            }

こ のスキャナは入力の文字数および行数を数えます (数えた最終結果を報告す るだけです)。最初の行は 2 つの大域変数 "num_lines" と "num_chars" を 宣 言します。これらの変数は、2 番目の "%%" の後に宣言されている yylex()main() のルーチンからアクセス可能です。ここには 2 つのルールが あ り ま す。 1 つ目は改行文字 ("\n") にマッチし、行数と文字数のカウントを増加さ せます。もう 1 つは、改行文字以外の全ての文字 ("." という正規表現で表さ れています)にマッチします。

次はもうちょっと複雑な例です:

    /* scanner for a toy Pascal-like language */

   %{
    /* need this for the call to atof() below */
    #include <math.h>
    %}

   DIGIT    [0-9]
    ID       [a-z][a-z0-9]*

   %%

   {DIGIT}+    {
                printf( "An integer: %s (%d)\n", yytext,
                        atoi( yytext ) );
                }

   {DIGIT}+"."{DIGIT}*        {
                printf( "A float: %s (%g)\n", yytext,
                        atof( yytext ) );
                }

   if|then|begin|end|procedure|function        {
                printf( "A keyword: %s\n", yytext );
                }

   {ID}        printf( "An identifier: %s\n", yytext );

   "+"|"-"|"*"|"/"   printf( "An operator: %s\n", yytext );

   "{"[^}\n]*"}"     /* eat up one-line comments */

   [ \t\n]+          /* eat up whitespace */

   .           printf( "Unrecognized character: %s\n", yytext );

   %%

   main( argc, argv )
    int argc;
    char **argv;
        {
        ++argv, --argc;  /* skip over program name */
        if ( argc > 0 )
                yyin = fopen( argv[0], "r" );
        else
                yyin = stdin;

       yylex();
        }

これは Pascal のような言語の単純なスキャナの原型です。異なったタイプの トークンを定義し、これを見付けると報告します。

この例の詳細は、以降の節で説明します。

入力ファイルのフォーマット

flex の入力ファイルは 3 つの部分からなり、 %% だけからなる行により分 け られます:

    定義
    %%
    ルール
    %%
    ユーザコード

定義部分は、スキャナの宣言を単純化する単純な 名前の定義の宣言と、後で説 明する 開始条件の宣言とからなります。

名前の定義は次の形式です:

    名前 定義

"名前" は語であり、レターかアンダスコア (’_’) から始まって 0 個以上のレ ター・数字・’_’・’-’ (ダッシュ)が続きます。定義は、名前に続く最初の非空 白文字から始まり、行末まで続くものとされます。定義は後で "{名前}" で 参 照でき、"(定義)" を展開します。例えば、

    DIGIT    [0-9]
    ID       [a-z][a-z0-9]*

は、 "DIGIT" が単一の数字にマッチする正規表現であると定義し、 "ID" がレ ターに 0 個以上のレターか数字が続く正規表現であると定義します。後で出て 来る参照

    {DIGIT}+"."{DIGIT}*

    ([0-9])+"."([0-9])*

と 同じであり、1 個以上の数字に ’.’ が続き、 0 個以上の数字が続くものに マッチします。

flex の入力の ルールは次の形式の一連のルールからなります:

    パターン   アクション

ここで、パターンはインデントされていてはならず、アクションは同じ行か ら 始まる必要があります。

パターンとアクションの詳細は後の解説を見て下さい。

最 後に、ユーザコードの部分は単純にそのままの形で lex.yy.c にコピーされ ます。スキャナを呼び出すまたは呼び出される付随ルーチンのために使用さ れ ま す。この部分はあっても無くても構いません; 無い場合には、入力ファイル 中の 2 番目の %% も省略できます。

定義とルールの部分では、 インデントされたテキストと %{%} との間のテ キ ス ト は そのままの形で出力にコピーされます (この際 %{} は削除されま す)。 %{} はインデントされていない行に現れる必要があります。

ルールの部分では、最初のルールの前に現れるインデントされたもしくは %{} 部分のテキストは、スキャンルーチンにローカルな変数と、 (宣言の後では)ス キャンルーチンに入るたびに実行されるコードとを宣言します。ルール部分 の 他 の インデントされたもしくは %{} 部分のテキストは出力にコピーされます が、意味はちゃんと定義されておらずコンパイル時にエラーとなるかも知れ ま せん (この仕様は POSIX 互換のためにあります; 他のこのような仕様は以降を 見て下さい)。

定義の部分(ルールの部分ではないです)では、インデントされていないコメ ン ト("/*" から始まる行) は次の "*/" までそのままの形でコピーされます。

パターン

入 力ファイルのパターンは拡張した正規表現を使って記述します。以下に示し ます:

    x          文字 ’x’ にマッチ。
    .          改行を除く全ての文字(バイト)。
    [xyz]      "文字クラス"; この場合、’x’, ’y’, ’z’ のいずれにも
                 マッチします。
    [abj-oZ]   範囲指定を含む "文字クラス"; この場合、’a’, ’b’ と
                 ’j’ から ’o’ までの任意のレターと ’Z’ にマッチします。
    [^A-Z]     "否定文字クラス"; クラスに含まれない任意の文字に
                 マッチします。 この場合、’A’ から ’Z’ までの大文字
                 「以外の」文字にマッチします。
    [^A-Z\n]   大文字と改行を「除く」全ての文字。
    r*         0 もしくはそれ以上の r。r は任意の正規表現。
    r+         1 もしくはそれ以上の r。
    r?         0 もしくは 1つの r (「おまけ」の r)
    r{2,5}     2 つから 5つまでの r。
    r{2,}      2 つ以上の r。
    r{4}       ちょうど 4つ の r。
    {名前}     "名前" の定義の展開。
               (上を参照)
    "[xyz]\"foo"
               文字列 [xyz]"foo
    \X         X が ’a’, ’b’, ’f’, ’n’, ’r’, ’t’, ’v’ のいずれかの
                 とき、ANSI-C での \X の解釈となります。
                 それ以外の場合、文字 ’X’ (’*’ のようなオペレータの
                 意味を打ち消し、その文字自体を指定する際に使います)。
    \123       8進数で 123 と表される文字。
    \x2a       16進数で 2a と表される文字。
    (r)        r にマッチ; ()は 優先順位を変えるために使用。
                 (以下を参照)

   rs         正規表現 r に正規表現 s が続く; 「連結(concatenation)」
                 と呼びます。

   r|s        r もしくは s。

   r/s        後ろに s が続く時の r。
                 s にマッチするテキストはこのルールの "最長適合" を判定する
                 時には含まれますが、アクションが実行される前に
                 入力に戻されます。
                 アクションは r にマッチするテキストだけを見ます。
                 このパターンは "右文脈(trailing context)" と呼ばれます。
                 (flex が正確にマッチ不能な r/s の組合せは複数あります;
                 "危険な右文脈" については、
                 以降の、欠陥 / バグ の節の記述を見て下さい。)
    ^r         行頭にある r。(スキャンの始まりもしくは
                 スキャンされた改行の右です)。
    r$         行末にある r。"r/\n" と等価(改行の前です)。
                 "r/\n" と同じです。

              flex の "改行" の表現は flex をコンパイルした
               C コンパイラが解釈する ’\n’ と完全に一致することに
               注意して下さい;
               特定のシステム DOS では \r を入力から取り除くか
               "r$" を表すために明示的に r/\r\n を使用する必要があります。

   <s>r       開始条件 s における r。(開始条件については以下を
               参照)。
    <s1,s2,s3>r
               上に同じ。ただし開始条件は s1, s2, s3 のいずれでもよい。
    <*>r       任意の開始条件の r。開始条件は排他的なものでもよい。

   <<EOF>>    ファイルの終了。
    <s1,s2><<EOF>>
               開始条件が s1 もしくは s2 であるときのファイルの終了。

文字クラス中では、全ての正規表現のオペレータは、エスケープ (’\’) および 文字クラスオペレータである ’-’ と ’]’ とクラスの先頭の ’^’ を除き特別な 意味を失うことに注意して下さい。

上に挙げた正規表現は優先順位によってグループに分けられています。一番 上 の グループが最も高い優先度で、一番下のグループの優先順位が最も低くなっ ています。グループ内では同じ優先順位です。例えば、

    foo|bar*

    (foo)|(ba(r*))

と同じです。なぜなら ’*’ オペレータは連結より優先度が高く、連結は 選 言 (’|’) より優先度が高いからです。このパターンは文字列 "foo" もしくは文字 列 "ba" に 0 個以上の r がつづくものの どちらにもマッチしま す。 "foo" も しくは 0 個以上の "bar" にマッチさせるためには次の表現を使用して下さ い:

    foo|(bar)*

0 個以上の "foo" または "bar" にマッチするためには次の表現を使用して 下 さい:

    (foo|bar)*

文字もしくは文字範囲に加え、文字クラスも文字クラスの 表現を含みます。こ れらの表現は [: および :] のデリミタに囲まれます (文字クラスの ’[’ と ’]’ との間に現れる必要があります; 他の要素が文字クラス中に現れても構い ません)。有効な表現は以下の通りです:

    [:alnum:] [:alpha:] [:blank:]
    [:cntrl:] [:digit:] [:graph:]
    [:lower:] [:print:] [:punct:]
    [:space:] [:upper:] [:xdigit:]

これらの表現は対応する標準 C の isXXX 関数に適合する全ての文字集合を 指 示 します。例えば、 [:alnum:]isalnum() が真を返す文字を指示します - すなわちすべてのアルファベットと数字です。 isblank(), が無いシステム で は、flex は [:blank:] を空白とタブと定義します。

例えば以下の表現は全て同じです:

    [[:alnum:]]
    [[:alpha:][:digit:]]
    [[:alpha:]0-9]
    [a-zA-Z0-9]

ス キャ ナが大文字小文字を意識しない場合( −i フラグ指定時) [:upper:][:lower:][:alpha:] と同じです。

パターンに関する注意点です:

-

否定文字クラス、例えば上の "[^A-Z]" は "\n" (もしくはこれ を 表 すエスケープシーケンス) が明示的に否定文字クラスに現れている 場合 (例えば "[^A-Z\n]") を除き 改行にマッチします。これは他 の 正 規表現ツールが否定文字クラスを扱う方法とは異なりますが、不幸 なことにこの矛盾は歴史的に確立しています。改行にマッチ す る と は、入力に別のクォートが存在しない場合に [^"]* のようなパターン が入力全体にマッチすることを意味します。

-

ルールは右文脈(’/’ オペレータもしくは ’$’ オペレータ) を高々 一 つしか持てません。開始条件 ’^’ と "<<EOF>>" パターンはパター ンの最初になければならず、 ’/’, ’$’ 同様に () 内にいれること は 出来ません。ルールの先頭ではない ’^’ もしくはルールの終りではな い ’$’ は特別な意味を失い、通常の文字として扱われます。

以下は無効です:

foo/bar$
<sc1>foo<sc2>bar

前者は "foo/bar\n" と書けます。

以下では ’$’ と ’^’ とは通常の文字として扱われます:

    foo|(bar$)
    foo|^bar

"foo" もしくは "改行が続く bar" を指定したい場合は、次の表現を使 用して下さい (特別な ’|’ の動作は後で説明します):

    foo      |
    bar$     /* action goes here */

同じ方法で、foo もしくは 行頭の bar を指定可能です。

入力のマッチ方法

生 成したスキャナを実行すると、スキャナは入力を見てパターンにマッチする 文字列を探します。 1 より多くのマッチを見付けると、最長テキストのマッチ を採用します (右文脈(trailing context rule)の後ろの部分も長さに含みます が、後ろの部分は入力に戻されます)。同じ長さのマッチを 2 つ以上見付け た 場合、 flex 入力ファイルで最初に記述されたルールを採用します。

マッチが決定すると、マッチに対応するテキスト( トークンと呼ばれます)がグ ローバル文字ポインタ yytext により使用可能となり、長さがグローバル整 数 yyleng により使用可能となります。その後、マッチしたパターンに対応する アクションが実行され(アクションの詳細な記述は後で行います)、残りの入 力 が残りのマッチのためにスキャンされます。

マッチが見付からないと、 デフォルトルールが実行されます: 入力の次の文字 がマッチしたと見なされ、標準出力にコピーされます。最も簡単で正当な flex の入力は以下の通りです:

    %%

これは、入力を単純に出力にコピー(1 度に 1 文字ずつ)するスキャナを生成し ます。

yytext は 2 つの異なった方法により定義されうることに注意して下さい: 文 字 ポインタもしくは文字 配列です。 flex がどちらの定義を使用するかは特 別なディレクティブ %pointer もしくは %array を flex の入力の最初 の( 定 義) 部 分に含めることにより制御できます。デフォルトは %pointer であり、 -l lex 互換オプションを使用した場合には例外的に yytext は配列にな り ま す。 %pointer を使用する利点はスキャンが高速であること、非常に大きな トークンにマッチする時にも (動的メモリを使用し尽くさない限り) バッ ファ オー バフローとならないことです。欠点は、アクションが yytext を修正する ことが制限されること(次節参照)、 unput() 呼び出しが yytext の現在の内容 を破壊することです。これは異なる lex バージョン間での移植性に関する頭痛 の種です。

%array の利点は yytext の内容を思った通りに変更できること、 unput() を 呼 び出しても yytext の内容が破壊されないことです(下記参照)。その上、既 存の lex プログラムは yytext を外部から次の形式の宣言を使用してアクセス していることがあります:

    extern char yytext[];

こ の 定 義は %pointer 使用時には誤りですが、 %array 使用時には正しいで す。

%arrayyytext を文字数 YYLMAX (デフォルトは十分大きな値)の配列である と 定義します。この大きさは、 flex の入力の最初の部分で単純に YYLMAX を 異なった値に #define することにより変更できます。上記の通り、 %pointer 使 用 時 には yytext は大きなトークンを格納するために動的に大きくなりま す。このことは %pointer を使用したスキャナは非常に大きなトークン (例 え ば コ メントブロック全体)を格納可能であることを意味しますが、スキャナが yytext の大きさを変えるたびにトークン全体を先頭から再スキャンすることが 必 要となるためこのようなトークンに対するマッチングは遅くなりうることを 覚えておいて下さい。現在、 yytextunput() が結果として返すテキストが 大きい時には動的には大きくなり ません; 実行時エラーとなります。

ま た、 %array は C++ スキャナクラスでは使用できないことに注意して下さ い( c++ オプションに関しては下記参照)。

アクション

ルール中のパターンは対応するアクションを持ちます。アクションは任意の C の 文です。パターンは最初のエスケープされていない空白文字で終ります; 行 の残りがアクションです。アクションが空である場合、パターンがマッチし た 時 に入力トークンは単純に捨てられます。例えば入力から全ての "zap me" を 削除するプログラムの仕様を示します:

    %%
    "zap me"

(入力の他の全ての文字を出力にコピーします。なぜならデフォルトルー ル に マッチするからです。)

次 は、複数の空白や文字を単一の空白に圧縮し行末の空白を捨てるプログラム です:

    %%
    [ \t]+        putchar( ’ ’ );
    [ \t]+$       /* ignore this token */

アクションが ’{’ を含む場合、アクションは対応する ’}’ まで続き、複数 行 に渡る場合もあります。 flex は C の文字列およびコメントに関して知ってお り、それらの中のブレースを誤解することはありませんが、アクション が %{ で 始まることを許し、次の %} までのテキストがアクションであるとします ( アクション内部の任意個のブレースには関係ありません)。

垂直バー (’|’) のみからなるアクションは "次のルールと同じ" を意味 し ま す。説明は以下を見て下さい。

ア クションは任意の C コードを含むことが出来ます。これには、 yylex() を 呼び出したルーチンに対して値を返す return 文も含まれます。 yylex() が呼 ば れるたび、最後に残ったトークンから処理を再開し、ファイルの終了もしく は return を実行するまで処理を行います。

アクションは自由に yytext を変更できますが、例外は長さを増やすことで す (文字を末尾に加えることになり、これは入力ストリームの後続する文字を上書 きします)。これは %array 使用時には当てはまりません(上述); こ の 場 合 yytext を自由に変更できます。

ア クションは自由に yyleng を変更できますが、アクションが yymore() を使 用する時には例外的に変更してはいけません(後述)。

多くの特別なディレクティブがあり、アクション中に含めることが出来ます:

-

ECHO yytext をスキャナの出力にコピーします。

-

BEGIN 後ろに開始条件の名前を書くと、スキャナを対応する開始条 件に設定します(後述)。

-

REJECT 入力(もしくは入力の頭)に "2 番目によく(second best)" マッチするルールに進むようにスキャナに指示します。 "入力の マッ チ 方法" で示したようにルールは選択され、 yytextyyleng は適 切に設定されます。選択されるルールは、最初に選択されたルール と 同 じ長さであるが flex の入力ファイルにて後で出て来るもの、もし くは少ない文字数にマッチするものです。例えば次の例では入力中 の 語 を 数え、 "frob" が見付かるたびにルーチン special() を呼びま す:

int word_count = 0;
%%

frob special(); REJECT;
[^ \t\n]+ ++word_count;

REJECT が無い場合、入力中の "frob" は語として数えられず、スキャ ナは通常通りトークン毎に 1 つのアクションだけを行います。複数の REJECT を使用可能であり、それぞれ現在有効なルールの次に良い選択 を 見 付けます。例えば次のスキャナは、"abcd" というトークンをス キャンし、出力に "abcdabcaba" を書きます:

    %%
    a        |
    ab       |
    abc      |
    abcd     ECHO; REJECT;
    .|\n     /* eat up any unmatched character */

(前の 3 つのルールは 4 番目のルールのアクションを共有します。な ぜ な ら特別な ’|’ アクションが使用されているからです。) REJECT はスキャナの性能という点で特にコストのかかる機能です; も し ス キャ ナ のアクションの いずれかにでも REJECT が使われたなら、ス キャナの 全てのマッチング速度を低下させるということです。さらに REJECT をオプション -Cf-CF と共に用いることは出来ません。

また、他の特別アクションと違い REJECT は 分岐(branch) であること に注意してください; すなわち REJECT 直後のアクションは実行 さ れ ません。

-

yymore() 次にルールとマッチしたときには、対応するトークン は、現在の yytext の内容と入れ換えるのではなく yytext に 追加す るようスキャナに指示します。例えば、入力 "mega-kludge" が与えら れると、以下は "mega-mega-kludge" を出力に書きます:

%%
mega- ECHO; yymore();
kludge ECHO;

最初の "mega-" はマッチし出力にエコーされます。次に "kludge" が マッ チ しますが、直前の "mega-" がまだ yytext の先頭に残ってお り、"kludge" の ECHO ルールは実際には "mage-kludge" を 書 き ま す。

yymore() の使用に関し 2 つの注意点があります。まず、 yymore() は現在の トークンの大きさを反映する yyleng の値の正確さに依存すること で あ り、 yymore() 使用時には yyleng を変更してはなりません。次に、スキャナのアク ションに yymore() があると、スキャナのマッチ速度に若干悪影響が あ り ま す。

-

yyless(n) 現在のトークンから最初の n 文字を除いたものを入力 ストリームに戻します。戻した文字列はスキャナが次のマッチング を と るときに再度スキャンされます。 yytextyyleng は適切に調整 されます(例えば yylengn となります)。例えば、入力 "foobar" が与えられると、以下は "foobarbar" を書きます:

%%
foobar ECHO; yyless(3);
[a-z]+ ECHO;

引数 0 を yyless に与えると、現在の入力文字列全体が再度スキャン されます。 (例えば BEGIN を使用して)次にスキャナが入力する方 法 を変更していないと、無限ループとなります。

yyless はマクロであり、flex 入力ファイルでのみ使用可能であり、別のソー スファイルからは使用不能であることに注意して下さい。

-

unput(c) 文字 c を入力ストリームへ戻します。戻した文字は次に ス キャンされる文字になります。次のアクションは現在のトークンを 取り上げ、括弧内に入れて再スキャンします。

{
int i;
/* Copy yytext because unput() trashes yytext */
char *yycopy = strdup( yytext );
unput( ’)’ );
for ( i = yyleng - 1; i >= 0; --i )
unput( yycopy[i] );
unput( ’(’ );
free( yycopy );
}

unput() は文字を入力ストリームの 先頭に戻すので、文字列を戻す場 合には後ろから前に向かって戻す必要があります。

unput() 使 用時の重要な潜在的な問題は、 %pointer 使用時(デフォルト)に unput() を呼び出すと、右端の文字から開始し 1 文字ずつ左に向かって消費さ れ、 yytext の内容が 破壊されることです。 (上記例のように) unput() 呼び 出し後も yytext の内容を保存するためには、始めに別の場所にコ ピー す る か、 ス キャナを %array を使うように構築することです(入力のマッチ方法参 照)。

最後に、 EOF を戻して入力ストリームにファイルの終りをマークするとは出来 ないことに注意して下さい。

-

input() 次の文字を入力ストリームから読みます。次の例は C コ メントを食べます:

%%
"/*" {
register int c;

for ( ; ; )
{
while ( (c = input()) != ’*’ &&
c != EOF )
; /* eat up text of comment */

if ( c == ’*’ )
{
while ( (c = input()) == ’*’ )
;
if ( c == ’/’ )
break; /* found the end */
}

if ( c == EOF )
{
error( "EOF in comment" );
break;
}
}
}

(スキャナが C++ でコンパイルされたとき は、 こ の ルー チ ン は yyinput() という名称になり、 C++ ストリームの input と名前が衝 突することを避けます。)

-

YY_FLUSH_BUFFER スキャナの内部バッファをフラッシュし、次にス キャ ナがトークンをマッチしようとした時バッファを YY_INPUT にて リフィルします(生成されたスキャナで後述)。このアクションは、 複 数 の入力バッファにおいて後述するより一般的な yy_flush_buffer() 関数の特別なケースです。

-

yyterminate() アクションの return 文の代わりに使うことが出来 ま す。 yyterminate() はスキャナを終了し、"全て終了" を意味する 0 を呼び出し元関数に返します。デフォルトでは yyterminate() は ファイルの終わりに達したときにも呼ばれます。 yyterminate() はマ クロであり、定義しなおすことができます。

生成されたスキャナ

flex の出力は lex.yy.c というファイルであり、スキャンルーチ ン yylex() と、 トークンのマッチングに使用する複数のテーブルと、複数の付属ルーチン とマクロからなります。デフォルトでは、 yylex() は次のように宣言さ れ ま す:

    int yylex()
        {
        ... various definitions and the actions in here ...
        }

( 環境が関数プロトタイプをサポートしている場合、 "int yylex( void )" と なります。) この定義は "YY_DECL" マクロを定義することにより変更で き ま す。例えば次のように使用することが出来ます:

    #define YY_DECL float lexscan( a, b ) float a, b;

こ れ はスキャンルーチンの名前を lexscan とし、浮動小数点数を返すように し、2 つの浮動小数点数を引数とします。 K&R の非プロトタイプの関数宣言を 使用してスキャンルーチンに対して引数を与える場合、定義をセミコロン(;)で 終了する必要があります。

yylex() は呼ばれるたび、グローバル入力ファイル yyin (デフォルトでは標準 入力)からトークンをスキャンします。ファイルの終りになる(この場合 0 を返 します)か、アクションが return 文を実行するまで、実行を続けます。

スキャナがファイルの終りに到達すると、 yyin が新たなファイルを指さな い か ( 新 た な ファ イルを指す場合はこのファイルのスキャンを続けます)、 yyrestart() が呼ばれない限り、後続す る 呼 び 出 し は 未 定 義 で す。 yyrestart()FILE * ポインタ( YY_INPUT を設定して yyin 以外のソースを スキャンするようにした場合には nil も可です) である引数を 1 つとり、 そ の ファ イルからのスキャンのために yyin を初期化します。本質的に、 yyin を新しい入力ファイルに割り当てることと yyrestar() を使用することとは 同 じ です; 後者は前のバージョンの flex との互換性のために使用可能であり、 またスキャンの途中で入力ファイルを変えることが可能です。引数を yyin と し て呼び出すことにより、現在の入力バッファを捨てることも出来ます; ただ し、 YY_FLUSH_BUFFER (上述)を使用する方が良い で す。 yyrestart()INITIAL の開始条件を変更し ないことに注意して下さい (後述の開始条件参 照)。

あるアクション中で return 文を実行することにより yylex() がスキャンを止 め た場合、スキャナは再度呼び出し可能であり、この場合スキャンの残りの部 分から再開します。

デフォルトで(効率のため)、スキャナは単純な getc() コールではなくブ ロッ ク リードを行い、 yyin から文字を読みます。入力取得方法は YY_INPUT マク ロを定義することにより制御でき ま す。 YY_INPUT 呼 び 出 し 手 順 は "YY_INPUT(buf,result,max_size)" です。このアクションは、 buf 文字配列中 に最大 max_size 文字を用意し、整数変数 result 中に読めた文字数もしく は 定 数 YY_NULL (Unix シ ス テムでは 0)を入れて返します。デフォルトの YY_INPUT はグローバルファイルポインタ "yyin" から読みます。

YY_INPUT のサンプル定義です(入力ファイルの定義部に格納):

    %{
    #define YY_INPUT(buf,result,max_size) \
        { \
        int c = getchar(); \
        result = (c == EOF) ? YY_NULL : (buf[0] = c, 1); \
        }
    %}

この定義により、入力処理は 1 度に 1 文字ずつ行うように変更されます。

スキャナが YY_INPUT からファイルの終りを通知された場 合、 ス キャ ナ は yywrap() 関数をチェックします。 yywrap() 関数が偽(0)を返す場合、関数は 続行中であるとされ、 yyin を別の入力ファイルを指すように設定し、ス キャ ンを続行します。関数が真(非0)を返す場合、スキャナは終了し、呼び出し元に 0 を返します。どちらの場合も開始条件は変化しないことに注意して下 さ い; つまり INITIAL には戻り ません。

独自の yywrap() を設定しない場合、 %option noyywrap (この場合スキャナは yywrap() が 1 を返したかのように動作します)を使用するか、フラグ −ll を 指定してデフォルトのルーチン(常に 1 を返します)を使用しなければなりませ ん。

ファイルではなくメモリ中のバッファからスキャンするための 3 つのルーチン を 使用可能です: yy_scan_string(), yy_scan_bytes(), yy_scan_buffer() 。 これらに関する議論は複数の入力バッファの節を参照して下さい。

スキャナは、自己の ECHO 出力を yyout グローバル(デフォルトでは標準出 力 であり、別の FILE ポインタに割り当てることで再定義できます)に書きます。

開始条件

flex は、条件的に有効となるルールのための機構を提供します。パターンのプ レ フィックスが "<sc>" となっているルールは、スキャナが "sc" という名前 の開始条件にいる場合のみ有効です。例えば、

    <STRING>[^"]*        { /* eat up the string body ... */
                ...
                }

はスキャナが "STRING" 開始条件にいる時のみ有効であり、

    <INITIAL,STRING,QUOTE>\.        { /* handle an escape ... */
                ...
                }

は現在の開始条件が、 "INITIAL", "STRING", "QUOTE" のいずれかの場合の み 有効です。

開 始条件は、入力の定義(先頭)部において、インデントされない行で %s もし くは %x から始まり名前が続く行において宣言されます。前者は 内包的開始条 件を、後者は 排他的開始条件を、それぞれ宣言します。開始条件を有効にする のは BEGIN アクションです。次の BEGIN アクションが実行されるまで、与 え ら れた開始条件のルールは有効であり、他の開始条件のルールは無効です。開 始条件が 内包的な場合、開始条件を持たないルールもまた有効です。開始条件 が 排他的な場合、開始条件を満たすルール だけが有効です。同じ排他開始条 件に依存するルールの組は、 flex 入力中の別のルールとは独立なスキャナ を 記 述します。そのため、排他開始条件を使用すれば、"ミニスキャナ" (別部分 とは文法的に異なる部分(例えばコメント)に対するスキャナ) を簡単に指定 で きます。

内 包的開始条件と排他的開始条件とがまだ少し曖昧であるなら、両者の関係を 表す例を示して説明します。以下のルールの組:

    %s example
    %%

   <example>foo   do_something();

   bar            something_else();

    %x example
    %%

   <example>foo   do_something();

   <INITIAL,example>bar    something_else();

と等価です。 <INITIAL,example> が無いと、2 番目の例における bar パ ター ン は、開始条件が example の場合、有効となりません(すなわちマッチしませ ん)。 <example> だけを bar につけると、 example だけにおいて有 効 と な り、 INITIAL では有効となりません。一方、最初の例ではどちらの場合でも有 効です。なぜなら最初の例では example 開始条件は 内包的 (%s) 開始条件 だ からです。

特殊な開始条件指定子 <*> は全ての開始条件にマッチすることに注意して下さ い。このため、上の例は次のようにも書けます;

    %x example
    %%

   <example>foo   do_something();

   <*>bar    something_else();

デフォルトルール(マッチしなかった文字に対しては ECHO です)は開始条件 中 でも有効です。これは次のものと等価です:

    <*>.|\n     ECHO;

BEGIN(0) は、開始条件の無いルールだけが有効である、最初の状態に戻りま す。この状態は開始条件 "INITIAL" として参照できるため、 BEGIN(INITIAL)BEGIN(0) と等価です。 (開始条件名を括る括弧は不要ですが、良いスタイ ルであるとされています。)

BEGIN アクションは、ルール部の先頭のインデントされたコード中に現れて も 良 い で す。 例 え ば 以 下 の 例では、 yylex() が呼ばれグローバル変数 enter_special が真の場合には、スキャナは "SPECIAL" 開始条件に入ります:

            int enter_special;

   %x SPECIAL
    %%
            if ( enter_special )
                BEGIN(SPECIAL);

   <SPECIAL>blahblahblah
    ...more rules follow...

開始条件を説明するために、 "123.456" のような文字列を 2 通りの異なっ た 解釈をするスキャナを示します。デフォルトではこれは、整数 "123" とドット (’.’) と整数 "456" の 3 トークンに数えられます。しかし、この文字列の 前 に "expect-floats" の文字列がある場合、これは単一のトークンであるとさ れ、浮動小数点数 123.456 とされます:

    %{
    #include <math.h>
    %}
    %s expect

   %%
    expect-floats        BEGIN(expect);

   <expect>[0-9]+"."[0-9]+      {
                printf( "found a float, = %f\n",
                        atof( yytext ) );
                }
    <expect>\n           {
                /* that’s the end of the line, so
                 * we need another "expect-number"
                 * before we’ll recognize any more
                 * numbers
                 */
                BEGIN(INITIAL);
                }

   [0-9]+      {
                printf( "found an integer, = %d\n",
                        atoi( yytext ) );
                }

   "."         printf( "found a dot\n" );

次は、C のコメントを理解(して捨てる)一方で、現在の入力行を数えるス キャ ナです。

    %x comment
    %%
            int line_num = 1;

   "/*"         BEGIN(comment);

   <comment>[^*\n]*        /* eat anything that’s not a ’*’ */
    <comment>"*"+[^*/\n]*   /* eat up ’*’s not followed by ’/’s */
    <comment>\n             ++line_num;
    <comment>"*"+"/"        BEGIN(INITIAL);

こ のスキャナは各ルールで可能な最大のテキストにマッチしようとする場合、 ちょっとした問題が起こります。一般的には、高速なスキャナを記述 す る 場 合、各ルールで最大のマッチを得ようとすることが最も成功します。

開 始条件名は実際には整数値であり、格納することが出来ることに注意して下 さい。そのため、上記例は以下のように拡張できます:

    %x comment foo
    %%
            int line_num = 1;
            int comment_caller;

   "/*"         {
                 comment_caller = INITIAL;
                 BEGIN(comment);
                 }

   ...

   <foo>"/*"    {
                 comment_caller = foo;
                 BEGIN(comment);
                 }

   <comment>[^*\n]*        /* eat anything that’s not a ’*’ */
    <comment>"*"+[^*/\n]*   /* eat up ’*’s not followed by ’/’s */
    <comment>\n             ++line_num;
    <comment>"*"+"/"        BEGIN(comment_caller);

さらに、現在の開始条件を整数値であるマクロ YY_START にてアクセスでき ま す。例えば、上記の comment_caller への代入は次のように記述できます。

    comment_caller = YY_START;

flex は YYSTATEYY_START のエイリアスとして提供します (AT&T の lex が使用しています)。

開始条件は独自の名前空間を持たないことに注意して下さい; %s や %x の宣言 における名前宣言の扱いは #define と同じです。

最後に、排他的開始条件を使用する、展開されたエスケープシーケンスを含む( 長すぎる文字列のチェックは含みません) C スタイルのクォート文字 列 へ の マッチ方法を示します:

    %x str

   %%
            char string_buf[MAX_STR_CONST];
            char *string_buf_ptr;

   \"      string_buf_ptr = string_buf; BEGIN(str);

   <str>\"        { /* saw closing quote - all done */
            BEGIN(INITIAL);
            *string_buf_ptr = ’\0’;
            /* return string constant token type and
             * value to parser
             */
            }

   <str>\n        {
            /* error - unterminated string constant */
            /* generate error message */
            }

   <str>\\[0-7]{1,3} {
            /* octal escape sequence */
            int result;

           (void) sscanf( yytext + 1, "%o", &result );

           if ( result > 0xff )
                    /* error, constant is out-of-bounds */

           *string_buf_ptr++ = result;
            }

   <str>\\[0-9]+ {
            /* generate error - bad escape sequence; something
             * like ’\48’ or ’\0777777’
             */
            }

   <str>\\n  *string_buf_ptr++ = ’\n’;
    <str>\\t  *string_buf_ptr++ = ’\t’;
    <str>\\r  *string_buf_ptr++ = ’\r’;
    <str>\\b  *string_buf_ptr++ = ’\b’;
    <str>\\f  *string_buf_ptr++ = ’\f’;

   <str>\\(.|\n)  *string_buf_ptr++ = yytext[1];

   <str>[^\\\n\"]+        {
            char *yptr = yytext;

           while ( *yptr )
                    *string_buf_ptr++ = *yptr++;
            }

上 記例のように同一の開始条件を持つ全てのルールの前に開始条件を書かねば ならないことが多いです。 flex はこれを簡単かつ綺麗にするため開始条件 ス コープを導入しました。開始条件スコープは次のように始まります:

    <SCs>{

こ こで SCs は 1 つ以上の開始条件のリストです。開始条件スコープ内では、 最初の ’{’ にマッチするまでの ’}’ において、全てのルール は 自 動 的 に <SCs> のプレフィックスが付きます。そのため、例えば

    <ESC>{
        "\\n"   return ’\n’;
        "\\r"   return ’\r’;
        "\\f"   return ’\f’;
        "\\0"   return ’\0’;
    }

は次のものと等価です:

    <ESC>"\\n"  return ’\n’;
    <ESC>"\\r"  return ’\r’;
    <ESC>"\\f"  return ’\f’;
    <ESC>"\\0"  return ’\0’;

開始条件スコープはネストすることが出来ます。

開始条件のスタックを制御するために 3 つのルーチンを使用可能です:

void yy_push_state(int new_state)

現 在 の 開 始 条件を開始条件スタックの先頭にプッシュし、 BEGIN new_state を使用したかのように new_state に切り替えます (開始条 件名は整数値でもあることを思い出して下さい)。

void yy_pop_state()

スタックの先頭をポップし、 BEGIN を使用してその開始条件に切り替 えます。

int yy_top_state()

スタックの内容を変更せずに、スタックの先頭を返します。

開始条件スタックは動的に大きくなり、また組み込み時のサイズ制限はあり ま せん。メモリを使い切ると、プログラム実行は中止されます。

開 始 条件スタックを使用するためには、スキャナは %option stack ディレク ティブをインクルードする必要があります (下記オプションを参照し て 下 さ い)。

複数の入力バッファ

ス キャナによっては(ファイルの "include" をサポートする等) 複数の入力ス トリームを扱う必要があります。 flex スキャナでは大きなバッファリング を 行 うため、スキャンコンテキストに影響される YY_INPUT を単純に書き換える だけでは次の入力がどこから読まれるのかを制御できません。 YY_INPUT が 呼 ば れ る の は スキャナがバッファの終りに到達する時だけですので、例えば "include" のように入力元を切り替える必要のある文をスキャンした後でも 長 時間を費す場合があります。

こ の様な問題を解決するため、 flex は複数の入力バッファを生成して切り替 える機構を提供します。入力バッファは次のように生成されます:

    YY_BUFFER_STATE yy_create_buffer( FILE *file, int size )

これは FILE ポインタと size を取り、与えられる file に関連し size 文 字 を 保 持 す る に十分なバッファを生成します (疑わしい場合には size には YY_BUF_SIZE を使用して下さい)。これは、別のルーチン(下記参照)に渡すため の YY_BUFFER_STATE ハ ン ドルを返します。 YY_BUFFER_STATE のタイプは struct yy_buffer_state 構造体へのポインタであ る た め、 安 全 の た め YY_BUFFER_STATE 変数を ((YY_BUFFER_STATE) 0) と初期化することが出来、ス キャナではなくソースファイルにおいて入力バッファを正しく宣言するため に こ の構造体を参照することが出来ます。 yy_create_buffer 呼び出しにおける FILE ポインタは YY_INPUT から見える yyin の値と同じようにだけ使用される ことに注意して下さい; YY_INPUT を再定義して yyin を使わないようにするこ とにより、 yy_create_buffer に対して安全にニル FILE ポインタを 渡 せ ま す。スキャンするバッファを選択するためには次のようにします:

    void yy_switch_to_buffer( YY_BUFFER_STATE new_buffer )

こ れはスキャナの入力バッファを切り替え、トークンが new_buffer から来る ようになります。新たなファイルをオープンして yyin を指すのではなく、 ス キャンを継続するために yywrap() から yy_switch_to_buffer() を使用するこ とがあることに注意して下さい。ま た、 yy_switch_to_buffer() ま た は yywrap() による入力元の切り替えは開始条件を変更し ないことにも注意して 下さい。

    void yy_delete_buffer( YY_BUFFER_STATE buffer )

はバッファに関連づけられたストレージの返還要求に使用します。( buffer は ニ ル で も構いませんがこの場合このルーチンは何もしません。) 現在のバッ ファの内容をクリアするには次のようにします:

    void yy_flush_buffer( YY_BUFFER_STATE buffer )

この関数はバッファの内容を捨てるため、次にスキャナがこのバッファと トー ク ンのマッチを行う場合、スキャナはまず YY_INPUT を使用してこのバッファ をフィルします。

yy_new_buffer()yy_create_buffer() のエイリアスであり、動的オブ ジェ ク トの生成と破壊のために使用する C++ の newdelete との互換性のため に提供しています。

最後に YY_CURRENT_BUFFER マ ク ロ は、 現 在 の バッ ファ に 対 す る YY_BUFFER_STATE ハンドルを返します。

こ の 機能を使用してインクルードファイルを展開するスキャナの記述例です( <<EOF>> 機能は後述します):

    /* the "incl" state is used for picking up the name
     * of an include file
     */
    %x incl

   %{
    #define MAX_INCLUDE_DEPTH 10
    YY_BUFFER_STATE include_stack[MAX_INCLUDE_DEPTH];
    int include_stack_ptr = 0;
    %}

   %%
    include             BEGIN(incl);

   [a-z]+              ECHO;
    [^a-z\n]*\n?        ECHO;

   <incl>[ \t]*      /* eat the whitespace */
    <incl>[^ \t\n]+   { /* got the include file name */
            if ( include_stack_ptr >= MAX_INCLUDE_DEPTH )
                {
                fprintf( stderr, "Includes nested too deeply" );
                exit( 1 );
                }

           include_stack[include_stack_ptr++] =
                YY_CURRENT_BUFFER;

           yyin = fopen( yytext, "r" );

           if ( ! yyin )
                error( ... );

           yy_switch_to_buffer(
                yy_create_buffer( yyin, YY_BUF_SIZE ) );

           BEGIN(INITIAL);
            }

   <<EOF>> {
            if ( --include_stack_ptr < 0 )
                {
                yyterminate();
                }

           else
                {
                yy_delete_buffer( YY_CURRENT_BUFFER );
                yy_switch_to_buffer(
                     include_stack[include_stack_ptr] );
                }
            }

ファイルではなくメモリ上の文字列をスキャンするための入力バッファを設 定 するための 3 つのルーチンを使用可能です。いずれも文字列をスキャンする新 しい入力バッファを生成し、対応する YY_BUFFER_STATE ハンドル(終了時に は yy_delete_buffer() にて消去します)を返します。新しいバッファに切り替え る時には yy_switch_to_buffer() を使用し、次の yylex() の呼び出し時に は この文字列をスキャン開始します。

yy_scan_string(const char *str)

NUL ターミネートされた文字列をスキャンします。

yy_scan_bytes(const char *bytes, int len)

len バ イト (NUL が含まれるかも知れません)を位置 bytes からス キャンします。

どちらの関数も文字列もしくはバイト列の コピーを生成してからスキャンしま す。( yylex() はスキャンするバッファの内容を変更するため、これが望まし いのです。) コピーを避けるためには次のようにします:

yy_scan_buffer(char *base, yy_size_t size)

バッファ内で base から size バイトの長さをスキャンします。最 後 の 2 バイトは YY_END_OF_BUFFER_CHAR (ASCII NUL) である 必要があ ります。これらの最後の 2 バイトはスキャンされません; そのためス キャンの内容は base[0] から base[size-2] までで両端を含みます。

この様になるように base を設定しなかった場合(つまり最後の 2 つの YY_END_OF_BUFFER_CHAR バイトを忘れた場合)、 yy_scan_buffer() は 新しいバッファを生成するのではなくニルポインタを返します。

yy_size_t は整数型であり、バッファの大きさを反映する整数式 を この型にキャストすることが出来ます。

ファイルの終りのルール

特別ルール "<<EOF>>" は、ファイルの終了時もしくは yywrap() が非 0 (すな わち処理するファイルが無いことを表す)の時に行われるべきアクションを表し ます。アクションは以下の 4 つのうちのいずれかで終る必要があります。

-

yyin に新しいファイルを割り当てる(前のバージョンの flex で は、割り当て後に特別なアクション YY_NEW_FILE を呼び出す必要があ りました; 今では不要です。);

-

return 文を実行する;

-

特別な yyterminate() アクションを実行する;

-

yy_switch_to_buffer() を使用して新たなバッファに切り替える ( 上記例で示した通り)。

<<EOF>> ルールを他のパターンと共に使用してはなりません; 他のパターン は 開始条件のリストともにだけ満たされるからです。満たされない <<EOF>> ルー ルが与えられた場合、 <<EOF>> アクションをまだ持っていない 全ての開始 条 件に適用されます。 <<EOF>> ルールを最初の開始条件だけに指定するためには 次のようにして下さい。

    <INITIAL><<EOF>>

これらのルールは閉じていないコメントを捕まえる場合等に便利です。例えば:

    %x quote
    %%

   ...other rules for dealing with quotes...

   <quote><<EOF>>   {
             error( "unterminated quote" );
             yyterminate();
             }
    <<EOF>>  {
             if ( *++filelist )
                 yyin = fopen( *filelist, "r" );
             else
                yyterminate();
             }

雑多なマクロ

マ クロ YY_USER_ACTION にはマッチルールアクションに先だって常に行うアク ションを定義できます。例えば、yytext を小文字に変換するルーチンを呼ぶよ うに #define 出来ます。 YY_USER_ACTION 起動時には、変数 yy_act はマッチ したルールの番号を与えます(ルールは 1 番から数えます)。各ルールがマッチ する頻度を知りたい場合を想像して下さい。以下に仕掛けを示します:

    #define YY_USER_ACTION ++ctr[yy_act]

ここで ctr は配列であり、それぞれのルールがマッチした回数を計数します。 マクロ YY_NUM_RULES はルールの総数を表すため( −s を使った時でさえデフォ ルトルールを含みます)、正しい ctr の宣言は次のようになります:

    int ctr[YY_NUM_RULES];

マ クロ YY_USER_INIT には最初のスキャンの前に常に行うアクションを再定義 できます (スキャナの内部初期化の前に行われます)。例えばデータ表を読み込 んだり、ログファイルをオープンするために使用できます。

マクロ yy_set_interactive(is_interactive) は現在のバッファが 対話的と見 なされているか否かを制御するために使用します。対話的なバッファの処理 は 遅 くなりますが、スキャナの入力元が対話的でありバッファをフィルするのを 待つことに起因する問題を避けるためには指定しなければなりません(以 下 の −I %option interactive フラグに関する議論を参照して下さい)。マクロ起動 時に非 0 を指定するとバッファは対話的になり、 0 を指定すると非対話的 に な り ま す。 こ の マ ク ロ の 使 用 は %option interactive , %option always-interactive , %option never-interactive に優先します(下 記 オ プ ショ ンを参照して下さい)。バッファをスキャンして対話的である(もしくはで ない)と判断される前に、 yy_set_interactive() を起動して下さい。

マクロ yy_set_bol(at_bol) は現在のバッファにおける次のトークンに対す る マッチのためのスキャンが行頭から始まるか否かを制御します。非 0 のマクロ 引数は、’^’ が付いたルールを有効にしますが、 0 のマクロ引数は ’^’ が 付 いたルールを無効にします。

現 在 のバッファからスキャンされた次のトークンが有効な ’^’ ルールを持つ 時、マクロ YY_AT_BOL() は真を返します。そうでない場合は偽を返します。

生成されたスキャナでは、全てのアクションは大きな一つの switch 文に集 め ら れ、 YY_BREAK で分けられています。 YY_BREAK は再定義可能です。デフォ ルトではそれぞれのルールのアクションを分けるための単なる "break" です。 YY_BREAK を再定義することにより、例えば C++ ユーザが #define YY_BREAK を何もしないように定義し (ただし全てのルールが "break" か "return" で終 る ように注意しなければなりません!)、ルールのアクションが "return" で終 ることにより YY_BREAK がアクセスできないことに起因する、到達できない 文 があるという警告を避けることが出来ます。

ユーザが使用可能な値

この節ではユーザがルールのアクション部分で使用可能な値をまとめます。

-

char *yytext 現トークンのテキストを保持しています。内容を変 更しても構いませんが、その長さを伸ばしてはいけません(終りに文字 を追加してはいけない)。

スキャナの記述の最初の部分に特別な指示である %array が書かれてい るとき、 yytextchar yytext[YYLMAX] と定義されま す。 YYLMAX は マクロで、デフォルトの値 (多くの場合8KB) を変更したい場合には 最初の部分で再定義可能です。 %array を使うといくらか遅いスキャナ になりますが、 yytext の値は input()unput() の呼び出しでも破 壊されなくなります。 yytext が文字ポインタである場合、これらの関 数呼び出しは yytext を破壊する可能性があります。 %array と対称な 指定 %pointer がデフォルトです。

C++ のスキャナクラスを生成する (オプション −+ ) ときには %array は使えません。

-

int yyleng 現トークンの長さを保持しています。

-

FILE *yyin はデフォルトで flex が読むファイルです。再定義す ることは可能ですが、スキャンを始める前か EOF に到達した後でのみ 再 定義は意味を持ちます。スキャンの途中で変更すると予想外の結果 をもたらします。というのも flex は入力をバッファリングしてい る からです; そのような場合には、直接再定義せず yyrestart() を使っ て下さい。ファイルの終わりでスキャンが終了した場合には yyin を 新 しい入力ファイルに割り当て、再びスキャナを呼び出してスキャン を続けることが出来ます。

-

void yyrestart( FILE *new_file ) を呼ぶことで yyin が新し い 入 力ファイルを指すように出来ます。新しいファイルへの変更はすぐ に行われます (それまでにバッファに読み込まれていた入力は失わ れ ま す)。 yyin を引数として yyrestart() を呼ぶと、現在の入力バッ ファを捨てて同じ入力ファイルをスキャンし続けることに注意して 下 さい。

-

FILE *yyoutECHO アクションが行われる対象のファイルです。 ユーザが再割当することが出来ます。

-

YY_CURRENT_BUFFER カレントバッファの YY_BUFFER_STATE ハン ド ルを返します。

-

YY_START 現在の開始条件に対応する整数値を返します。続いてこ の値を BEGIN と共に使うことで、スキャナをその開始条件へ戻すこと が出来ます。

YACC とのインタフェース

flex の主な使用方法の一つは、 yacc パーサジェネレータと共に使用すること です。 yacc パーサは yylex() と言う名前のルーチンを呼び、次の入力トーク ン を見付けるものとしています。このルーチンは、次のトークンの型を返し、 関連する値をグローバルの yylval に格納するものとされています。 flexyacc と共に使うには、 yacc−d オプションを指定して、 yacc の入力に現 れる全ての %tokens の定義を含む y.tab.h ファイルを生成させま す。 こ の ファ イルは flex スキャナにインクルードされます。例えばトークンの一つが "TOK_NUMBER" である場合、スキャナの一部分は次のようになっています:

    %{
    #include "y.tab.h"
    %}

   %%

   [0-9]+        yylval = atoi( yytext ); return TOK_NUMBER;

オプション

flex には以下のようなオプションがあります:

−b

バックアップ情報を lex.backup に出力します。このファイル に は、 スキャナのバックアップ(backing-up)を必要とする状態とそれに 対応する入力文字の一覧がリストされます。ルールを追加すること で バックアップ状態を取り除くことができます。バックアップ状態が 全 て取り除かれ、 −Cf または −CF を指定すると、生成されたスキャ ナ の 実行速度が向上します( −p フラグを見て下さい)。スキャナをぎり ぎりまで最適化しようとしてるユーザのみがこのオプションに関係 あ ります。 (後述の性能関連の節を見て下さい。)

−c

何もしません。POSIX 互換のために用意されています。

−d

生 成 さ れ た スキャナが デバッグモードで実行されます。 yy_flex_debug が非 0 の場合(デフォルト)、パターンが認識されるた びに、スキャナは次のようなメッセージを 標準エラー出力へ出力しま す。

--accepting rule at line 53 ("the matched text")

行番号はスキャナを定義しているファイル (flexに与えられたファ イ ル) で のルールの位置です。スキャナがバックアップしたとき、デ フォルトルールを受け入れたとき、入力バッファの最後に到達した と き (あるいは、NULに到達したとき; スキャナには、この二つの区別は つきません)、ファイルの最後に到達したときにもメッセージが出力さ れます。

−f

高速なスキャナを指定します。テーブル圧縮は行われず、標準入 出力をバイパスします。その結果生成されるスキャナは大きくなり ま す が、高速なものになります。このオプションは −Cfr と同等です ( 以下を参照)。

−h

flex のオプションの要約からなる "ヘルプ" を 標準出力に書 き 出し終了します。 −?−−help とは −h と同じです。

−i

大文字小文字を区別しないスキャナを生成します。 flex の入力 パターンに与えられる文字が大文字であるか小文字であるかは区別 さ れ ず、スキャナに入力される文字列は大文字小文字に関係なくマッチ します。マッチしたテキスト yytext では入力時の大文字小文字が 保 存されます (大文字を小文字に変換したりしません)。

−l

AT&T の lex の実装に対して最大限の互換性を持たせます。これ は 完全な互換性を意味しません。このオプションを使用すると性能に 大 き な影響があります。このオプションは、 −+, −f, −F, −Cf, −CF と同時に使用できません。詳しくは、後述の "Lex および POSIX との 非 互 換 性" の節を御覧下さい。またこのオプションを使用すると、 YY_FLEX_LEX_COMPAT が生成されたスキャナの名前に #define され ま す。

−n

何もしません。POSIX 互換のためにだけ用意されたオプションで す。

−p

性能情報を標準エラー出力に出力します。 flex 入力ファイル の 記 述のうち、生成されるスキャナの性能低下の深刻な原因となる部分 について、コメントされます。オプションを2回指定すると、より細か な性能低下についてもコメントが出力されます。

REJECT%option yylineno ・可変長右文脈(欠陥/バグの節で後述)は 多大なる性能への悪影響があります; yymore() の使用・ ^ オ ペ レー タ・ −I フラグは小さな性能の悪影響があります。

−s

デフォルトルール (マッチしないスキャナの入力を 標準出力に出 力する) が抑制されます。ルールにマッチしない入力が表れたと き、 ス キャナはエラーで異常終了します。スキャナのルールの組に抜けが 無いかを確認する場合に有効です。

−t

lex.yy.c ではなく、標準出力にスキャナを書き出します。

−v

生成するスキャナの特徴の要約を 標準エラー出力に出力するよう に flex に指示します。ほとんどの特徴は通常の flex ユーザには意 味がありませんが、最初の行は flex のバージョンを表示し( −V で表 示されるもと同じです)、次の行はデフォルトを含むスキャナ生成時の フラグです。

−w

警告メッセージを抑制します。

−B

対話的なスキャナ (以下の −I の項を参照) ではなく バッチ的な ス キャナを生成するよう flex に指示します。通常 −B を使用するの は、スキャナを対話的に使用しないことが 分かっている時であり、 少 しでも性能を追求したい時です。より大きい性能を追求する場合に は、 −Cf もしくは −CF オプションを使用すべきです(後述)。 −B を 自動的に設定します。

−F

高速なスキャナテーブルの表現を使う(標準入出力はバイパスす る)ことを指定します。この表現は、完全テーブル表現 (-f) とほぼ同 じ ぐらい高速で、ある種のパターンに対してはかなり小さく (ある種 に対しては大きく) なります。通常、次のように、パターン の 組 が "keywords" とその対応および "identifier" ルールからなる場合:

"case" return TOK_CASE;
"switch" return TOK_SWITCH;
...
"default" return TOK_DEFAULT;
[a-z]+ return TOK_ID;

こ の 場 合、 完 全 テー ブ ル 表現を使用する方が良いです。もし "identifier" ルールからのみ表現され、キーワードを検知するために ハッシュ表等を使用する場合は、 -F を使用する方が良いです。

こ の オ プションは −CFr と等価です (以下を参照)。これは −+ オプ ションとは同時に指定できません。

−I

flex に 対話的なスキャナを生成するように指示します。対話 的 な スキャナは、先読みすることによりマッチするトークンが完全に決 まる場合のみ先読みします。現在のトークンが既に明らかな場合で も 常 に 先 読みする方法は、必要時のみ先読みする方法より少し速いで す。しかし、常に先読みする方法では対話性能に著しく悪影響があ り ます; 例えばユーザが改行を入力した場合、 別のトークンを入力する までそれは改行として認識されません。大概の場合、次の行全体を 入 力することになります。

flex のスキャナのデフォルトは 対話的であり、例外は −Cf−CF と いったテーブル圧縮オプション(後述)使用時です。高性能追求時にはこ れらのオプションを使用しているべきですので、これらのオプションを 使用していない場合には、 flex は実行時性能を少し犠牲にして直観的 な 対 話的な振舞いを取っているものとします。 −I オプションを −Cf−CF と共に 使用できないことにも注意して下さい。実際はこのオプ ションは不要です; 許される場合、デフォルトで有効になっています。

isatty() がスキャナの入力に対して偽を返す場合、 −I が指定され て い た場合でも、flex はバッチモードへ戻ります。なにがあっても対話 モードを強制するには、 %option always-interactive (後述 の オ プ ションを参照) を使用します。

ス キャ ナ を対話的で 無いように強制するには −B (先述)を使用しま す。

−L

flex#line ディレクティブを lex.yy.c 中に生成しないよ う に指示します。デフォルトではこの #line ディレクティブを生成する ので、アクションにおけるエラーメッセージは、オリジナル の flex 入力ファイル( エラーが入力ファイルのコードに起因する場合)もしく はファイル lex.yy.c ( flex の誤り -- 以下の電子メールアドレスに 報告して下さい) における正しい位置を与えます。

−T

flex を トレースモードで実行します。入力の形式とその結果と して出力される非決定性/決定性有限オートマトンに関して 標 準 エ ラー 出 力 に多量のメッセージを出力します。このオプションは主に flex をメンテナンスするために使われます。

−V

バージョン番号を 標準出力に出力して終了しま す。 −−version−V と同じです。

−7

7 ビットのスキャナを生成します。すなわち、入力に 7 ビットの 文字のみを使用することを意味します。 −7 を指定する利点 は、 −8 オ プション(後述)を指定して生成するテーブルの半分まで小さくなり うることです。欠点は、入力に 8 ビット文字が含まれている時に、ス キャナがハングもしくはクラッシュすることです。

しかしながら、 −Cf−CF といったテーブル圧縮オプション使用時に はテーブル圧縮の効果は少なく、移植性が著しく低下することに注意し て 下さい。 flex のデフォルトの動作では、 −Cf−CF, を指定しな い限り 8 ビットスキャナを生成します。指定時には、あなたのサイ ト が 常に 8 ビットスキャナを生成するように (USA 以外のサイトでは良 くあります)していない場合には、 7 ビットスキャナを生成し ま す。 flex が 7 ビットもしくは 8 ビットのいずれのスキャナを生成するの かを知りたい場合には、上述の −v の出力のフラグの要約を調べて下さ い。

−Cfe もしくは −CFe (これらのテーブル圧縮オプションおよび等価クラ スは後述) を使用しても、flex はデフォルトで 8 ビットスキャナを生 成 することに注意して下さい。なぜなら、完全な 8 ビットテーブルは 7 ビットテーブルと比べてもたいして高価にはならないからです。

−8

8 ビットのスキャナを生成するように flex に指示します。す な わち 8 ビット文字を解釈します。圧縮オプション −Cf−CF 使用時 にのみ必要です。なぜなら flex はデフォルトでは 8 ビットスキャナ を生成するからです。

flex のデフォルト動作と 7 ビットおよび 8 ビットスキャナのトレー ドオフに関しては、上記 −7 の議論を見て下さい。

−+

C++ のスキャナクラスを生成します。詳しくは C++ スキャナの生 成で後述します。

−C[aefFmr]

テー ブ ル 圧縮の程度と、より一般的には小さいスキャナと高速なス キャナとのトレードオフを指定します。

−Ca ("アライン") 生成されるスキャナのテーブルは、メモリアクセ ス および計算のためにアラインされるため、より大きなものになります。 RISC アーキテクチャではロングワードのフェッチおよび操作は ショー ト ワー ドといったより小さな大きさのものに対するものより効率的で す。場合によってはスキャナのテーブルサイズが通常の 2倍になること もあります。

−Ce 等価クラス (同一の字句属性を持つ文字セット)を構築します (例 えば、 flex 入力中に数字が現れるのが文字クラス "[0-9]" のみの 場 合、 数字 ’0’, ’1’, ..., ’9’ は全て同じ等価クラスになります)。多 くの場合、等価クラスを用いることで最終的なテーブル/ オブジェクト ファイルのサイズを劇的(平均して 1/2-1/5)に減らすことが出来ます。 また、その際の性能コストは非常に低く抑えられます ( 1文字スキャン するごとに 1回の配列検索を行うだけです)。

−Cf 完全(full) スキャナテーブルを生成することを指示します - flex は、別の状態に関する類似した遷移関数をうまく利用するという、テー ブル圧縮手法を用いません。

−CF 別の高速スキャナ表現( −F フラグにて記述)を用いることを指定し ます。このオプションは −+ と同時に使用できません。

−Cm flex に メタ等価クラスを構築するよう指示します。メタ等価クラ スは一緒に使われることの多い等価クラス (等価クラスが使われていな いときには文字群) の集合です。圧縮テーブルを使っているとき、メタ 等価クラスは多くの場合にかなりの効果的をもたらしますが、やや性能 に影響します (1-2 回の条件テストと 1 回の配列検索がスキャンし た 文字ごとに行われます)。

−Cr 生成されたスキャナは入力に対しては標準入出力ライブラリ(標準 入出力)を バイパスします。スキャナは、 fread()getc() では な く、 read() システムコールを使用します。性能改善結果はシステムに 依存します。オプション −Cf もしくは −CF を使用していない場 合 に は、 一般にこのオプションは性能をあまり改善しません。 −Cr を指定 すると、例えばスキャナを設定する前に標準入出力を使用して yyin を 読 み 取る等した場合奇妙な動作となり得ます (標準入出力の入力バッ ファに以前読み込んだものを、スキャナは読めません)。

−CrYY_INPUT を定義した場合意味がありません (前述の生成された ス キャ ナを参照)。スキャナの呼出に先だって標準入力を使って yyin から読みだしているときには、予想外の振る舞いをすることがあ り ま す。

−C のみを指定したときには、スキャナはテーブル圧縮は行いますが、 等価クラスもメタ等価クラスも使いません。

オプション −Cf−CF はオプション −Cm を同時に指定しても意味 を な しません - なぜなら、テーブル圧縮が行われないときメタ等価クラ スは現れないからです。それ以外のオプションは自由に組み合わせるこ とが出来ます。

デフォルトの設定は −Cem です。このとき flex は等価クラスとメタ等 価クラスを生成します。この設定は最も高いテーブル圧縮を行います。 テーブルサイズの大きさと実行の高速性はトレードオフの関係にあり、 一般に

    遅いが 小さい
          -Cem
          -Cm
          -Ce
          -C
          -C{f,F}e
          -C{f,F}
          -C{f,F}a
    速いが 大きい

となります。小さいテーブルのスキャナは通常生成もコンパイルも高速 であるため、通常の開発時は最大の圧縮を行うでしょう。

製品のスキャナでは、 −Cfe が速度と大きさの良いバランスです。

−ooutput

lex.yy.c ではなくファイル output にスキャナを書くように flex に 指示します。 −o−t オプションを組み合わせると、スキャナは 標 準出力に書かれますが、 #line ディレクティブ( −L にて上述)はファ イル output を参照します。

−Pprefix

flex の使うデフォルトのプレフィックス yy の代わりに prefix を使 い ま す。 これはグローバル変数とファイル名に影響します。例えば −Pfoo とすると、 yytext の名前は footext となります。またデフォ ルトの出力ファイル名を lex.yy.c から lex.foo.c に変えます。影響 を受ける名前の一覧です:

    yy_create_buffer
    yy_delete_buffer
    yy_flex_debug
    yy_init_buffer
    yy_flush_buffer
    yy_load_buffer_state
    yy_switch_to_buffer
    yyin
    yyleng
    yylex
    yylineno
    yyout
    yyrestart
    yytext
    yywrap

(C++ スキャナ使用時には yywrapyyFlexLexer だけが影響を受 け ま す。) スキャナの中では、グローバル変数および関数をどちらの名 前ででも参照できます; 外部的には修正した名前のみ持ちます。

このオプションを使用することにより、複数の flex プログラムを同一 の実行形式に容易にリンクすることが出来ます。しかし、このオプショ ンは yywrap() の名前をも変えますので、独自の(適切に名前を付けた) ルーチンをスキャナのために用意するか、 %option noyywrap を使用し て −ll とリンクする 必要があります。どれもデフォルトでは提供され ません。

−Sskeleton_file

flex がスキャナを構築するのに使うデフォルトのスケルトンファイル に優先します。 flex のメンテナンスや開発をする場合以外、この オ プションは必要ありません。

flex は、flex のコマンドラインではなく、スキャナ仕様記述中からオプショ ンを制御する機構を提供します。これはスキャナの最初の部分に %option ディ レクティブを含めることで実現できます。単一の %option ディレクティブにお いて複数のオプションを指定でき、また複数のディレクティブを flex 入 力 ファイルの最初の部分に置くことが出来ます。

ほ とんどのオプションが単純な名前であり、オプションとして前に "no" とい う語(空白をはさみません)を付けて意味を反転できます。数値は flex のフ ラ グやその反転と等価です。

    7bit            -7 オプション
    8bit            -8 オプション
    align           -Ca オプション
    backup          -b オプション
    batch           -B オプション
    c++             -+ オプション

   caseful または
    case-sensitive  -i オプションの逆(デフォルト)

   case-insensitive または
    caseless        -i オプション

   debug           -d オプション
    default         -s オプションの逆
    ecs             -Ce オプション
    fast            -F オプション
    full            -f オプション
    interactive     -I オプション
    lex-compat      -l オプション
    meta-ecs        -Cm オプション
    perf-report     -p オプション
    read            -Cr オプション
    stdout          -t オプション
    verbose         -v オプション
    warn            -w オプションの逆
                    (-w オプションには "%option nowarn" を使用して下さい)

   array           "%array" と等価
    pointer         "%pointer" と等価(デフォルト)

%option には、他では利用できない機能を提供するものもあります:

always-interactive

入 力を常に "対話的" に扱うスキャナを生成するように flex に指示 します。通常、新たな入力ファイル毎にスキャナは isatty() を呼 び 出 し、スキャナの入力元が対話的であり 1 度に 1 文字ずつ読むべき かどうか判定しようとします。一方このオプションを使用するとこ の 様な呼び出しは行いません。

main

ス キャナに対し、 yylex() を呼び出すだけのデフォルトの main() プログラムを提供するように指示します。このオプショ ン は noyywrap (後述)も暗黙的に指示します。

never-interactive

入 力を "対話的" とはしないスキャナを生成するように flex に指示 します (これもまた isatty() を 呼 び 出 し ま せ ん)。 こ れ は always-interactive の逆です。

stack

開始条件スタックの使用を有効にします(前述の開始条件を参 照)。

stdinit

設定されている場合 (すなわち %option stdinit) yyin および yyout を、 デ フォルトの nil ではなく、 標準入力と 標準出力に設定しま す。既存の lex プログラムには、 ANSI C 互換ではないものの、この 動 作に依存しているものがあります。 ANSI C では 標準入力と 標準 出力がコンパイル時の定数である必要はありません。

yylineno

入力から読み取った現在の行番号をグローバル変数 yylineno に保 持 す るスキャナを生成するように、 flex に指示します。このオプショ ンは %option lex-compat から暗黙的に指定されます。

yywrap

セットされていない場合 (すなわち %option noyywrap) 、ス キャ ナはファイルの終りに際し yywrap() を呼ばず単にスキャンすべ きファイルがもう無いものとするようになります( ユーザが yyin を 新 し い ファ イルを指すようにし、再度 yylex() を呼び出すまでで す)。

flex はルールアクションをスキャンし、 REJECTyymore() の機能が使われ て いるかどうかを調べます。 rejectyymore のオプションを使用すると、 オプションで指定した通りにこの判定に優先します。オプションの 指 定 は、 セッ トして機能を使用していることを示す(例えば %option reject) 、もしく はアンセットして機能を使用していないことを示す(例えば %option noyymore) ものとします。

次のオプションは文字列の値を取り、’=’ で区切ります:

    %option outfile="ABC"

これは -oABC と同じであり、

    %option prefix="XYZ"

-PXYZ と同じです。最後に、

    %option yyclass="foo"

は C++ スキャナ生成時のみ有効( −+ オプション)です。これは flex に対し て、 fooyyFlexLexer のサブクラスであることを知らせますの で、 flex は アクションを yyFlexLexer::yylex() ではなく foo::yylex() のメンバ関数 とします。また、( yyFlexLexer::LexerError() を起動することにより)呼び出 す と 実 行時エラーを除去する yyFlexLexer::yylex() メンバ関数を生成しま す。詳細は後述の C++ スキャナの生成を見て下さい。

生成されたスキャナから不要なルーチンを除きたい lint 純正主義者のため に 多 く の オ プ ショ ンが用意されています。以下をアンセットすると(例えば %option nounput )、対応するルーチンは生成されるスキャナから除かれます:

    input, unput
    yy_push_state, yy_pop_state, yy_top_state
    yy_scan_buffer, yy_scan_bytes, yy_scan_string

( yy_push_state() 等は %option stack を使用しない場合には現れません)。

性能関連

flex の主なデザインゴールは高性能なスキャナを生成することです。多 く の ルー ルセットを良く扱うことで最適化されます。既に概説した −C オプション 使用によるテーブル圧縮に起因する速度への影響の他に、性能を悪化させる 多 くのオプション/アクションがあります。それらを高価なものから安価なものへ と並べます:

    REJECT
    %option yylineno
    自由長の右文脈(trailing context)

   バックアップが必要なパターンの組
    %array
    %option interactive
    %option always-interactive

   ’^’ 行頭オペレータ
    yymore()

最初の 3 つは非常に高価であり、最後の 2 つは非常に安価です。 unput() は 潜 在的に非常に大きな仕事をするルーチン呼び出しとして実装されているのに 対し、 yyless() は非常に安価なマクロです; ですからスキャンした余分な テ キストを戻すだけの場合には yyless() を使って下さい。

性 能 が 重要な場合には、出来うる限りの努力でもって REJECT を避けて下さ い。これは特に高価なオプションです。

バックアップを取り除くと、乱雑になり、ひどく苦労して複雑なスキャナを 作 る ことになります。実際的には −b フラグを指定して lex.backup ファイルを 生成することから始めます。例えば、入力

    %%
    foo        return TOK_KEYWORD;
    foobar     return TOK_KEYWORD;

に対しては、ファイルは次のようになります:

    State #6 is non-accepting -
     associated rule line numbers:
           2       3
     out-transitions: [ o ]
     jam-transitions: EOF [ \001-n  p-\177 ]

   State #8 is non-accepting -
     associated rule line numbers:
           3
     out-transitions: [ a ]
     jam-transitions: EOF [ \001-‘  b-\177 ]

   State #9 is non-accepting -
     associated rule line numbers:
           3
     out-transitions: [ r ]
     jam-transitions: EOF [ \001-q  s-\177 ]

   Compressed tables always back up.

最初の数行は、 ’o’ に遷移できるが他の文字には遷移できない状態があり、そ の 状態では現在スキャンされたテキストは他のルールにはマッチしないことを 表します。この状態が発生したのは、入力ファイルの行 2, 3 のルールに マッ チしようとした時です。スキャナがこの様な状態にあり ’o’ 以外の文字を読ん だ場合には、マッチするルールを探すためのバックアップが必要となりま す。 少 し 考 えれば、これは "fo" を見た時にある状態に違いないことが分かるで しょう。この様な時、’o’ 以外のものが現れると、スキャナは、単に ’f’ に マッチする(デフォルトルール)ところまで戻り(バックアップし)ます。

状 態 #8 に関係するコメントは、 "foob" がスキャンされた時に問題があるこ とを表しています。実際、’a’ 以外の文字に出会うと、スキャナは "foo" を受 理 するところまで戻ります。同様に状態 #9 に関係するコメントは、 "fooba" がスキャンされ ’r’ が続かない場合に関係します。

最後のコメントが通知するのは、 −Cf−CF を使っているのでなければ バッ ク アップを取り除こうと努力することは無意味であることです。なぜなら、圧 縮されたスキャナに対してそのようなことをしても、性能上の利益は無いか ら です。

バックアップを取り除くためには "エラー" ルールを追加します:

    %%
    foo         return TOK_KEYWORD;
    foobar      return TOK_KEYWORD;

   fooba       |
    foob        |
    fo          {
                /* false alarm, not really a keyword */
                return TOK_ID;
                }

キーワードのリストからバックアップを取り除くには、"全てを捕まえる" ルー ルを使用することが出来ます:

    %%
    foo         return TOK_KEYWORD;
    foobar      return TOK_KEYWORD;

   [a-z]+      return TOK_ID;

通常、適切な時にはこれは一番良い解決策です。

バックアップメッセージはカスケードすることが多いです。複雑なルールの 組 で は、数百ものメッセージを得るのは普通のことです。しかし、これを解析す れば、バックアップを除去するためには大抵の場合数ダースのルールにだけ 関 係 あることが分かるでしょう (しかし、間違えることが多く、誤ったルールが 偶然有効なトークンにマッチし得ます。将来の flex の機能では、自 動 的 に バックアップを除去するルールを追加するようになるかも知れません)。

バックアップを除去することにより利益があるのは、 全てのバックアップを除 去した時だけということを覚えておくことは重要です。たった一つを残して も 何も得ることが出来ません。

可 変長の右文脈 (左部分と右部分のいずれかもしくは両方が可変長)は REJECT とほぼ同じだけの(すなわち相当の)性能劣化となります。そのため次のよう な ルール:

    %%
    mouse|rat/(cat|dog)   run();

は次のように書くか:

    %%
    mouse/cat|dog         run();
    rat/cat|dog           run();

次のように書いた方が良いです:

    %%
    mouse|rat/cat         run();
    mouse|rat/dog         run();

特 別な ’|’ アクションは助けにはなり ませんし、かえって状況を悪くします (後述の欠陥/バグを参照)。

スキャナの性能を向上させるための余地(実現は最も容易)は、マッチする トー ク ンが長ければスキャナが高速になることにあります。長いトークンではほと んどの入力処理は(短い)内部ループで処理され、アクションのためにスキャ ナ 環境を設定する追加の仕事(例えば yytext) をほとんどしないからです。 C コ メントのスキャナを思い出しましょう:

    %x comment
    %%
            int line_num = 1;

   "/*"         BEGIN(comment);

   <comment>[^*\n]*
    <comment>"*"+[^*/\n]*
    <comment>\n             ++line_num;
    <comment>"*"+"/"        BEGIN(INITIAL);

次のように書くと高速になります:

    %x comment
    %%
            int line_num = 1;

   "/*"         BEGIN(comment);

   <comment>[^*\n]*
    <comment>[^*\n]*\n      ++line_num;
    <comment>"*"+[^*/\n]*
    <comment>"*"+[^*/\n]*\n ++line_num;
    <comment>"*"+"/"        BEGIN(INITIAL);

今度は、改行毎に別のアクションの処理を行うのではなく、改行認識はルー ル 間 で " 分散" され、可能な限り長いテキストにマッチするようになっていま す。ルールの 追加はスキャナを遅く しません! スキャナの速度は、ルール数 と も、オペレータ ’*’ や ’|’ といったものに基づくルールの複雑さ (この節 の始めで扱いました)とも独立です。

最後の高速化の例です: 1 行に 1 つずつであり別の文字は付かないような、識 別 子とキーワードを全てファイルからスキャンすることを考えます。最初は次 のようになるでしょう:

    %%
    asm      |
    auto     |
    break    |
    ... etc ...
    volatile |
    while    /* it’s a keyword */

   .|\n     /* it’s not a keyword */

後戻りを避けるために全てを捕まえるルールを導入します:

    %%
    asm      |
    auto     |
    break    |
    ... etc ...
    volatile |
    while    /* it’s a keyword */

   [a-z]+   |
    .|\n     /* it’s not a keyword */

1 行に正確に 1 語だけあることが保証されている場合、改行の認識を別のトー クンと併せることで、マッチの総数を半分に減らすことが出来ます:

    %%
    asm\n    |
    auto\n   |
    break\n  |
    ... etc ...
    volatile\n |
    while\n  /* it’s a keyword */

   [a-z]+\n |
    .|\n     /* it’s not a keyword */

こ こで、再度バックアップをスキャナに組み込んだことに気を付けなければな りません。実際 我々は入力ストリームはレターと改行だけであることを知って い ますが、 flex はこれが分からないため、トークン "auto" などをスキャン した次の文字が改行でもレターでもない場合にはバックアップが必要である と 考 え ます。以前は "auto" ルールに適合しそれで終りでしたが、今は "auto" ルールは無く、"auto\n" ルールだけがあります。バックアップの可能性を除去 す るためには、最後の改行以外のルールを二重化するか、そのような入力に出 くわさないので分類は不要と分かっているため、改行を導入しないもう一つ の 全てを捕まえるルールを導入することが出来ます:

    %%
    asm\n    |
    auto\n   |
    break\n  |
    ... etc ...
    volatile\n |
    while\n  /* it’s a keyword */

   [a-z]+\n |
    [a-z]+   |
    .|\n     /* it’s not a keyword */

−Cf を付けてコンパイルすると、実際問題上 flex で得られるほぼ最速になり ます。

最後の注意事項: flex は NUL にマッチする時には遅く、トークンが 複 数 の NUL を含む時には特に遅いです。テキストがしばしば NUL を含むものと予想さ れる場合には、テキストの 短い部分とマッチするようにルールを書くべ き で す。

も う一つの性能に関する最終注意事項: 入力のマッチ方法の節で既に示したよ うに、大きなトークンを納めるために yytext のサイズを動的に変更すると 処 理 が遅くなります。なぜなら、(巨大な)トークンを再度先頭からスキャンしな おさねばならないからです。性能が重要な場合、テキストの "大きな" 部分 に マッ チさせるべきですが "巨大な" 部分にマッチさせるべきではありません。 両者の堺目は 8K 文字/トークンです。

C++ スキャナの生成

flex は 2 通りの C++ スキャナ生成方法を提供します。最初の方法は flex が 生 成したスキャナを単に C コンパイラではなく C++ コンパイラでコンパイル するというものです。この場合コンパイルエラーには出会わないはずです ( 見 付けた場合には作者の節で後述する電子メールアドレスに報告して下さい)。こ の場合ルールにおいて C コードではなく C++ コードを書くことが出来ま す。 ス キャナのデフォルトの入力元は yyin のままであり、デフォルトのエコー先 は yyout のままであることに注意して下さい。どちらも FILE * 変数のままで あり、C++ streams ではないです。

flex に C++ スキャナクラスを生成させることも出来ます。 −+ オプションを 指定する(もしくは等価的に %option c++ を使う)とこのように 実 行 さ れ、 flex の実行形式名が ’+’ で終っている場合には自動的に指定されます。この オプションを指定すると flex が生成するスキャナのデフォルトは ファ イ ル lex.yy.cc となり lex.yy.c ではありません。生成されたスキャナは 2 つの C++ クラスとのインタフェースを定義するヘッダファイル FlexLexer.h をイン クルードします。

最初のクラス FlexLexer は一般的なスキャナクラスを定義する抽象基盤クラス を提供します。以下のメンバ関数を提供します:

const char* YYText()

最後にマッチしたテキストを返します。 yytext と等価です。

int YYLeng()

最後にマッチしたトークンの長さを返します。 yyleng と等価です。

int lineno() const

現在の入力の行番号( %option yylineno 参照) も し く は %option yylineno を使用していない場合には 1 を返します。

void set_debug( int flag )

スキャナのデバッグフラグをセットします。 yy_flex_debug に代入す るのと同じです(オプションの節で前述)。スキャナ構築時に %option debug を使用してデバッグ情報を組み込む必要があることに注意して 下さい。

int debug() const

現在のデバッグフラグの設定を返します。

また次のものと等価なメンバ関数も提供さ れ ま す yy_switch_to_buffer(), yy_create_buffer() ( 最 初の引数は istream* オブジェクトポインタであり FILE* で は あ り ま せ ん), yy_flush_buffer(), yy_delete_buffer(), yyrestart() ( こ れ もまた最初の引数は istream* オブジェクトポインタで す)。

2 番目のクラスは FlexLexer.h で定 義 さ れ る yyFlexLexer で あ り、 FlexLexer から導出したものです。以下の追加のメンバ関数を定義します:

yyFlexLexer( istream* arg_yyin = 0, ostream* arg_yyout = 0 )

与えられた入出力ストリームを使う yyFlexLexer オブジェクトを構築 します。指定しない場合にはそれぞれストリームのデフォルト cincout になります。

virtual int yylex()

これは yylex() が通常の flex スキャナに対して行ったのと同様の役 割を担います: ルールのアクションが値を返すまで、入力ストリー ム をスキャンし、トークンを消費します。 yyFlexLexer からサブクラス S を導出し yylex() から S のメンバ関数および変数をアクセスし た い 場合、 %option yyclass="S" を指定して yyFlexLexer ではなくサ ブクラスを使用することを flex に知らせる必要があります。この 場 合 yyFlexLexer::yylex() を 生 成 す る の ではなく、 flexS::yylex() (および呼び出されたなら yyFlexLexer::LexerError() を 呼び出すダミーの yyFlexLexer::yylex() も)を生成します。

virtual void switch_streams(istream* new_in = 0,

ostream* new_out = 0) yyinnew_in (非ニルの場合) に再割当 し、 yyoutnew_out (同様)に再割当します。 yyin が再割当さ れ た場合には以前の入力バッファは消去されます。

int yylex( istream* new_in, ostream* new_out = 0 )

まず入力ストリームを switch_streams( new_in, new_out ) を使用し て切り替え、 yylex() の値を返します。

さらに、 yyFlexLexer は次のプロテクトされた仮想関数を定義します。スキャ ナにあわせてこれらを導出クラスにおいて再定義出来ます:

virtual int LexerInput( char* buf, int max_size )

最大 max_size 文字を buf に読み込み、読めた文字数を返します。入 力の終りを示すには 0 文字を返します。"対話的" スキャナ( −B−I フラグを参照)はマクロ YY_INTERACTIVE を定義することに注意し て下さい。 LexerInput() を再定義し、対話的な入力元をスキャン す る 可能性があるかどうかに依存して異なるアクションが必要となる場 合、この名前が存在するかどうかのテストは #ifdef にて可能です。

virtual void LexerOutput( const char* buf, int size )

size 文字をバッファ buf から書き出します。スキャナの ルー ル が NUL を含むテキストにマッチ可能な場合、 NUL 終端されているこの バッファは "内部に" NUL を含んでいても構いません。

virtual void LexerError( const char* msg )

致命的なエラーメッセージを報告します。デフォルトのこの 関 数 は メッセージをストリーム cerr に書き、終了します。

yyFlexLexer オブジェクトは 全てのスキャン時の状態を含むことに注意して下 さい。それゆえこの様なオブジェクトをリエントラントなスキャナとして使 用 できます。同一の yyFlexLexer クラスの複数のインスタンスを具体化可能であ り、複数の C++ スキャナクラスを組み合わせ上記 −P オプションを使用するこ とで同一のプログラムで使用可能です。

最後に %array 機能は C++ スキャナクラスでは使用できないことに注意して下 さい; %pointer を使用しなければなりません(デフォルト)。

単純な C++ スキャナの例を以下に示します:

        // An example of using the flex C++ scanner class.

   %{
    int mylineno = 0;
    %}

   string  \"[^\n"]+\"

   ws      [ \t]+

   alpha   [A-Za-z]
    dig     [0-9]
    name    ({alpha}|{dig}|\$)({alpha}|{dig}|[_.\-/$])*
    num1    [-+]?{dig}+\.?([eE][-+]?{dig}+)?
    num2    [-+]?{dig}*\.{dig}+([eE][-+]?{dig}+)?
    number  {num1}|{num2}

   %%

   {ws}    /* skip blanks and tabs */

   "/*"    {
            int c;

           while((c = yyinput()) != 0)
                {
                if(c == ’\n’)
                    ++mylineno;

               else if(c == ’*’)
                    {
                    if((c = yyinput()) == ’/’)
                        break;
                    else
                        unput(c);
                    }
                }
            }

   {number}  cout << "number " << YYText() << ’\n’;

   \n        mylineno++;

   {name}    cout << "name " << YYText() << ’\n’;

   {string}  cout << "string " << YYText() << ’\n’;

   %%

   int main( int /* argc */, char** /* argv */ )
        {
        FlexLexer* lexer = new yyFlexLexer;
        while(lexer->yylex() != 0)
            ;
        return 0;
        }

複数の(異なった)字句解析クラスを生成したい場合、 −P フラグ (も し く は prefix= オプション) を使用して各 yyFlexLexerxxFlexLexer 等の別の名 前にします。次に字句解析クラスのソースごとに <FlexLexer.h> をインクルー ドします。以下のように yyFlexLexer をリネームします:

    #undef yyFlexLexer
    #define yyFlexLexer xxFlexLexer
    #include <FlexLexer.h>

   #undef yyFlexLexer
    #define yyFlexLexer zzFlexLexer
    #include <FlexLexer.h>

こ れ は あ るスキャナに対し %option prefix="xx" を使用しもう一方に対し %option prefix="zz" を使用した場合です。

重要: 現在のスキャンクラスの形式は 実験的であり、メジャーリリースが変わ ると大きく変更される可能性があります。

LEX および POSIX との非互換性

flex は AT&T Unix の lex ツールのリライトですが(2 つの実装はいかなる コードも共有しません)、いくばくかの拡張と非互換性を持っており、どちらの 実 装 で も受理可能なスキャナを書きたい方はこれを意識しなければなりませ ん。 flex は POSIX lex 仕様に完全合致しますが、例外は %pointer (デ フォ ル ト)使用と unput() 呼び出しにより yytext の内容を破壊することであり、 これは POSIX 仕様に反します。

この節では、 flex と AT&T lex と POSIX 仕様との間の全ての既知の非互換性 を扱います。

flex−l オプションはオリジナルの AT&T lex 実装との最大の互換性を有効 にしますが、生成されたスキャナの性能は大きく低下します。 −l オプショ ン を使用しても発生しうる非互換性は後で述べます。

flex は以下の例外を除き lex と完全互換です:

-

ド キュ メ ン トに記載されていない lex スキャナ内部の変数 yylineno−l もしくは %option yylineno を使用しないとサポート されません。

yylineno はスキャナ毎(単一のグローバル変数)ではなく、バッファ毎 に管理されるべきです。

yylineno は POSIX 仕様ではありません。

-

input() ルーチンは再定義できませんが、ルールにマッチしたもの に後続する文字を読むために呼ばれえます。 input() がファイルの終 りに到達すると、通常の yywrap() 処理は終了します。‘‘ 実 際 の’’ ファイルの終りは EOF として返されます。

実際には入力は YY_INPUT マクロを定義することにより制御されます。

input() を再定義できないという flex の制限は、最初に yyin を設定 する以外のスキャナ入力制御方法を単に規定していないという、 POSIX 仕様と合致します。

-

unput() ルーチンは再定義できません。この制限は POSIX に合 致 しています。

-

flex スキャナは lex スキャナとは異なりリエントラントではあり ません。実際、対話的なスキャナにおいて、割り込みハンドラにて ロ ン グジャンプを用いてスキャナから脱出し、その後スキャナを再度呼 び出す場合、以下のメッセージを得るでしょう:

fatal flex scanner internal error--end of buffer missed

スキャナに再度入るためには、まず以下のようにして下さい

    yyrestart( yyin );

この呼び出しにより入力バッファは捨てられることに注意して下さい; 通常これは対話的スキャナでは問題ではありません。

ま た、C++ スキャナクラスはリエントラント ですので、C++ を使用で きるのなら、C++ を使用すべきです。前述の "C++ スキャナの生成" を 参照して下さい。

-

output() はサポートされていません。 ECHO マクロからの出力は ファイルポインタ yyout (デフォルトでは 標準出力 )に対して行われ ます。

output() は POSIX 仕様にはありません。

-

lex は排他的開始条件 (%x) をサポートしませんが、これは POSIX 仕様にあります。

-

定義を展開する時、 flex では括弧で括ります。 lex では以下は:

NAME [A-Z][A-Z0-9]*
%%
foo{NAME}? printf( "Found it\n" );
%%

文字列 "foo" にはマッチしません。なぜなら展開されたマクロはルー ル "foo[A-Z][A-Z0-9]*?" と等価になり、 優 先 度 に て ‘?’ は "[A-Z0-9]*" と 結 び 付きます。 flex ではルールが展開されると "foo([A-Z][A-Z0-9]*)?" となり、文字列 "foo" がマッチします。

^ で始まるか $ で終る定義は、展開時に括弧で括らず、これらのオ ペ レータが定義において特別な意味を失わないようにすることに注意して 下さい。しかし <s>, /, <<EOF>> オペレータは flex の定義では使 用 できません。

−l を使用すると、 lex の振舞いと同じく定義を括弧で括りません。

POSIX 仕様では、定義を括弧で括ります。

-

lex の実装によっては、ルールのパターンの右側に空白がある場 合、ルールのアクションを別の行から始めることを許します:

%%
foo|bar<space here>
{ foobar_action(); }

flex はこの機能をサポートしません。

-

lex%r (Ratfor スキャナの生成)オプションはサポートされ て いません。これは POSIX 仕様には含まれません。

-

スキャナを %array を使用して構築したのではない限り、 unput() 呼び出し後には、次のトークンにマッチするまで yytext は未定義 で す。 こ れ は lex にも POSIX 仕様にも当てはまりません。 −l オプ ションを指定するとこの非互換性を取り除きます。

-

{} (数値範囲)オペレータの優先度が 異 な り ま す。 lex は "abc{1,3}" を "1 度か 2 度か 3 度の ’abc’ にマッチ" と解釈しま すが、 flex は "’ab’ に 1 度か 2 度か 3 度の ’c’ が続くも の に マッチ" と解釈します。後者が POSIX 仕様に合致します。

-

^ オペレータの優先度が異なります。 lex は "^foo|bar" を "行 頭の ’foo’ か任意位置の ’bar’ にマッチ" と解釈します が、 flex は "行頭の ’foo’ か ’bar’ にマッチ" と解釈します。後者が POSIX 仕様に合致します。

-

lex でサポートされている %a 等の特別なテーブルサイズの宣言は flex スキャナでは不要です; flex はこれらを無視します。

-

flexlex のどちらでもスキャナを使用可能に書けるように、 FLEX_SCANNER という名前を定義します。スキャナを生成した flex の バージョンを表す YY_FLEX_MAJOR_VERSIONYY_FLEX_MINOR_VERSION を、スキャナは含みます (例えば 2.5 リリースではこれらはそれぞれ 2 と 5 になります)。

以下の flex の機能は lex および POSIX 仕様には含まれません:

    C++ スキャナ
    %option
    開始条件スコープ
    開始条件スタック
    対話的/非対話的スキャナ
    yy_scan_string() 等
    yyterminate()
    yy_set_interactive()
    yy_set_bol()
    YY_AT_BOL()
    <<EOF>>
    <*>
    YY_DECL
    YY_START
    YY_USER_ACTION
    YY_USER_INIT
    #line ディレクティブ
    アクションの周りの %{}
    単一行における複数のアクション

さ らにほぼ全ての flex フラグです。リストの最後の機能の意味は、 flex で は複数のアクションをセミコロンで区切って同一行に記述可能ですが、 lex で は次の

    foo    handle_foo(); ++num_foos_seen;

は (驚くべきことに) 次のように切り詰められるということです。

    foo    handle_foo();

flex はアクションを切り詰めません。ブレースで括られないアクションは単純 に行末で終了します。

診断

warning, rule cannot be matched 常に同じテキストにマッチするルールが 前 にあるので、与えられたルールがマッチしません。例えば以下の "foo" は "全 てを捕まえる" ルールの後ろにありますので決してマッチしません:

    [a-z]+    got_identifier();
    foo       got_foo();

スキャナ中で REJECT を使用するとこの警告を抑制します。

warning, −s option given but default rule can be matched (おそらくあ る 特 定 の開始条件のもとでは) デフォルトルール (任意の一文字にマッチする) しか特定の入力に対してはマッチしないことがあります。 −s を指定してい る ので、おそらくそうなりません。

reject_used_but_not_detected undefined あ る い は yymore_used_but_not_detected undefined - これらのエラーは コンパイル 時 に 起 きます。スキャナが REJECT もしくは yymore() を使っていますが flex がそのことに気づかなかったということです。つまり、 flex は最初の 2 つの 部 分を探してもこれらのアクションの出現を見つけられなかったのですが、実 際には何らかの方法 (例えば #include ファイルを介して)でこれらが記述され て い た、 と い うことです。 %option reject%option yymore を使用し て、flex にこれらの機能を実際に使用していることを教えて下さい。

flex scanner jammed - −s でコンパイルされたスキャナが、どのルール に も マッ チしない入力文字列に遭遇しました。内部的な問題に起因してこのエラー が起こることもあります。

token too large, exceeds YYLMAX - スキャナが %array を使ってい る 場 合 に、あるルールが定数 YYLMAX (デフォルトで 8K バイト) より大きな文字列と マッチしました。 flex の入力ファイルの定義部で YYLMAX を #define するこ とで値を大きくできます。

scanner requires −8 flag to use the character ’x’ - スキャナの記述に 8 ビットの文字 ’x’ を識別する部分があり、 −Cf もしくは −CF のテーブル圧縮 オ プションのためにデフォルトの 7 ビットになっているにもかかわらず、 −8 オプションをつけていないということです。詳細は −7 フラグのオプション の 議論を参照して下さい。

flex scanner push-back overflow - unput() でテキストを戻しすぎたため、 スキャナのバッファは戻したテキストと現トークンを yytext に保てませ ん。 こ の 場 合、理想的にはスキャナが動的にバッファの大きさを変えるべきです が、現在のところそうなってはいません。

input buffer overflow, can’t enlarge buffer because scanner uses REJECT - スキャナは非常に大きなトークンのマッチを調べていて、入力バッファを拡 張する必要が起きました。しかしながら、バッファの拡張は REJECT を使う ス キャナでは働きません。

fatal flex scanner internal error--end of buffer missed - スキャナが使 用しているフレームから(を越えて)ロングジャンプした後、再度ス キャ ナ に 入った場合に起こります。再度スキャナに入る前に:

    yyrestart( yyin );

を使うか、前述のように C++ スキャナクラスを使用するようにして下さい。

too many start conditions in <> construct! - 存在するより多くの開始条件 を <> 中に記載しました (少なくとも一つを二度記載しました)。

関連ファイル

−ll

スキャナがリンクしなければならないライブラリ。

lex.yy.c

生成されたスキャナ(システムによっては lexyy.c という名前にな り ます)。

lex.yy.cc

-+ を使った時に作成された C++ スキャナクラス。

<FlexLexer.h>

C++ スキャナベースクラス FlexLexer とその導出クラス yyFlexLexer を定義するヘッダファイル。

flex.skl

スケルトンスキャナ。このファイルは flex の実行時ではな く、flex を構築する時のみ利用されます。

lex.backup

−b フラグ用のバックアップ情報(システムによっては lex.bck という 名前になります)。

欠陥 / バグ

右文脈(trailing context)パターンの中には、正しくマッチせず警告メッ セー ジ ("dangerous trailing context") を出すものがあります。これらのパター ンは、ルールの最初の部分が 2番目の頭の部分とマッチするようなもので す。 例 え ば "zx*/xy*" の 場合、’x*’ は右文脈の頭の ’x’ とマッチします。 (POSIX ドラフトではそのようなパターンにマッチするテキストは未定義である と述べていることに注意して下さい。)

右 文 脈 の中には、実際には固定長であるのにそうとは解釈されないものがあ り、上に述べた性能の低下が起こります。特に、 ’|’ や {n} ( 例 え ば "foo{3}") は常に可変長であると解釈されます。

右 文脈と特別なアクション ’|’ を組み合わせると 固定の右文脈がよりコスト のかかる 可変の右文脈となります。例えば、次のようなものです:

    %%
    abc      |
    xyz/def

%array もしくは −l オプションを指定しない場合、 unput() を使うと yytext と yyleng を破壊します。

NUL のパターンマッチングは他の文字の比較よりかなり遅くなっています。

入 力バッファの動的な大きさの再調整は時間がかかります。これは現トークン (一般に巨大)までのマッチした全テキストの再スキャンを伴うためです。

入力のバッファリングと先読みのため、 <stdio.h> ルーチンと混合して使うこ とが出来ません。例えば、 getchar()flex のルールはうまく行きません。 代わりに input() を使って下さい。

−v オプションで表示される全テーブルエントリには、どのルールがマッチした の かを決定するのに必要なテーブルエントリ数が含まれていません。エントリ の数はスキャナが REJECT を使っていないときには DFA 状態数に等しく、使っ ているときには DFA 状態数よりいくらか大きくなります。

REJECT がオプション −f もしくは −F とともに使えません。

flex の内部アルゴリズムについてのドキュメントが必要です。

関連項目

lex(1), yacc(1), sed(1), awk(1)

John Levine, Tony Mason, and Doug Brown, Lex & Yacc, O’Reilly and Associates. 第 2 版を入手すること。

M. E. Lesk and E. Schmidt, LEX − Lexical Analyzer Generator

Alfred Aho, Ravi Sethi and Jeffrey Ullman, Compilers: Principles, Techniques and Tools, Addison-Wesley (1986). flex で使用しているパター ンマッチング技法を解説している(決定性オートマトン)。

作者

Vern Paxson が多くのアイディアとインスピレーションを得 る 助 け を Van Jacobson から受けました。オリジナルバージョンは Jef Poskanzer が作成し ました。高速テーブル表現は Van Jacobson のデザインの部分実装です。こ の 実装は Kevin Gong と Vern Paxson が行いました。

多 く の flex ベー タ テスタ、フィードバッカ、コントリビュータ、特に Francois Pinard, Casey Leedom, Robert Abramovitz, Stan Adermann, Terry Allen, David Barker-Plummer, John Basrai, Neal Becker, Nelson H.F. Beebe, benson@odi.com, Karl Berry, Peter A. Bigot, Simon Blanchard, Keith Bostic, Frederic Brehm, Ian Brockbank, Kin Cho, Nick Christopher, Brian Clapper, J.T. Conklin, Jason Coughlin, Bill Cox, Nick Cropper, Dave Curtis, Scott David Daniels, Chris G. Demetriou, Theo Deraadt, Mike Donahue, Chuck Doucette, Tom Epperly, Leo Eskin, Chris Faylor, Chris Flatters, Jon Forrest, Jeffrey Friedl, Joe Gayda, Kaveh R. Ghazi, Wolfgang Glunz, Eric Goldman, Christopher M. Gould, Ulrich Grepel, Peer Griebel, Jan Hajic, Charles Hemphill, NORO Hideo, Jarkko Hietaniemi, Scott Hofmann, Jeff Honig, Dana Hudes, Eric Hughes, John Interrante, Ceriel Jacobs, Michal Jaegermann, Sakari Jalovaara, Jeffrey R. Jones, Henry Juengst, Klaus Kaempf, Jonathan I. Kamens, Terrence O Kane, Amir Katz, ken@ken.hilco.com, Kevin B. Kenny, Steve Kirsch, Winfried Koenig, Marq Kole, Ronald Lamprecht, Greg Lee, Rohan Lenard, Craig Leres, John Levine, Steve Liddle, David Loffredo, Mike Long, Mohamed el Lozy, Brian Madsen, Malte, Joe Marshall, Bengt Martensson, Chris Metcalf, Luke Mewburn, Jim Meyering, R. Alexander Milowski, Erik Naggum, G.T. Nicol, Landon Noll, James Nordby, Marc Nozell, Richard Ohnemus, Karsten Pahnke, Sven Panne, Roland Pesch, Walter Pelissero, Gaumond Pierre, Esmond Pitt, Jef Poskanzer, Joe Rahmeh, Jarmo Raiha, Frederic Raimbault, Pat Rankin, Rick Richardson, Kevin Rodgers, Kai Uwe Rommel, Jim Roskind, Alberto Santini, Andreas Scherer, Darrell Schiebel, Raf Schietekat, Doug Schmidt, Philippe Schnoebelen, Andreas Schwab, Larry Schwimmer, Alex Siegel, Eckehard Stolz, Jan-Erik Strvmquist, Mike Stump, Paul Stuart, Dave Tallman, Ian Lance Taylor, Chris Thewalt, Richard M. Timoney, Jodi Tsai, Paul Tuinenga, Gary Weik, Frank Whaley, Gerhard Wilhelms, Kent Williams, Ken Yap, Ron Zellar, Nathan Zelle, David Zuhn, および私の最低のメールアーカイブ能力から滑り落ちた方々、 そ れらの方々の協力にも同様に感謝します。

Keith Bostic, Jon Forrest, Noah Friedman, John Gilmore, Craig Leres, John Levine, Bob Mulcahy, G.T. Nicol, Francois Pinard, Rich Salz, Richard Stallman には多くの悩みの分散に関して感謝します。

Esmond Pitt と Earle Horton には 8 ビット文字サポートに関して; Benson Margulies と Fred Burke には C++ サポートに関して; Kent Williams と Tom Epperly には C++ クラスサポートに関して; Ove Ewerlid には NUL のサポー トに関して; Eric Hughes には複数バッファのサポートに関して、それぞれ 感 謝します。

この作品は当初、私が CA Berkeley の Lawrence Berkeley Laboratory におけ る Real Time Systems Group にいた時に作成されました。私に協力してくれた 方々に感謝します。

コメントは vern@ee.lbl.gov に送って下さい。

スポンサーリンク