解説 ツールの短い概説 簡単な例 入力ファイルのフォーマット パターン flex が使用する拡張した正規表現 入力のマッチ方法 何がマッチするかを決定する規則 アクション パターンがマッチした時に何を行うかを指定する方法 生成されたスキャナ flex が生成するスキャナに関する詳細; 入力元の制御方法 開始条件 スキャナへの文脈の導入と、 "ミニスキャナ" の制御方法 複数の入力バッファ 複数の入力元を扱う方法; ファイルではなく文字列からスキャンする方法 ファイルの終りのルール ファイルの終りにマッチする特別なルール 雑多なマクロ アクションで使用可能なマクロのまとめ ユーザが使用可能な値 アクションで使用可能な値のまとめ Yacc とのインタフェース lex スキャナと yacc パーサとの結合 オプション flex のコマンドラインオプションと、 "%option" ディレクティブ 性能関連 スキャナを可能な限り高速にする方法 C++ スキャナの生成 C++ スキャナクラス生成のための (実験的な) 機能 Lex および POSIX との非互換性 AT&T lex および POSIX lex 標準と flex との違い 診断 flex (もしくは生成したスキャナ) が出力する エラーメッセージで意味が明確でないもの 関連ファイル flex が使用するファイル 欠陥 / バグ flex の既知の問題 関連項目 ツールに関係する他のドキュメント 作者 連絡方法を含みます
%% username printf( "%s", getlogin() );デフォルトでは、 flex スキャナにマッチしなかったテキストは出力にコピーされますので、 "username" を展開しながら入力を出力にコピーすることが このスキャナの最終的な結果となります。 この入力にはただ一つのルールだけがあります。 "username" は パターン であり、"printf" は アクション です。 "%%" はルールの始まりの印です。
別の例を見てみましょう:
%{ int num_lines = 0, num_chars = 0; %} %% \n ++num_lines; ++num_chars; . ++num_chars; %% main() { yylex(); printf( "# of lines = %d, # of chars = %d\n", num_lines, num_chars ); }このスキャナは入力の文字数および行数を数えます (数えた最終結果を報告するだけです)。 最初の行は 2 つの大域変数 "num_lines" と "num_chars" を宣言します。 これらの変数は、2 番目の "%%" の後に宣言されている yylex() と main() のルーチンからアクセス可能です。 ここには 2 つのルールがあります。 1 つ目は改行文字 ("\n") にマッチし、行数と文字数のカウントを増加させます。 もう 1 つは、改行文字以外の全ての文字 ("." という正規表現で表されています)にマッチします。
次はもうちょっと複雑な例です:
/* scanner for a toy Pascal-like language */ %{ /* need this for the call to atof() below */ #include <math.h> %} DIGIT [0-9] ID [a-z][a-z0-9]* %% {DIGIT}+ { printf( "An integer: %s (%d)\n", yytext, atoi( yytext ) ); } {DIGIT}+"."{DIGIT}* { printf( "A float: %s (%g)\n", yytext, atof( yytext ) ); } if|then|begin|end|procedure|function { printf( "A keyword: %s\n", yytext ); } {ID} printf( "An identifier: %s\n", yytext ); "+"|"-"|"*"|"/" printf( "An operator: %s\n", yytext ); "{"[^}\n]*"}" /* eat up one-line comments */ [ \t\n]+ /* eat up whitespace */ . printf( "Unrecognized character: %s\n", yytext ); %% main( argc, argv ) int argc; char **argv; { ++argv, --argc; /* skip over program name */ if ( argc > 0 ) yyin = fopen( argv[0], "r" ); else yyin = stdin; yylex(); }これは Pascal のような言語の単純なスキャナの原型です。 異なったタイプの トークン を定義し、これを見付けると報告します。
定義 %% ルール %% ユーザコード定義 部分は、スキャナの宣言を単純化する単純な 名前 の定義の宣言と、後で説明する 開始条件 の宣言とからなります。
名前の定義は次の形式です:
名前 定義"名前" は語であり、 レターかアンダスコア ('_') から始まって 0 個以上のレター・数字・'_'・'-' (ダッシュ)が続きます。 定義は、名前に続く最初の非空白文字から始まり、行末まで続くものとされます。 定義は後で "{名前}" で参照でき、"(定義)" を展開します。 例えば、
DIGIT [0-9] ID [a-z][a-z0-9]*は、 "DIGIT" が単一の数字にマッチする正規表現であると定義し、 "ID" がレターに 0 個以上のレターか数字が続く正規表現であると定義します。 後で出て来る参照
{DIGIT}+"."{DIGIT}*は
([0-9])+"."([0-9])*と同じであり、1 個以上の数字に '.' が続き、 0 個以上の数字が続くものにマッチします。
flex の入力の ルール は次の形式の一連のルールからなります:
パターン アクションここで、パターンはインデントされていてはならず、 アクションは同じ行から始まる必要があります。
パターンとアクションの詳細は後の解説を見て下さい。
最後に、ユーザコードの部分は単純にそのままの形で lex.yy.c にコピーされます。 スキャナを呼び出すまたは呼び出される付随ルーチンのために使用されます。 この部分はあっても無くても構いません; 無い場合には、入力ファイル中の 2 番目の %% も省略できます。
定義とルールの部分では、 インデントされた テキストと %{ と %} との間のテキストはそのままの形で出力にコピーされます (この際 %{} は削除されます)。 %{} はインデントされていない行に現れる必要があります。
ルールの部分では、 最初のルールの前に現れるインデントされたもしくは %{} 部分のテキストは、 スキャンルーチンにローカルな変数と、 (宣言の後では)スキャンルーチンに入るたびに実行されるコードとを宣言します。 ルール部分の他のインデントされたもしくは %{} 部分のテキストは 出力にコピーされますが、 意味はちゃんと定義されておらずコンパイル時にエラーとなるかも知れません (この仕様は POSIX 互換のためにあります; 他のこのような仕様は以降を見て下さい)。
定義の部分(ルールの部分ではないです)では、 インデントされていないコメント("/*" から始まる行) は次の "*/" まで そのままの形でコピーされます。
x 文字 'x' にマッチ。 . 改行を除く全ての文字(バイト)。 [xyz] "文字クラス"; この場合、'x', 'y', 'z' のいずれにも マッチします。 [abj-oZ] 範囲指定を含む "文字クラス"; この場合、'a', 'b' と 'j' から 'o' までの任意のレターと 'Z' にマッチします。 [^A-Z] "否定文字クラス"; クラスに含まれない任意の文字に マッチします。 この場合、'A' から 'Z' までの大文字 「以外の」文字にマッチします。 [^A-Z\n] 大文字と改行を「除く」全ての文字。 r* 0 もしくはそれ以上の r。r は任意の正規表現。 r+ 1 もしくはそれ以上の r。 r? 0 もしくは 1つの r (「おまけ」の r) r{2,5} 2 つから 5つまでの r。 r{2,} 2 つ以上の r。 r{4} ちょうど 4つ の r。 {名前} "名前" の定義の展開。 (上を参照) "[xyz]\"foo" 文字列 [xyz]"foo \X X が 'a', 'b', 'f', 'n', 'r', 't', 'v' のいずれかの とき、ANSI-C での \X の解釈となります。 それ以外の場合、文字 'X' ('*' のようなオペレータの 意味を打ち消し、その文字自体を指定する際に使います)。 \123 8進数で 123 と表される文字。 \x2a 16進数で 2a と表される文字。 (r) r にマッチ; ()は 優先順位を変えるために使用。 (以下を参照) rs 正規表現 r に正規表現 s が続く; 「連結(concatenation)」 と呼びます。 r|s r もしくは s。 r/s 後ろに s が続く時の r。 s にマッチするテキストはこのルールの "最長適合" を判定する 時には含まれますが、アクションが実行される前に 入力に戻されます。 アクションは r にマッチするテキストだけを見ます。 このパターンは "右文脈(trailing context)" と呼ばれます。 (flex が正確にマッチ不能な r/s の組合せは複数あります; "危険な右文脈" については、 以降の、欠陥 / バグ の節の記述を見て下さい。) ^r 行頭にある r。(スキャンの始まりもしくは スキャンされた改行の右です)。 r$ 行末にある r。"r/\n" と等価(改行の前です)。 "r/\n" と同じです。 flex の "改行" の表現は flex をコンパイルした C コンパイラが解釈する '\n' と完全に一致することに 注意して下さい; 特定のシステム DOS では \r を入力から取り除くか "r$" を表すために明示的に r/\r\n を使用する必要があります。 <s>r 開始条件 s における r。(開始条件については以下を 参照)。 <s1,s2,s3>r 上に同じ。ただし開始条件は s1, s2, s3 のいずれでもよい。 <*>r 任意の開始条件の r。開始条件は排他的なものでもよい。 <<EOF>> ファイルの終了。 <s1,s2><<EOF>> 開始条件が s1 もしくは s2 であるときのファイルの終了。文字クラス中では、全ての正規表現のオペレータは、 エスケープ ('\') および 文字クラスオペレータである '-' と ']' とクラスの先頭の '^' を除き 特別な意味を失うことに注意して下さい。
上に挙げた正規表現は優先順位によってグループに分けられています。 一番上のグループが最も高い優先度で、 一番下のグループの優先順位が最も低くなっています。 グループ内では同じ優先順位です。例えば、
foo|bar*は
(foo)|(ba(r*))と同じです。なぜなら '*' オペレータは連結より優先度が高く、 連結は選言 ('|') より優先度が高いからです。このパターンは 文字列 "foo" もしくは 文字列 "ba" に 0 個以上の r がつづくものの どちらにも マッチします。 "foo" もしくは 0 個以上の "bar" にマッチさせるためには次の表現を使用して下さい:
foo|(bar)*0 個以上の "foo" または "bar" にマッチするためには次の表現を使用して下さい:
(foo|bar)*
文字もしくは文字範囲に加え、文字クラスも文字クラスの 表現 を含みます。 これらの表現は [: および :] のデリミタに囲まれます (文字クラスの '[' と ']' との間に現れる必要があります; 他の要素が文字クラス中に現れても構いません)。 有効な表現は以下の通りです:
[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]これらの表現は対応する標準 C の isXXX 関数に適合する全ての文字集合を指示します。例えば、 [:alnum:] は isalnum() が真を返す文字を指示します - すなわちすべてのアルファベットと数字です。 isblank(), が無いシステムでは、flex は [:blank:] を空白とタブと定義します。
例えば以下の表現は全て同じです:
[[:alnum:]] [[:alpha:][:digit:]] [[:alpha:]0-9] [a-zA-Z0-9]スキャナが大文字小文字を意識しない場合( -i フラグ指定時) [:upper:] と [:lower:] は [:alpha:] と同じです。
パターンに関する注意点です:
foo/bar$ <sc1>foo<sc2>bar前者は "foo/bar\n" と書けます。
foo|(bar$) foo|^bar"foo" もしくは "改行が続く bar" を指定したい場合は、 次の表現を使用して下さい (特別な '|' の動作は後で説明します):
foo | bar$ /* action goes here */同じ方法で、foo もしくは 行頭の bar を指定可能です。
マッチが決定すると、マッチに対応するテキスト( トークン と呼ばれます)がグローバル文字ポインタ yytext により使用可能となり、長さがグローバル整数 yyleng により使用可能となります。 その後、マッチしたパターンに対応する アクション が実行され(アクションの詳細な記述は後で行います)、 残りの入力が残りのマッチのためにスキャンされます。
マッチが見付からないと、 デフォルトルール が実行されます: 入力の次の文字がマッチしたと見なされ、 標準出力にコピーされます。最も簡単で正当な flex の入力は以下の通りです:
%%これは、入力を単純に出力にコピー(1 度に 1 文字ずつ)するスキャナを生成します。
yytext は 2 つの異なった方法により定義されうることに注意して下さい: 文字 ポインタ もしくは文字 配列 です。 flex がどちらの定義を使用するかは特別なディレクティブ %pointer もしくは %array を flex の入力の最初の(定義)部分に含めることにより制御できます。 デフォルトは %pointer であり、 -l lex 互換オプションを使用した場合には例外的に yytext は配列になります。 %pointer を使用する利点はスキャンが高速であること、 非常に大きなトークンにマッチする時にも (動的メモリを使用し尽くさない限り)バッファオーバフローとならないことです。 欠点は、アクションが yytext を修正することが制限されること(次節参照)、 unput() 呼び出しが yytext の現在の内容を破壊することです。 これは異なる lex バージョン間での移植性に関する頭痛の種です。
%array の利点は yytext の内容を思った通りに変更できること、 unput() を呼び出しても yytext の内容が破壊されないことです(下記参照)。 その上、既存の lex プログラムは yytext を外部から次の形式の宣言を使用してアクセスしていることがあります:
extern char yytext[];この定義は %pointer 使用時には誤りですが、 %array 使用時には正しいです。
%array は yytext を文字数 YYLMAX (デフォルトは十分大きな値)の配列であると定義します。 この大きさは、 flex の入力の最初の部分で単純に YYLMAX を異なった値に #define することにより変更できます。 上記の通り、 %pointer 使用時には yytext は大きなトークンを格納するために動的に大きくなります。 このことは %pointer を使用したスキャナは非常に大きなトークン (例えばコメントブロック全体)を格納可能であることを意味しますが、 スキャナが yytext の大きさを変えるたびにトークン全体を先頭から再スキャンすることが必要となるため このようなトークンに対するマッチングは遅くなりうることを覚えておいて下さい。 現在、 yytext は unput() が結果として返すテキストが大きい時には動的には大きくなり ません; 実行時エラーとなります。
また、 %array は C++ スキャナクラスでは使用できないことに注意して下さい( c++ オプションに関しては下記参照)。
%% "zap me"(入力の他の全ての文字を出力にコピーします。 なぜならデフォルトルールにマッチするからです。)
次は、複数の空白や文字を単一の空白に圧縮し行末の空白を捨てるプログラムです:
%% [ \t]+ putchar( ' ' ); [ \t]+$ /* ignore this token */
アクションが '{' を含む場合、アクションは対応する '}' まで続き、 複数行に渡る場合もあります。 flex は C の文字列およびコメントに関して知っており、 それらの中のブレースを誤解することはありませんが、 アクションが %{ で始まることを許し、次の %} までのテキストがアクションであるとします (アクション内部の任意個のブレースには関係ありません)。
垂直バー ('|') のみからなるアクションは "次のルールと同じ" を意味します。説明は以下を見て下さい。
アクションは任意の C コードを含むことが出来ます。 これには、 yylex() を呼び出したルーチンに対して値を返す return 文も含まれます。 yylex() が呼ばれるたび、最後に残ったトークンから処理を再開し、 ファイルの終了もしくは return を実行するまで処理を行います。
アクションは自由に yytext を変更できますが、例外は長さを増やすことです (文字を末尾に加えることになり、 これは入力ストリームの後続する文字を上書きします)。 これは %array 使用時には当てはまりません(上述); この場合 yytext を自由に変更できます。
アクションは自由に yyleng を変更できますが、アクションが yymore() を使用する時には例外的に変更してはいけません(後述)。
多くの特別なディレクティブがあり、アクション中に含めることが出来ます:
int word_count = 0; %% frob special(); REJECT; [^ \t\n]+ ++word_count;REJECT が無い場合、 入力中の "frob" は語として数えられず、 スキャナは通常通りトークン毎に 1 つのアクションだけを行います。 複数の REJECT を使用可能であり、それぞれ現在有効なルールの次に良い選択を見付けます。 例えば次のスキャナは、"abcd" というトークンをスキャンし、 出力に "abcdabcaba" を書きます:
%% a | ab | abc | abcd ECHO; REJECT; .|\n /* eat up any unmatched character */(前の 3 つのルールは 4 番目のルールのアクションを共有します。 なぜなら特別な '|' アクションが使用されているからです。) REJECT はスキャナの性能という点で特にコストのかかる機能です; もしスキャナのアクションの いずれか にでも REJECT が使われたなら、スキャナの 全ての マッチング速度を低下させるということです。 さらに REJECT をオプション -Cf や -CF と共に用いることは出来ません。
%% mega- ECHO; yymore(); kludge ECHO;最初の "mega-" はマッチし出力にエコーされます。 次に "kludge" がマッチしますが、直前の "mega-" がまだ yytext の先頭に残っており、"kludge" の ECHO ルールは実際には "mage-kludge" を書きます。
yymore() の使用に関し 2 つの注意点があります。 まず、 yymore() は現在のトークンの大きさを反映する yyleng の値の正確さに依存することであり、 yymore() 使用時には yyleng を変更してはなりません。 次に、 スキャナのアクションに yymore() があると、スキャナのマッチ速度に若干悪影響があります。
%% foobar ECHO; yyless(3); [a-z]+ ECHO;引数 0 を yyless に与えると、現在の入力文字列全体が再度スキャンされます。 (例えば BEGIN を使用して)次にスキャナが入力する方法を変更していないと、無限ループとなります。
yyless はマクロであり、flex 入力ファイルでのみ使用可能であり、 別のソースファイルからは使用不能であることに注意して下さい。
{ int i; /* Copy yytext because unput() trashes yytext */ char *yycopy = strdup( yytext ); unput( ')' ); for ( i = yyleng - 1; i >= 0; --i ) unput( yycopy[i] ); unput( '(' ); free( yycopy ); }unput() は文字を入力ストリームの 先頭 に戻すので、文字列を戻す場合には後ろから前に向かって戻す必要があります。
unput() 使用時の重要な潜在的な問題は、 %pointer 使用時(デフォルト)に unput() を呼び出すと、 右端の文字から開始し 1 文字ずつ左に向かって消費され、 yytext の内容が 破壊 されることです。 (上記例のように) unput() 呼び出し後も yytext の内容を保存するためには、始めに別の場所にコピーするか、 スキャナを %array を使うように構築することです(入力のマッチ方法参照)。
最後に、 EOF を戻して入力ストリームにファイルの終りをマークするとは 出来ないことに注意して下さい。
%% "/*" { register int c; for ( ; ; ) { while ( (c = input()) != '*' && c != EOF ) ; /* eat up text of comment */ if ( c == '*' ) { while ( (c = input()) == '*' ) ; if ( c == '/' ) break; /* found the end */ } if ( c == EOF ) { error( "EOF in comment" ); break; } } }(スキャナが C++ でコンパイルされたときは、このルーチンは yyinput() という名称になり、 C++ ストリームの input と名前が衝突することを避けます。)
int yylex() { ... various definitions and the actions in here ... }(環境が関数プロトタイプをサポートしている場合、 "int yylex( void )" となります。) この定義は "YY_DECL" マクロを定義することにより変更できます。 例えば次のように使用することが出来ます:
#define YY_DECL float lexscan( a, b ) float a, b;これはスキャンルーチンの名前を lexscan とし、浮動小数点数を返すようにし、2 つの浮動小数点数を引数とします。 K&R の非プロトタイプの関数宣言を使用してスキャンルーチンに対して引数を 与える場合、定義をセミコロン(;)で終了する必要があります。
yylex() は呼ばれるたび、グローバル入力ファイル yyin (デフォルトでは標準入力)からトークンをスキャンします。 ファイルの終りになる(この場合 0 を返します)か、 アクションが return 文を実行するまで、実行を続けます。
スキャナがファイルの終りに到達すると、 yyin が新たなファイルを指さないか (新たなファイルを指す場合はこのファイルのスキャンを続けます)、 yyrestart() が呼ばれない限り、 後続する呼び出しは未定義です。 yyrestart() は FILE * ポインタ( YY_INPUT を設定して yyin 以外のソースをスキャンするようにした場合には nil も可です) である引数を 1 つとり、そのファイルからのスキャンのために yyin を初期化します。 本質的に、 yyin を新しい入力ファイルに割り当てることと yyrestar() を使用することとは同じです; 後者は前のバージョンの flex との互換性のために使用可能であり、 またスキャンの途中で入力ファイルを変えることが可能です。 引数を yyin として呼び出すことにより、現在の入力バッファを捨てることも出来ます; ただし、 YY_FLUSH_BUFFER (上述)を使用する方が良いです。 yyrestart() は INITIAL の開始条件を変更し ない ことに注意して下さい (後述の開始条件参照)。
あるアクション中で return 文を実行することにより yylex() がスキャンを止めた場合、スキャナは再度呼び出し可能であり、 この場合スキャンの残りの部分から再開します。
デフォルトで(効率のため)、スキャナは単純な getc() コールではなくブロックリードを行い、 yyin から文字を読みます。 入力取得方法は YY_INPUT マクロを定義することにより制御できます。 YY_INPUT 呼び出し手順は "YY_INPUT(buf,result,max_size)" です。 このアクションは、 buf 文字配列中に最大 max_size 文字を用意し、整数変数 result 中に読めた文字数もしくは定数 YY_NULL (Unix システムでは 0)を入れて返します。 デフォルトの YY_INPUT はグローバルファイルポインタ "yyin" から読みます。
YY_INPUT のサンプル定義です(入力ファイルの定義部に格納):
%{ #define YY_INPUT(buf,result,max_size) \ { \ int c = getchar(); \ result = (c == EOF) ? YY_NULL : (buf[0] = c, 1); \ } %}この定義により、入力処理は 1 度に 1 文字ずつ行うように変更されます。
スキャナが YY_INPUT からファイルの終りを通知された場合、 スキャナは yywrap() 関数をチェックします。 yywrap() 関数が偽(0)を返す場合、関数は続行中であるとされ、 yyin を別の入力ファイルを指すように設定し、スキャンを続行します。 関数が真(非0)を返す場合、スキャナは終了し、呼び出し元に 0 を返します。 どちらの場合も開始条件は変化しないことに注意して下さい; つまり INITIAL には戻り ません。
独自の yywrap() を設定しない場合、 %option noyywrap (この場合スキャナは yywrap() が 1 を返したかのように動作します)を使用するか、フラグ -ll を指定してデフォルトのルーチン(常に 1 を返します)を使用しなければなりません。
ファイルではなくメモリ中のバッファからスキャンするための 3 つのルーチンを 使用可能です: yy_scan_string(), yy_scan_bytes(), yy_scan_buffer() 。 これらに関する議論は複数の入力バッファの節を参照して下さい。
スキャナは、自己の ECHO 出力を yyout グローバル(デフォルトでは標準出力であり、 別の FILE ポインタに割り当てることで再定義できます)に書きます。
<STRING>[^"]* { /* eat up the string body ... */ ... }はスキャナが "STRING" 開始条件にいる時のみ有効であり、
<INITIAL,STRING,QUOTE>\. { /* handle an escape ... */ ... }は現在の開始条件が、 "INITIAL", "STRING", "QUOTE" のいずれかの場合のみ有効です。
開始条件は、入力の定義(先頭)部において、インデントされない行で %s もしくは %x から始まり名前が続く行において宣言されます。 前者は 内包的 開始条件を、 後者は 排他的 開始条件を、それぞれ宣言します。 開始条件を有効にするのは BEGIN アクションです。 次の BEGIN アクションが実行されるまで、与えられた開始条件のルールは有効であり、 他の開始条件のルールは無効です。 開始条件が 内包的 な場合、開始条件を持たないルールもまた有効です。 開始条件が 排他的 な場合、 開始条件を満たすルール だけ が有効です。 同じ排他開始条件に依存するルールの組は、 flex 入力中の別のルールとは独立なスキャナを記述します。 そのため、排他開始条件を使用すれば、"ミニスキャナ" (別部分とは文法的に異なる部分(例えばコメント)に対するスキャナ) を簡単に指定できます。
内包的開始条件と排他的開始条件とがまだ少し曖昧であるなら、 両者の関係を表す例を示して説明します。以下のルールの組:
%s example %% <example>foo do_something(); bar something_else();は
%x example %% <example>foo do_something(); <INITIAL,example>bar something_else();と等価です。 <INITIAL,example> が無いと、2 番目の例における bar パターンは、開始条件が example の場合、有効となりません(すなわちマッチしません)。 <example> だけを bar につけると、 example だけにおいて有効となり、 INITIAL では有効となりません。一方、最初の例ではどちらの場合でも有効です。 なぜなら最初の例では example 開始条件は 内包的 (%s) 開始条件だからです。
特殊な開始条件指定子 <*> は全ての開始条件にマッチすることに注意して下さい。 このため、上の例は次のようにも書けます;
%x example %% <example>foo do_something(); <*>bar something_else();
デフォルトルール(マッチしなかった文字に対しては ECHO です)は開始条件中でも有効です。 これは次のものと等価です:
<*>.|\n ECHO;
BEGIN(0) は、開始条件の無いルールだけが有効である、最初の状態に戻ります。 この状態は開始条件 "INITIAL" として参照できるため、 BEGIN(INITIAL) は BEGIN(0) と等価です。 (開始条件名を括る括弧は不要ですが、良いスタイルであるとされています。)
BEGIN アクションは、ルール部の先頭のインデントされたコード中に現れても良いです。 例えば以下の例では、 yylex() が呼ばれグローバル変数 enter_special が真の場合には、スキャナは "SPECIAL" 開始条件に入ります:
int enter_special; %x SPECIAL %% if ( enter_special ) BEGIN(SPECIAL); <SPECIAL>blahblahblah ...more rules follow...
開始条件を説明するために、 "123.456" のような文字列を 2 通りの異なった解釈をするスキャナを示します。 デフォルトではこれは、 整数 "123" とドット ('.') と整数 "456" の 3 トークンに数えられます。 しかし、この文字列の前に "expect-floats" の文字列がある場合、 これは単一のトークンであるとされ、浮動小数点数 123.456 とされます:
%{ #include <math.h> %} %s expect %% expect-floats BEGIN(expect); <expect>[0-9]+"."[0-9]+ { printf( "found a float, = %f\n", atof( yytext ) ); } <expect>\n { /* that's the end of the line, so * we need another "expect-number" * before we'll recognize any more * numbers */ BEGIN(INITIAL); } [0-9]+ { printf( "found an integer, = %d\n", atoi( yytext ) ); } "." printf( "found a dot\n" );次は、C のコメントを理解(して捨てる)一方で、 現在の入力行を数えるスキャナです。
%x comment %% int line_num = 1; "/*" BEGIN(comment); <comment>[^*\n]* /* eat anything that's not a '*' */ <comment>"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */ <comment>\n ++line_num; <comment>"*"+"/" BEGIN(INITIAL);このスキャナは各ルールで可能な最大のテキストにマッチしようとする場合、 ちょっとした問題が起こります。 一般的には、高速なスキャナを記述する場合、 各ルールで最大のマッチを得ようとすることが最も成功します。
開始条件名は実際には整数値であり、格納することが出来ることに注意して下さい。 そのため、上記例は以下のように拡張できます:
%x comment foo %% int line_num = 1; int comment_caller; "/*" { comment_caller = INITIAL; BEGIN(comment); } ... <foo>"/*" { comment_caller = foo; BEGIN(comment); } <comment>[^*\n]* /* eat anything that's not a '*' */ <comment>"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */ <comment>\n ++line_num; <comment>"*"+"/" BEGIN(comment_caller);さらに、現在の開始条件を整数値であるマクロ YY_START にてアクセスできます。 例えば、上記の comment_caller への代入は次のように記述できます。
comment_caller = YY_START;flex は YYSTATE を YY_START のエイリアスとして提供します (AT&T の lex が使用しています)。
開始条件は独自の名前空間を持たないことに注意して下さい; %s や %x の宣言における名前宣言の扱いは #define と同じです。
最後に、排他的開始条件を使用する、 展開されたエスケープシーケンスを含む(長すぎる文字列のチェックは含みません) C スタイルのクォート文字列へのマッチ方法を示します:
%x str %% char string_buf[MAX_STR_CONST]; char *string_buf_ptr; \" string_buf_ptr = string_buf; BEGIN(str); <str>\" { /* saw closing quote - all done */ BEGIN(INITIAL); *string_buf_ptr = '\0'; /* return string constant token type and * value to parser */ } <str>\n { /* error - unterminated string constant */ /* generate error message */ } <str>\\[0-7]{1,3} { /* octal escape sequence */ int result; (void) sscanf( yytext + 1, "%o", &result ); if ( result > 0xff ) /* error, constant is out-of-bounds */ *string_buf_ptr++ = result; } <str>\\[0-9]+ { /* generate error - bad escape sequence; something * like '\48' or '\0777777' */ } <str>\\n *string_buf_ptr++ = '\n'; <str>\\t *string_buf_ptr++ = '\t'; <str>\\r *string_buf_ptr++ = '\r'; <str>\\b *string_buf_ptr++ = '\b'; <str>\\f *string_buf_ptr++ = '\f'; <str>\\(.|\n) *string_buf_ptr++ = yytext[1]; <str>[^\\\n\"]+ { char *yptr = yytext; while ( *yptr ) *string_buf_ptr++ = *yptr++; }
上記例のように同一の開始条件を持つ全てのルールの前に 開始条件を書かねばならないことが多いです。 flex はこれを簡単かつ綺麗にするため開始条件 スコープ を導入しました。 開始条件スコープは次のように始まります:
<SCs>{ここで SCs は 1 つ以上の開始条件のリストです。 開始条件スコープ内では、 最初の '{' にマッチするまでの '}' において、全てのルールは自動的に <SCs> のプレフィックスが付きます。 そのため、例えば
<ESC>{ "\\n" return '\n'; "\\r" return '\r'; "\\f" return '\f'; "\\0" return '\0'; }は次のものと等価です:
<ESC>"\\n" return '\n'; <ESC>"\\r" return '\r'; <ESC>"\\f" return '\f'; <ESC>"\\0" return '\0';開始条件スコープはネストすることが出来ます。
開始条件のスタックを制御するために 3 つのルーチンを使用可能です:
開始条件スタックは動的に大きくなり、 また組み込み時のサイズ制限はありません。 メモリを使い切ると、プログラム実行は中止されます。
開始条件スタックを使用するためには、スキャナは %option stack ディレクティブをインクルードする必要があります (下記オプションを参照して下さい)。
この様な問題を解決するため、 flex は複数の入力バッファを生成して切り替える機構を提供します。 入力バッファは次のように生成されます:
YY_BUFFER_STATE yy_create_buffer( FILE *file, int size )これは FILE ポインタと size を取り、与えられる file に関連し size 文字を保持するに十分なバッファを生成します (疑わしい場合には size には YY_BUF_SIZE を使用して下さい)。 これは、別のルーチン(下記参照)に渡すための YY_BUFFER_STATE ハンドルを返します。 YY_BUFFER_STATE のタイプは struct yy_buffer_state 構造体へのポインタであるため、 安全のため YY_BUFFER_STATE 変数を ((YY_BUFFER_STATE) 0) と初期化することが出来、 スキャナではなくソースファイルにおいて 入力バッファを正しく宣言するためにこの構造体を参照することが出来ます。 yy_create_buffer 呼び出しにおける FILE ポインタは YY_INPUT から見える yyin の値と同じようにだけ使用されることに注意して下さい; YY_INPUT を再定義して yyin を使わないようにすることにより、 yy_create_buffer に対して安全にニル FILE ポインタを渡せます。 スキャンするバッファを選択するためには次のようにします:
void yy_switch_to_buffer( YY_BUFFER_STATE new_buffer )これはスキャナの入力バッファを切り替え、 トークンが new_buffer から来るようになります。 新たなファイルをオープンして yyin を指すのではなく、スキャンを継続するために yywrap() から yy_switch_to_buffer() を使用することがあることに注意して下さい。 また、 yy_switch_to_buffer() または yywrap() による入力元の切り替えは開始条件を変更し ない ことにも注意して下さい。
void yy_delete_buffer( YY_BUFFER_STATE buffer )はバッファに関連づけられたストレージの返還要求に使用します。( buffer はニルでも構いませんがこの場合このルーチンは何もしません。) 現在のバッファの内容をクリアするには次のようにします:
void yy_flush_buffer( YY_BUFFER_STATE buffer )この関数はバッファの内容を捨てるため、 次にスキャナがこのバッファとトークンのマッチを行う場合、 スキャナはまず YY_INPUT を使用してこのバッファをフィルします。
yy_new_buffer() は yy_create_buffer() のエイリアスであり、動的オブジェクトの生成と破壊のために使用する C++ の new と delete との互換性のために提供しています。
最後に YY_CURRENT_BUFFER マクロは、現在のバッファに対する YY_BUFFER_STATE ハンドルを返します。
この機能を使用してインクルードファイルを展開するスキャナの記述例です( <<EOF>> 機能は後述します):
/* the "incl" state is used for picking up the name * of an include file */ %x incl %{ #define MAX_INCLUDE_DEPTH 10 YY_BUFFER_STATE include_stack[MAX_INCLUDE_DEPTH]; int include_stack_ptr = 0; %} %% include BEGIN(incl); [a-z]+ ECHO; [^a-z\n]*\n? ECHO; <incl>[ \t]* /* eat the whitespace */ <incl>[^ \t\n]+ { /* got the include file name */ if ( include_stack_ptr >= MAX_INCLUDE_DEPTH ) { fprintf( stderr, "Includes nested too deeply" ); exit( 1 ); } include_stack[include_stack_ptr++] = YY_CURRENT_BUFFER; yyin = fopen( yytext, "r" ); if ( ! yyin ) error( ... ); yy_switch_to_buffer( yy_create_buffer( yyin, YY_BUF_SIZE ) ); BEGIN(INITIAL); } <<EOF>> { if ( --include_stack_ptr < 0 ) { yyterminate(); } else { yy_delete_buffer( YY_CURRENT_BUFFER ); yy_switch_to_buffer( include_stack[include_stack_ptr] ); } }ファイルではなくメモリ上の文字列をスキャンするための 入力バッファを設定するための 3 つのルーチンを使用可能です。 いずれも文字列をスキャンする新しい入力バッファを生成し、対応する YY_BUFFER_STATE ハンドル(終了時には yy_delete_buffer() にて消去します)を返します。新しいバッファに切り替える時には yy_switch_to_buffer() を使用し、次の yylex() の呼び出し時にはこの文字列をスキャン開始します。
どちらの関数も文字列もしくはバイト列の コピー を生成してからスキャンします。( yylex() はスキャンするバッファの内容を変更するため、これが望ましいのです。) コピーを避けるためには次のようにします:
<<EOF>> ルールを他のパターンと共に使用してはなりません; 他のパターンは開始条件のリストともにだけ満たされるからです。 満たされない <<EOF>> ルールが与えられた場合、 <<EOF>> アクションをまだ持っていない 全ての 開始条件に適用されます。 <<EOF>> ルールを最初の開始条件だけに指定するためには次のようにして下さい。
<INITIAL><<EOF>>
これらのルールは閉じていないコメントを捕まえる場合等に便利です。 例えば:
%x quote %% ...other rules for dealing with quotes... <quote><<EOF>> { error( "unterminated quote" ); yyterminate(); } <<EOF>> { if ( *++filelist ) yyin = fopen( *filelist, "r" ); else yyterminate(); }
#define YY_USER_ACTION ++ctr[yy_act]ここで ctr は配列であり、それぞれのルールがマッチした回数を計数します。 マクロ YY_NUM_RULES はルールの総数を表すため( -s を使った時でさえデフォルトルールを含みます)、 正しい ctr の宣言は次のようになります:
int ctr[YY_NUM_RULES];
マクロ YY_USER_INIT には最初のスキャンの前に常に行うアクションを再定義できます (スキャナの内部初期化の前に行われます)。 例えばデータ表を読み込んだり、ログファイルをオープンするために使用できます。
マクロ yy_set_interactive(is_interactive) は現在のバッファが 対話的 と見なされているか否かを制御するために使用します。 対話的なバッファの処理は遅くなりますが、 スキャナの入力元が対話的でありバッファをフィルするのを待つことに起因する 問題を避けるためには指定しなければなりません(以下の -I %option interactive フラグに関する議論を参照して下さい)。 マクロ起動時に非 0 を指定するとバッファは対話的になり、 0 を指定すると非対話的になります。 このマクロの使用は %option interactive , %option always-interactive , %option never-interactive に優先します(下記オプションを参照して下さい)。 バッファをスキャンして対話的である(もしくはでない)と判断される前に、 yy_set_interactive() を起動して下さい。
マクロ yy_set_bol(at_bol) は現在のバッファにおける次のトークンに対するマッチのためのスキャンが 行頭から始まるか否かを制御します。 非 0 のマクロ引数は、'^' が付いたルールを有効にしますが、 0 のマクロ引数は '^' が付いたルールを無効にします。
現在のバッファからスキャンされた次のトークンが有効な '^' ルールを持つ時、 マクロ YY_AT_BOL() は真を返します。 そうでない場合は偽を返します。
生成されたスキャナでは、全てのアクションは大きな一つの switch 文に 集められ、 YY_BREAK で分けられています。 YY_BREAK は再定義可能です。デフォルトではそれぞれのルールのアクションを 分けるための単なる "break" です。 YY_BREAK を再定義することにより、例えば C++ ユーザが #define YY_BREAK を何もしないように定義し (ただし全てのルールが "break" か "return" で終るように 注意しなければなりません!)、 ルールのアクションが "return" で終ることにより YY_BREAK がアクセスできないことに起因する、 到達できない文があるという警告を避けることが出来ます。
%{ #include "y.tab.h" %} %% [0-9]+ yylval = atoi( yytext ); return TOK_NUMBER;
--accepting rule at line 53 ("the matched text")行番号はスキャナを定義しているファイル (flexに与えられたファイル) でのルールの位置です。 スキャナがバックアップしたとき、デフォルトルールを受け入れたとき、 入力バッファの最後に到達したとき (あるいは、NULに到達したとき; スキャナには、この二つの区別はつきません)、ファイルの最後に到達した ときにもメッセージが出力されます。
"case" return TOK_CASE; "switch" return TOK_SWITCH; ... "default" return TOK_DEFAULT; [a-z]+ return TOK_ID;この場合、完全テーブル表現を使用する方が良いです。 もし "identifier" ルールからのみ表現され、 キーワードを検知するためにハッシュ表等を使用する場合は、 -F を使用する方が良いです。
遅いが 小さい -Cem -Cm -Ce -C -C{f,F}e -C{f,F} -C{f,F}a 速いが 大きいとなります。 小さいテーブルのスキャナは通常生成もコンパイルも高速であるため、 通常の開発時は最大の圧縮を行うでしょう。
yy_create_buffer yy_delete_buffer yy_flex_debug yy_init_buffer yy_flush_buffer yy_load_buffer_state yy_switch_to_buffer yyin yyleng yylex yylineno yyout yyrestart yytext yywrap(C++ スキャナ使用時には yywrap と yyFlexLexer だけが影響を受けます。) スキャナの中では、グローバル変数および関数を どちらの名前ででも参照できます; 外部的には修正した名前のみ持ちます。
flex は、flex のコマンドラインではなく、 スキャナ仕様記述中からオプションを制御する機構を提供します。 これはスキャナの最初の部分に %option ディレクティブを含めることで実現できます。 単一の %option ディレクティブにおいて複数のオプションを指定でき、 また複数のディレクティブを flex 入力ファイルの最初の部分に置くことが出来ます。
ほとんどのオプションが単純な名前であり、 オプションとして前に "no" という語(空白をはさみません)を付けて 意味を反転できます。 数値は flex のフラグやその反転と等価です。
7bit -7 オプション 8bit -8 オプション align -Ca オプション backup -b オプション batch -B オプション c++ -+ オプション caseful または case-sensitive -i オプションの逆(デフォルト) case-insensitive または caseless -i オプション debug -d オプション default -s オプションの逆 ecs -Ce オプション fast -F オプション full -f オプション interactive -I オプション lex-compat -l オプション meta-ecs -Cm オプション perf-report -p オプション read -Cr オプション stdout -t オプション verbose -v オプション warn -w オプションの逆 (-w オプションには "%option nowarn" を使用して下さい) array "%array" と等価 pointer "%pointer" と等価(デフォルト)%option には、他では利用できない機能を提供するものもあります:
flex はルールアクションをスキャンし、 REJECT と yymore() の機能が使われているかどうかを調べます。 reject と yymore のオプションを使用すると、 オプションで指定した通りにこの判定に優先します。 オプションの指定は、セットして機能を使用していることを示す(例えば %option reject) 、もしくはアンセットして機能を使用していないことを示す(例えば %option noyymore) ものとします。
次のオプションは文字列の値を取り、'=' で区切ります:
%option outfile="ABC"これは -oABC と同じであり、
%option prefix="XYZ"は -PXYZ と同じです。 最後に、
%option yyclass="foo"は C++ スキャナ生成時のみ有効( -+ オプション)です。これは flex に対して、 foo が yyFlexLexer のサブクラスであることを知らせますので、 flex はアクションを yyFlexLexer::yylex() ではなく foo::yylex() のメンバ関数とします。 また、( yyFlexLexer::LexerError() を起動することにより)呼び出すと実行時エラーを除去する yyFlexLexer::yylex() メンバ関数を生成します。 詳細は後述の C++ スキャナの生成を見て下さい。
生成されたスキャナから不要なルーチンを除きたい lint 純正主義者のために 多くのオプションが用意されています。 以下をアンセットすると(例えば %option nounput )、対応するルーチンは生成されるスキャナから除かれます:
input, unput yy_push_state, yy_pop_state, yy_top_state yy_scan_buffer, yy_scan_bytes, yy_scan_string( yy_push_state() 等は %option stack を使用しない場合には現れません)。
REJECT %option yylineno 自由長の右文脈(trailing context) バックアップが必要なパターンの組 %array %option interactive %option always-interactive '^' 行頭オペレータ yymore()最初の 3 つは非常に高価であり、最後の 2 つは非常に安価です。 unput() は潜在的に非常に大きな仕事をするルーチン呼び出しとして実装されているのに対し、 yyless() は非常に安価なマクロです; ですからスキャンした余分なテキストを戻すだけの場合には yyless() を使って下さい。
性能が重要な場合には、出来うる限りの努力でもって REJECT を避けて下さい。 これは特に高価なオプションです。
バックアップを取り除くと、乱雑になり、 ひどく苦労して複雑なスキャナを作ることになります。 実際的には -b フラグを指定して lex.backup ファイルを生成することから始めます。例えば、入力
%% foo return TOK_KEYWORD; foobar return TOK_KEYWORD;に対しては、ファイルは次のようになります:
State #6 is non-accepting - associated rule line numbers: 2 3 out-transitions: [ o ] jam-transitions: EOF [ \001-n p-\177 ] State #8 is non-accepting - associated rule line numbers: 3 out-transitions: [ a ] jam-transitions: EOF [ \001-` b-\177 ] State #9 is non-accepting - associated rule line numbers: 3 out-transitions: [ r ] jam-transitions: EOF [ \001-q s-\177 ] Compressed tables always back up.最初の数行は、 'o' に遷移できるが他の文字には遷移できない状態があり、 その状態では現在スキャンされたテキストは他のルールにはマッチしないことを 表します。 この状態が発生したのは、 入力ファイルの行 2, 3 のルールにマッチしようとした時です。 スキャナがこの様な状態にあり 'o' 以外の文字を読んだ場合には、 マッチするルールを探すためのバックアップが必要となります。 少し考えれば、これは "fo" を見た時にある状態に違いないことが分かるでしょう。 この様な時、'o' 以外のものが現れると、 スキャナは、単に 'f' にマッチする(デフォルトルール)ところまで 戻り(バックアップし)ます。
状態 #8 に関係するコメントは、 "foob" がスキャンされた時に問題があることを表しています。 実際、'a' 以外の文字に出会うと、スキャナは "foo" を受理するところまで戻ります。 同様に状態 #9 に関係するコメントは、 "fooba" がスキャンされ 'r' が続かない場合に関係します。
最後のコメントが通知するのは、 -Cf や -CF を使っているのでなければ バックアップを取り除こうと努力することは無意味であることです。 なぜなら、圧縮されたスキャナに対してそのようなことをしても、 性能上の利益は無いからです。
バックアップを取り除くためには "エラー" ルールを追加します:
%% foo return TOK_KEYWORD; foobar return TOK_KEYWORD; fooba | foob | fo { /* false alarm, not really a keyword */ return TOK_ID; }
キーワードのリストからバックアップを取り除くには、"全てを捕まえる" ルールを使用することが出来ます:
%% foo return TOK_KEYWORD; foobar return TOK_KEYWORD; [a-z]+ return TOK_ID;通常、適切な時にはこれは一番良い解決策です。
バックアップメッセージはカスケードすることが多いです。 複雑なルールの組では、数百ものメッセージを得るのは普通のことです。 しかし、これを解析すれば、バックアップを除去するためには 大抵の場合数ダースのルールにだけ関係あることが分かるでしょう (しかし、間違えることが多く、誤ったルールが偶然有効なトークンにマッチし得ます。 将来の flex の機能では、 自動的にバックアップを除去するルールを追加するようになるかも知れません)。
バックアップを除去することにより利益があるのは、 全ての バックアップを除去した時だけということを覚えておくことは重要です。 たった一つを残しても何も得ることが出来ません。
可変長の 右文脈 (左部分と右部分のいずれかもしくは両方が可変長)は REJECT とほぼ同じだけの(すなわち相当の)性能劣化となります。 そのため次のようなルール:
%% mouse|rat/(cat|dog) run();は次のように書くか:
%% mouse/cat|dog run(); rat/cat|dog run();次のように書いた方が良いです:
%% mouse|rat/cat run(); mouse|rat/dog run();特別な '|' アクションは助けにはなり ません し、かえって状況を悪くします (後述の欠陥/バグを参照)。
スキャナの性能を向上させるための余地(実現は最も容易)は、 マッチするトークンが長ければスキャナが高速になることにあります。 長いトークンではほとんどの入力処理は(短い)内部ループで処理され、 アクションのためにスキャナ環境を設定する追加の仕事(例えば yytext) をほとんどしないからです。 C コメントのスキャナを思い出しましょう:
%x comment %% int line_num = 1; "/*" BEGIN(comment); <comment>[^*\n]* <comment>"*"+[^*/\n]* <comment>\n ++line_num; <comment>"*"+"/" BEGIN(INITIAL);次のように書くと高速になります:
%x comment %% int line_num = 1; "/*" BEGIN(comment); <comment>[^*\n]* <comment>[^*\n]*\n ++line_num; <comment>"*"+[^*/\n]* <comment>"*"+[^*/\n]*\n ++line_num; <comment>"*"+"/" BEGIN(INITIAL);今度は、改行毎に別のアクションの処理を行うのではなく、 改行認識はルール間で "分散" され、 可能な限り長いテキストにマッチするようになっています。 ルールの 追加 はスキャナを遅く しません! スキャナの速度は、ルール数とも、 オペレータ '*' や '|' といったものに基づくルールの複雑さ (この節の始めで扱いました)とも独立です。
最後の高速化の例です: 1 行に 1 つずつであり別の文字は付かないような、 識別子とキーワードを全てファイルからスキャンすることを考えます。 最初は次のようになるでしょう:
%% asm | auto | break | ... etc ... volatile | while /* it's a keyword */ .|\n /* it's not a keyword */後戻りを避けるために全てを捕まえるルールを導入します:
%% asm | auto | break | ... etc ... volatile | while /* it's a keyword */ [a-z]+ | .|\n /* it's not a keyword */1 行に正確に 1 語だけあることが保証されている場合、 改行の認識を別のトークンと併せることで、 マッチの総数を半分に減らすことが出来ます:
%% asm\n | auto\n | break\n | ... etc ... volatile\n | while\n /* it's a keyword */ [a-z]+\n | .|\n /* it's not a keyword */ここで、再度バックアップをスキャナに組み込んだことに 気を付けなければなりません。 実際 我々は 入力ストリームはレターと改行だけであることを知っていますが、 flex はこれが分からないため、 トークン "auto" などをスキャンした次の文字が改行でもレターでもない場合には バックアップが必要であると考えます。 以前は "auto" ルールに適合しそれで終りでしたが、 今は "auto" ルールは無く、"auto\n" ルールだけがあります。 バックアップの可能性を除去するためには、 最後の改行以外のルールを二重化するか、 そのような入力に出くわさないので分類は不要と分かっているため、 改行を導入しないもう一つの全てを捕まえるルールを導入することが出来ます:
%% asm\n | auto\n | break\n | ... etc ... volatile\n | while\n /* it's a keyword */ [a-z]+\n | [a-z]+ | .|\n /* it's not a keyword */-Cf を付けてコンパイルすると、実際問題上 flex で得られるほぼ最速になります。
最後の注意事項: flex は NUL にマッチする時には遅く、トークンが複数の NUL を含む時には特に遅いです。 テキストがしばしば NUL を含むものと予想される場合には、テキストの 短い 部分とマッチするようにルールを書くべきです。
もう一つの性能に関する最終注意事項: 入力のマッチ方法の節で既に示したように、 大きなトークンを納めるために yytext のサイズを動的に変更すると処理が遅くなります。 なぜなら、(巨大な)トークンを再度先頭からスキャンしなおさねばならないからです。 性能が重要な場合、 テキストの "大きな" 部分にマッチさせるべきですが "巨大な" 部分にマッチさせる べきではありません。 両者の堺目は 8K 文字/トークンです。
flex に C++ スキャナクラスを生成させることも出来ます。 -+ オプションを指定する(もしくは等価的に %option c++ を使う)とこのように実行され、 flex の実行形式名が '+' で終っている場合には自動的に指定されます。 このオプションを指定すると flex が生成するスキャナのデフォルトはファイル lex.yy.cc となり lex.yy.c ではありません。 生成されたスキャナは 2 つの C++ クラスとのインタフェースを定義するヘッダファイル FlexLexer.h をインクルードします。
最初のクラス FlexLexer は一般的なスキャナクラスを定義する抽象基盤クラスを提供します。 以下のメンバ関数を提供します:
また次のものと等価なメンバ関数も提供されます yy_switch_to_buffer(), yy_create_buffer() (最初の引数は istream* オブジェクトポインタであり FILE* ではありません), yy_flush_buffer(), yy_delete_buffer(), yyrestart() (これもまた最初の引数は istream* オブジェクトポインタです)。
2 番目のクラスは FlexLexer.h で定義される yyFlexLexer であり、 FlexLexer から導出したものです。 以下の追加のメンバ関数を定義します:
さらに、 yyFlexLexer は次のプロテクトされた仮想関数を定義します。 スキャナにあわせてこれらを導出クラスにおいて再定義出来ます:
yyFlexLexer オブジェクトは 全ての スキャン時の状態を含むことに注意して下さい。 それゆえこの様なオブジェクトをリエントラントなスキャナとして使用できます。 同一の yyFlexLexer クラスの複数のインスタンスを具体化可能であり、 複数の C++ スキャナクラスを組み合わせ上記 -P オプションを使用することで同一のプログラムで使用可能です。
最後に %array 機能は C++ スキャナクラスでは使用できないことに注意して下さい; %pointer を使用しなければなりません(デフォルト)。
単純な C++ スキャナの例を以下に示します:
// An example of using the flex C++ scanner class. %{ int mylineno = 0; %} string \"[^\n"]+\" ws [ \t]+ alpha [A-Za-z] dig [0-9] name ({alpha}|{dig}|\$)({alpha}|{dig}|[_.\-/$])* num1 [-+]?{dig}+\.?([eE][-+]?{dig}+)? num2 [-+]?{dig}*\.{dig}+([eE][-+]?{dig}+)? number {num1}|{num2} %% {ws} /* skip blanks and tabs */ "/*" { int c; while((c = yyinput()) != 0) { if(c == '\n') ++mylineno; else if(c == '*') { if((c = yyinput()) == '/') break; else unput(c); } } } {number} cout << "number " << YYText() << '\n'; \n mylineno++; {name} cout << "name " << YYText() << '\n'; {string} cout << "string " << YYText() << '\n'; %% int main( int /* argc */, char** /* argv */ ) { FlexLexer* lexer = new yyFlexLexer; while(lexer->yylex() != 0) ; return 0; }複数の(異なった)字句解析クラスを生成したい場合、 -P フラグ (もしくは prefix= オプション) を使用して各 yyFlexLexer を xxFlexLexer 等の別の名前にします。 次に字句解析クラスのソースごとに <FlexLexer.h> をインクルードします。 以下のように yyFlexLexer をリネームします:
#undef yyFlexLexer #define yyFlexLexer xxFlexLexer #include <FlexLexer.h> #undef yyFlexLexer #define yyFlexLexer zzFlexLexer #include <FlexLexer.h>これはあるスキャナに対し %option prefix=xx を使用しもう一方に対し %option prefix=zz を使用した場合です。
重要: 現在のスキャンクラスの形式は 実験的 であり、メジャーリリースが変わると大きく変更される可能性があります。
この節では、 flex と AT&T lex と POSIX 仕様との間の全ての既知の非互換性を扱います。
flex の -l オプションはオリジナルの AT&T lex 実装との最大の互換性を有効にしますが、 生成されたスキャナの性能は大きく低下します。 -l オプションを使用しても発生しうる非互換性は後で述べます。
flex は以下の例外を除き lex と完全互換です:
fatal flex scanner internal error--end of buffer missedスキャナに再度入るためには、まず以下のようにして下さい
yyrestart( yyin );この呼び出しにより入力バッファは捨てられることに注意して下さい; 通常これは対話的スキャナでは問題ではありません。
NAME [A-Z][A-Z0-9]* %% foo{NAME}? printf( "Found it\n" ); %%文字列 "foo" にはマッチしません。 なぜなら展開されたマクロはルール "foo[A-Z][A-Z0-9]*?" と等価になり、 優先度にて `?' は "[A-Z0-9]*" と結び付きます。 flex ではルールが展開されると "foo([A-Z][A-Z0-9]*)?" となり、 文字列 "foo" がマッチします。
%% foo|bar<space here> { foobar_action(); }flex はこの機能をサポートしません。
以下の flex の機能は lex および POSIX 仕様には含まれません:
C++ スキャナ %option 開始条件スコープ 開始条件スタック 対話的/非対話的スキャナ yy_scan_string() 等 yyterminate() yy_set_interactive() yy_set_bol() YY_AT_BOL() <<EOF>> <*> YY_DECL YY_START YY_USER_ACTION YY_USER_INIT #line ディレクティブ アクションの周りの %{} 単一行における複数のアクションさらにほぼ全ての flex フラグです。 リストの最後の機能の意味は、 flex では複数のアクションをセミコロンで区切って同一行に記述可能ですが、 lex では次の
foo handle_foo(); ++num_foos_seen;は (驚くべきことに) 次のように切り詰められるということです。
foo handle_foo();flex はアクションを切り詰めません。 ブレースで括られないアクションは単純に行末で終了します。
[a-z]+ got_identifier(); foo got_foo();スキャナ中で REJECT を使用するとこの警告を抑制します。
warning, -s option given but default rule can be matched (おそらくある特定の開始条件のもとでは) デフォルトルール (任意の一文字にマッチする) しか特定の入力に 対してはマッチしないことがあります。 -s を指定しているので、おそらくそうなりません。
reject_used_but_not_detected undefined あるいは yymore_used_but_not_detected undefined - これらのエラーは コンパイル時に起きます。スキャナが REJECT もしくは yymore() を使っていますが flex がそのことに気づかなかったということです。 つまり、 flex は最初の 2 つの部分を探しても これらのアクションの出現を見つけられなかったのですが、 実際には何らかの方法 (例えば #include ファイルを介して)でこれらが記述されていた、ということです。 %option reject か %option yymore を使用して、flex にこれらの機能を実際に使用していることを教えて下さい。
flex scanner jammed - -s でコンパイルされたスキャナが、どのルールにもマッチしない 入力文字列に遭遇しました。 内部的な問題に起因してこのエラーが起こることもあります。
token too large, exceeds YYLMAX - スキャナが %array を使っている場合に、あるルールが定数 YYLMAX (デフォルトで 8K バイト) より大きな文字列とマッチしました。 flex の入力ファイルの定義部で YYLMAX を #define することで値を大きくできます。
scanner requires -8 flag to use the character 'x' - スキャナの記述に 8 ビットの文字 'x' を識別する部分があり、 -Cf もしくは -CF のテーブル圧縮オプションのためにデフォルトの 7 ビットになっている にもかかわらず、 -8 オプションをつけていないということです。 詳細は -7 フラグのオプションの議論を参照して下さい。
flex scanner push-back overflow - unput() でテキストを戻しすぎたため、スキャナのバッファは 戻したテキストと現トークンを yytext に保てません。 この場合、理想的にはスキャナが動的にバッファの大きさを変えるべきですが、 現在のところそうなってはいません。
input buffer overflow, can't enlarge buffer because scanner uses REJECT - スキャナは非常に大きなトークンのマッチを調べていて、入力バッファを 拡張する必要が起きました。しかしながら、バッファの拡張は REJECT を使うスキャナでは働きません。
fatal flex scanner internal error--end of buffer missed - スキャナが使用しているフレームから(を越えて)ロングジャンプした後、 再度スキャナに入った場合に起こります。 再度スキャナに入る前に:
yyrestart( yyin );を使うか、前述のように C++ スキャナクラスを使用するようにして下さい。
too many start conditions in <> construct! - 存在するより多くの開始条件を <> 中に記載しました (少なくとも一つを二度記載しました)。
右文脈の中には、実際には固定長であるのにそうとは解釈されないものがあり、 上に述べた性能の低下が起こります。 特に、 '|' や {n} (例えば "foo{3}") は常に可変長であると解釈されます。
右文脈と特別なアクション '|' を組み合わせると 固定の 右文脈がよりコストのかかる 可変の 右文脈となります。例えば、次のようなものです:
%% abc | xyz/def
%array もしくは -l オプションを指定しない場合、 unput() を使うと yytext と yyleng を破壊します。
NUL のパターンマッチングは他の文字の比較よりかなり遅くなっています。
入力バッファの動的な大きさの再調整は時間がかかります。これは現トークン (一般に巨大)までのマッチした全テキストの再スキャンを伴うためです。
入力のバッファリングと先読みのため、 <stdio.h> ルーチンと 混合して使うことが出来ません。例えば、 getchar() と flex のルールはうまく行きません。代わりに input() を使って下さい。
-v オプションで表示される全テーブルエントリには、 どのルールがマッチしたのかを決定するのに必要なテーブルエントリ数が 含まれていません。エントリの数はスキャナが REJECT を使っていないときには DFA 状態数に等しく、 使っているときには DFA 状態数よりいくらか大きくなります。
REJECT がオプション -f もしくは -F とともに使えません。
flex の内部アルゴリズムについてのドキュメントが必要です。
John Levine, Tony Mason, and Doug Brown, Lex & Yacc, O'Reilly and Associates. 第 2 版を入手すること。
M. E. Lesk and E. Schmidt, LEX - Lexical Analyzer Generator
Alfred Aho, Ravi Sethi and Jeffrey Ullman, Compilers: Principles, Techniques and Tools, Addison-Wesley (1986). flex で使用しているパターンマッチング技法を解説している(決定性オートマトン)。
多くの flex ベータテスタ、フィードバッカ、コントリビュータ、特に Francois Pinard, Casey Leedom, Robert Abramovitz, Stan Adermann, Terry Allen, David Barker-Plummer, John Basrai, Neal Becker, Nelson H.F. Beebe, benson@odi.com, Karl Berry, Peter A. Bigot, Simon Blanchard, Keith Bostic, Frederic Brehm, Ian Brockbank, Kin Cho, Nick Christopher, Brian Clapper, J.T. Conklin, Jason Coughlin, Bill Cox, Nick Cropper, Dave Curtis, Scott David Daniels, Chris G. Demetriou, Theo Deraadt, Mike Donahue, Chuck Doucette, Tom Epperly, Leo Eskin, Chris Faylor, Chris Flatters, Jon Forrest, Jeffrey Friedl, Joe Gayda, Kaveh R. Ghazi, Wolfgang Glunz, Eric Goldman, Christopher M. Gould, Ulrich Grepel, Peer Griebel, Jan Hajic, Charles Hemphill, NORO Hideo, Jarkko Hietaniemi, Scott Hofmann, Jeff Honig, Dana Hudes, Eric Hughes, John Interrante, Ceriel Jacobs, Michal Jaegermann, Sakari Jalovaara, Jeffrey R. Jones, Henry Juengst, Klaus Kaempf, Jonathan I. Kamens, Terrence O Kane, Amir Katz, ken@ken.hilco.com, Kevin B. Kenny, Steve Kirsch, Winfried Koenig, Marq Kole, Ronald Lamprecht, Greg Lee, Rohan Lenard, Craig Leres, John Levine, Steve Liddle, David Loffredo, Mike Long, Mohamed el Lozy, Brian Madsen, Malte, Joe Marshall, Bengt Martensson, Chris Metcalf, Luke Mewburn, Jim Meyering, R. Alexander Milowski, Erik Naggum, G.T. Nicol, Landon Noll, James Nordby, Marc Nozell, Richard Ohnemus, Karsten Pahnke, Sven Panne, Roland Pesch, Walter Pelissero, Gaumond Pierre, Esmond Pitt, Jef Poskanzer, Joe Rahmeh, Jarmo Raiha, Frederic Raimbault, Pat Rankin, Rick Richardson, Kevin Rodgers, Kai Uwe Rommel, Jim Roskind, Alberto Santini, Andreas Scherer, Darrell Schiebel, Raf Schietekat, Doug Schmidt, Philippe Schnoebelen, Andreas Schwab, Larry Schwimmer, Alex Siegel, Eckehard Stolz, Jan-Erik Strvmquist, Mike Stump, Paul Stuart, Dave Tallman, Ian Lance Taylor, Chris Thewalt, Richard M. Timoney, Jodi Tsai, Paul Tuinenga, Gary Weik, Frank Whaley, Gerhard Wilhelms, Kent Williams, Ken Yap, Ron Zellar, Nathan Zelle, David Zuhn, および私の最低のメールアーカイブ能力から滑り落ちた方々、 それらの方々の協力にも同様に感謝します。
Keith Bostic, Jon Forrest, Noah Friedman, John Gilmore, Craig Leres, John Levine, Bob Mulcahy, G.T. Nicol, Francois Pinard, Rich Salz, Richard Stallman には多くの悩みの分散に関して感謝します。
Esmond Pitt と Earle Horton には 8 ビット文字サポートに関して; Benson Margulies と Fred Burke には C++ サポートに関して; Kent Williams と Tom Epperly には C++ クラスサポートに関して; Ove Ewerlid には NUL のサポートに関して; Eric Hughes には複数バッファのサポートに関して、それぞれ感謝します。
この作品は当初、私が CA Berkeley の Lawrence Berkeley Laboratory における Real Time Systems Group にいた時に作成されました。 私に協力してくれた方々に感謝します。
コメントは vern@ee.lbl.gov に送って下さい。