正規数数学における r 進法での表示についてこの性質を持つ数を r 進正規数という。単に正規数と述べた場合は、2 以上の任意の整数 r に対して r 進正規数であることを意味する。 一般論としてほとんど全ての実数が正規数であることが知られているが、その証明は構成的でないため、正規数であることが判明している具体的な数は非常に限られている。例えば、2の平方根、円周率、ネイピア数はそれぞれ正規数だと予想されているが、その通りか否かは未だ知られていない。 定義本記事では数学のみならず計算機科学の用語および記号も用いる。
が成り立つことを言う(ここに、|w| は w の長さを意味する)。言い換えると、長さが同じ文字列たちが漸近的に同じ頻度で現れる場合にその無限列を正規と呼ぶのである。 例えば、二進列(0, 1 の列)が正規であるとは、0 と 1 が 1/2 ずつの頻度で現れ、00, 01, 10, 11 が 1/4 ずつの頻度で現れ、000, 001, 010, 011, 100, 101, 110, 111 が 1/8 ずつの頻度で現れ...(以下同様に続く)ということを意味する。さらに直感的に言い換えるならば、S のある位置に w が現れる「確率」が、乱数列のそれと一致するということである。(乱数列であるためには正規列であることが望まれるが、正規列が必ずしも乱数列であるというわけではない。) 以下、 r を 2 以上の整数とし、x を実数とする。 x を r 進法で無限小数表示したときの小数点以降の文字列(この場合は数字の列)が正規であるとき、x は r 進正規数、もしくは基数 r に関して正規数であるという。x が任意の r に対して r 進正規数であるとき、x を単に正規数と呼ぶ。 当然、無限列は正規か正規でないかのいずれかである。一方、実数については、ある r に対しては r 進正規であるのに、別の s に対しては s 進正規ではない、ということがあり得る (Cassels, 1959[1])。任意の r 進正規数が s 進正規数でもあるためには log r /log s が有理数であることが必要十分である (Schmidt, 1960[2])。 定義より明らかなように、正規数の無限小数表示の中には任意の文字列が現れる。デジタルデータを二進数だとみなせば、二進正規数にはあらゆるデータが含まれると考えることができる。しかし、逆は成り立たず、任意の文字列が現れるからといって正規とは限らない。 正規より弱い概念として、単正規 (simply normal) がある。それは |w| = 1 の場合のみ上記の性質を満たすことを意味する。すなわち r 進単正規数とは、r 進小数表示において各数字が 1/r の割合で現れる実数のことである。 性質および例
正規数の概念は、1909年にボレルによって導入された[3]。彼は「ほとんど全ての」実数は正規数であることを証明した。彼が証明したことを正確に述べると、2 以上の任意の整数 r に対して r 進正規でない数の集合はルベーグ零集合(ルベーグ測度が 0 である集合)である。可算個のルベーグ零集合の和集合はやはりルベーグ零集合であるから、正規でない数の集合もルベーグ零集合である。この事実から正規数が存在することが従うが、その例は1917年にシェルピンスキーによって初めて与えられた[4]。 有理数はいかなる基数に関しても循環小数なので、定義より明らかに正規ではない。非正規数の集合はルベーグ零集合であるのである意味「小さい」が、非可算無限集合であるのでその意味では十分「大きい」とも言える。実際、例えば十進小数表示において 5 を含まない実数は明らかに非正規であり、そのような数は非可算無限個存在する。
は、十進小数表示において自然数が順に連なっている実数である。これは基数 10 に関して正規であるが (Champernowne, 1933[5])、他の基数に関しては正規か否かわかっていない。
は、十進小数表示において素数が順に連なっている実数であり、これもまた基数 10 に関して正規である (Copeland and Erdős, 1946[6])。 正規数の例として人工的に作られたものではない数たちの正規性を示すことは一般には難しい。例えば、2の平方根、円周率、ネイピア数、log 2 といった数学的に重要な定数が正規数であるか否かは未だに知られていない。いくつかの傍証によってこれらは正規数であると強く信じられているが、十進小数表示においてそれぞれの数字が無限回現れるか否かさえ知られていない。2001年の論文で、Bailey と Crandall は「無理数かつ代数的数である数は正規数である」と予想した[7]。しかし解決への道のりは遠く、反例も知られていないし、正規である代数的数の例も知られていない。 以下、その他の正規数の性質を列挙する。
有限オートマトンとの関係Agafonov (1968) は有限オートマトンと正規列との関係を指摘した[12]。正規列からある正則言語によって得る部分列はまた正規列である。言い換えると、正規列を有限オートマトンに入力し、受理状態のときのみ入力した文字をそのまま出力することにすれば、そうして出力される部分列はまた正規である。 以下の二つの事実が示すように、正規列と有限オートマトンとの間にはより深い関係がある。 有限状態ギャンブラー(finite-state gambler または finite-state martingale、以下 FSG)とは、有限アルファベット Σ 上の有限オートマトンの状態に応じて文字たち(Σ の各元)に金を賭けるギャンブラーのモデルのことである。例えばバイナリアルファベット Σ = { 0, 1 } 上の FSG は、現在の状態 q に対して定められた割合 q0 (0 ≤ q0 ≤ 1), q1 (= 1 - q0) に従い、ギャンブラーは持ち金の q0 倍を 0 に賭け、残りを 1 に賭ける。それから文字が入力され、その文字に賭けられた金の2倍(一般には |Σ| 倍)が次の賭けの元手となる。入力された文字に従い、有限オートマトンの状態が移り、ギャンブラーの賭け方が変わる。ある FSG d が無限列 S に対して成功するとは、有限の元手から始めていつかは任意の目標額に到達すること、すなわち が成り立つことをいう。ここに、 はギャンブラー d が S の最初の n 個の文字を読み込んだときに持っている金額を表し、limsup は上極限を意味する。 Schnorr, Stimm (1972) は、正規列に対して「成功する」FSG は存在しないことを示し[13]、Bourke, Hitchcock, Vinodchandran (2005) はその逆を示した[14]。すなわち、
ことが知られている。 有限状態圧縮機 (finite-state compressor) とは、有限オートマトンの状態に応じて文字列(空列もあり得る)を出力する機械のモデルである。有限状態可逆圧縮機(information lossless finite-state compressor、以下 ILFSC)とは、出力データおよび最終状態から入力データを一意に復元できる有限状態圧縮機のことである。言い換えると、アルファベット Σ 上の有限状態圧縮機 C の状態集合が Q であるとき、C が ILFSC であるとは、C に入力したデータを出力データと最終状態のペアに移す写像 f : Σ* → Σ* × Q が全単射であることを言う。ハフマン符号やシャノン符号といった圧縮の技術は ILFSC を用いて実装することができる。ある ILFSC C が無限列 S を圧縮するとは、 が成り立つことをいう。ここに、 はC が S の最初の n 個の文字を読み込んだときに出力した文字の個数を表し、liminf は下極限を意味する。 Ziv, Lempel (1978) は
ことを示した。実際には彼らは次の事実を示している。「ある文字列の ILFSC による最適な圧縮率は、その列のエントロピー率(entropy rate、エントロピーのビット数に対する比)に等しい。」エントロピー率は、ある意味で正規であることにどれだけ近いかを表す数値であり、正規である場合は丁度 1 になる(入力した文字をそのまま出力する ILFSC では、圧縮率が 1 であることも注意しておく)。LZ 圧縮アルゴリズムは漸近的に任意の ILFSC 以上の圧縮率を誇るため、任意の非正規列を圧縮することができる。 この二つの正規列の特徴付けを標語的にまとめると、正規であることは有限オートマトンで制御できない程「ランダム」である、と言える。同様に、チューリングマシンに対して「ランダム」であるという概念を考えることができる。理論的にチューリングマシンは有限オートマトンよりも高性能であるため、この概念は正規であるという概念よりも強い。 関連項目参考文献
外部リンク
|
Portal di Ensiklopedia Dunia