令和4年度 弁理士 論文式筆記試験(選択)「理工V(情報理論)」 非公式過去問解答
はじめに
本投稿は有料となっていますが、有料部分にはコンテンツはなく、無料ですべてご覧いただけます。
本記事は、令和4年度弁理士試験論文式筆記試験(選択科目)のうち、「理工V「情報理論」について、非公式に筆者が作成した解答例(およびメモ)です。試験問題は、下記の弁理士試験に関する特許庁サイトから参照が可能です。
https://www.jpo.go.jp/news/benrishi/shiken-mondai/index.html
なお、内容にはできるだけ誤りがないよう注意しながら執筆していますが、万一「おかしいんじゃないかこれ?」といった箇所がありましたら、コメントいただければ幸いです。可能な限り加筆修正等させていただきます。
各問題の解答例
1: 情報源符号(40点)
(1) 空欄を埋める
① (ク)不可逆符号
② (オ)可逆符号
③ (キ)一意復号
④ (エ)瞬時復号
⑤ (ケ)A→0, B→01, C→011, D→111
⑥ (ウ)クラフトの不等式
【参考】
③ 可逆符号ということは、必ず元の信号列に戻すことができるということであるから、符号列から必ず、つまり一意に元の信号列に戻すことができることになる。
④ 瞬時復号可能ということは「ココまでで一応〜と復号できるけど、別の可能性も残っているので、どちらが正解かはもう少し先まで読まないとわからない」ということが起こらないということであるが、そのような性質は、単に可逆符号であるとした場合には要求されるものではない。
⑤ (ケ)は一意復号可能だが、瞬時復号可能ではない。一意復号可能であることは、以下の通り、サーディナス・パターソンの定理から示すことができる:
$${ C = \{0, 01, 011, 111\} }$$ であるから、$${ C_1 = \{1, 11\} }$$ である。$${C_0 = C}$$ の要素の末尾に付加して、付加したものも $${ C = C_0 }$$ の要素となるのは、$${ 1, 11 }$$ のみだからである("0" + "1" = "01"、"0" + "11" = "011")。
また、$${ C_2 = \{1, 11\} }$$ となる。$${ C = \{0, 01, 011, 111\} }$$ の要素の末尾に付加して $${ C_1 = \{1, 11\} }$$ の要素となる符号語は存在せず、 $${ C_1 = \{1, 11\} }$$ の要素の末尾に付加して $${ C = \{0, 01, 011, 111\} }$$ の要素となる符号語は $${ 1, 11 }$$ のみだからである("11" + "1" = "111"、"1" + "11" = "111")。
以上から、帰納的に $${ C_3 = C_4 = … = C_\infty = \{1, 11\} }$$ となる。従って、$${ C \cap C_\infty = \phi }$$ となり、(ケ)の符号は一意復号可能である。
一方、一意復号可能な符号が瞬時復号可能である必要十分条件は、「どの符号語も、他の符号語のプレフィクスとなっていない」ことであるが、(ケ)の符号では、符号語 $${0}$$ は、符号語 $${ 01 }$$ および $${011}$$ のプレフィクスとなっている。従って、(ケ)の符号は瞬時復号可能ではない。実際、例えば、$${0111111…}$$ という符号列は、$${ADDD…}$$、$${BDDD…}$$、$${CDDD…}$$ のいずれであるか、次に符号語 $${0}$$ が出現するか、符号列の末尾に到達するまで判断ができない。
なお、(コ)は一意復号可能ではない。例えば、$${01110}$$ は $${ADA}$$ および $${BC}$$ のいずれにも復号可能である。(サ)は一意復号可能であり、かつ瞬時復号可能である(証明は省く)。(シ)は一意復号可能ではない。$${C}$$ と $${D}$$ に同一の符号語が割り当てられていることから自明である。
⑥ クラフトの不等式は、瞬時復号可能であるための必要条件であり、マクミランの不等式は、一意復号可能であるための必要条件であるが、これらの不等式は同一のものである。
(2)
定義に従う。
$$
\begin{align*}
H(S) &= -P(A)\log P(A) - P(B)\log P(B) \\
&= -1/4 \times -2 - 3/4 \times (1.585 - 2) \\
&= 0.811 \\
\end{align*}
$$
【参考】つまり情報源の情報量は $${0.8}$$ ビットくらいである。2元情報源であるから、$${1}$$ ビットを超えることはあり得ないため、計算結果が $${1}$$ を越えていた場合は確実に間違いであることに注意。また、後の問題では、1情報源記号あたりの符号長がこの値を下回ることはあり得ないので、実際の試験においてはこの値との大小を確認したい。
(3)
Aである。
1符号語あたりの情報源記号長が有利すなわち記号長が長くなるのは $${yyx, yyy}$$ であり、不利になるのは $${x}$$ であるから、前者の出現確率が大きく、後者の出現確率が小さくなるように選ぶべきである。従って、$${y}$$ に出現確率の多い $${B}$$ を割り当て、$${x}$$ にはもう一方の $${A}$$ を割り当てる。
【参考】実際には、(4) で問われている1情報源記号あたりの平均符号長が有利になるように選ぶべきだと思われる。しかし本問でそれをやってしまうと、(4) を2度解くこととなり問題のストーリー?的にもったいない。そのため、(3) では1情報源記号あたり平均符号長を用いずに根拠を述べることにした。
(4)
記号系列の出現確率は以下の通りである:
$$
\begin{align*}
P_x &= P(A) = 1/4 \\
P_{yx} &= P(B)P(A) = 3/16 \\
P_{yyx} &= P(B)P(B)P(A) = 9/64 \\
P_{yyy} &= P(B)P(B)P(B) = 27/64 \\
\end{align*}
$$
従って、1情報源記号あたりの平均符号長は、
$$
\begin{align*}
&P_x \times 2/1 + P_{yx} \times 2/2 + P_{yyx} \times 2/3 + P_{yyy} \times 2/3 \\
&= 1/4 \times 2 + 3/16 \times 1 + 9/64 \times 2/3 + 27/64 \times 2/3 \\
&= 204/192 \\
&= 1.0625
\end{align*}
$$
【参考】なお、$${x}$$ に $${B}$$ を割り当てた場合の1情報源記号あたりの平均符号長は $${1.729}$$ であり、$${x}$$ に $${A}$$ を割り当てるほうが有利であることがわかる。
ちなみに、本問のような情報源に対して、1情報源記号あたりの平均符号長が$${1}$$を越えているというのは、効率の面で言えば「だいぶダメ」な符号である。なぜならば、最も単純に、$${x}$$→$${0}$$、$${y}$$→$${1}$$ のように符号化した場合、1情報源記号あたりの平均符号長は $${1}$$ になるため、これより劣るものは符号化した意味がないと思われる。(あくまで効率の面での話である)
2: 通信路(40点)
(1)
①
a1を送信したときに、b1, b2, b3 のいずれかを受信する確率を求めればよい。従って、$${ 0.72 + 0.03 + 0.01 = 0.76 }$$ である。
②
a4を送信したときに、b4, b5, b6 のいずれかを受信する確率を求めればよい。従って、$${ 0.65 + 0.04 + 0.06 = 0.75 }$$ である。
③
a7を送信したときに、b7, b8のいずれかを受信する確率を求めればよい。従って、$${ 0.77 + 0.03 = 0.80 }$$ である。
④
上記①~③は、それぞれ確率$${1/3}$$ で生起するので、$${ 0.76 \times 1/3 + 0.75 \times 1/3 + 0.80 \times 1/3 = 0.77 }$$ である。
(2)
受信記号$${b_j}$$を受信したときに、正しい送信記号$${a_i}$$と判定される確率は、$${P(a_i|b_j)}$$と表記することができ、これはベイズの定理から$${P(a_i|b_j) = P(b_j|a_i)P(a_i) / P(b_j)}$$である。
本問においては、$${P(b_j)}$$ は受信記号と送信記号の割り当てによらず、また、$${P(a_i)}$$ は $${a_1, a_4, a_7}$$ については $${1/3}$$、それ以外は $${0}$$ であるから、各$${b_j}$$について、$${a_1, a_4, a_7}$$のなかから、$${P(b_j|a_i)}$$ が最大となるよう $${a_i}$$ を決定すればよい。
$${P(b_j|a_i)}$$は所与の通信路行列にほかならない、従って、$${a_1, a_4, a_7}$$の行を抽出したうえで、各$${b_j}$$につき、$${b_j}$$に対応する列のうちで、確率が最も大きい$${a_i}$$を割り当てればよい。すなわち、下記の行列のうち矩形で囲まれた確率に該当する記号を選択することになる。
$$
\left[
\begin{matrix}
\boxed{0.72} & 0.03 & 0.01 & 0.12 & \boxed{0.05} & 0.01 & 0.05 & 0.01 \\
0.02 & \boxed{0.05} & 0.03 & \boxed{0.65} & 0.04 & \boxed{0.06} & 0.07 & \boxed{0.08} \\
0.01 & 0.01 & \boxed{0.08} & 0.06 & 0.01 & 0.03 & \boxed{0.77} & 0.03 \\
\end{matrix}
\right]
$$
以上から、割り当ては、
$$
\begin{align*}
S1 &\rightarrow b_1, b_5 \\
S2 &\rightarrow b_2, b_4, b_6, b_8 \\
S3 &\rightarrow b_3, b_7 \\
\end{align*}
$$
となり、そのときの、正しく判定される確率は、
$$
\begin{align*}
& (0.72 + 0.05) \times 1/3 \\
& + (0.05 + 0.65 + 0.06 + 0.08) \times 1/3 \\
& + (0.08 + 0.77) \times 1/3 \\
& = 0.82
\end{align*}
$$
である。
(3)
各$${b_j}$$と事象との対応関係が固定されていることから、受信側が判定する事象ごとにまとめて、以下のように表記することが可能である($${i}$$行$${j}$$列=送信記号$${a_i}$$を送信した場合に、受信側で事象$${S_j}$$と判定される確率=$${P(S_j|a_i)}$$)。
$$
\left[
\begin{matrix}
0.76 & 0.18 & 0.06 \\
0.73 & 0.12 & 0.15 \\
0.81 & 0.11 & 0.08 \\
0.10 & 0.75 & 0.15 \\
0.11 & 0.85 & 0.04 \\
0.14 & 0.81 & 0.05 \\
0.10 & 0.10 & 0.80 \\
0.19 & 0.09 & 0.72 \\
\end{matrix}
\right]
$$
この場合、各$${S_j}$$に対して、$${P(S_j|a_i)}$$ が最大となるよう、$${S_j}$$と$${a_i}$$を対応付ければよいから、割り当ては、
$$
\begin{align*}
S1 &\rightarrow a_3 \\
S2 &\rightarrow a_5 \\
S3 &\rightarrow a_7 \\
\end{align*}
$$
となり、そのときの、正しく判定される確率は、
$$
\begin{align*}
0.81 \times 1/3 + 0.85 \times 1/3 + 0.80 \times 1/3 = 0.82
\end{align*}
$$
である。
(4)
先述の(2)では、各事象の生起確率が等しく$${1/3}$$であったため、$${P(b_j|a_i)}$$について比較すればよかったが、本問では事象の生起確率についても加味して$${P(b_j|a_i)P(a_i)}$$について比較をする必要がある。
$$
\left[
\begin{matrix}
\boxed{0.072} & 0.003 & 0.001 & 0.012 & 0.005 & 0.001 & 0.005 & 0.001 \\
0.004 & \boxed{0.010} & 0.006 & \boxed{0.130} & \boxed{0.008} & 0.012 & 0.035 & 0.016 \\
0.007 & 0.007 & \boxed{0.056} & 0.042 & 0.007 & \boxed{0.021} & \boxed{0.539} & \boxed{0.021} \\
\end{matrix}
\right]
$$
以上から、割り当ては、
$$
\begin{align*}
S1 &\rightarrow b_1 \\
S2 &\rightarrow b_2, b_4, b_5 \\
S3 &\rightarrow b_3, b_7, b_8, b_9 \\
\end{align*}
$$
となり、そのときの、正しく判定される確率は、
$$
\begin{align*}
& 0.072 + 0.010 + 0.056 + 0.130 + 0.008 + 0.021 + 0.539 + 0.021 \\
& = 0.857 \\
\end{align*}
$$
である。
3: 用語説明 (20点)
以下の説明は、必ずしも辞書的な定義等にはなっていないものがあるが、試験の場において答案を作成する場合にはそのような「品質」の解答を期待するのは現実的ではないうえ、そのような高品質の解説は教科書や情報源となるサイト等においていくらでも参照可能である。
そこで以下は、筆者が個人的に「このくらい書けていれば十分では」という程度の内容としている。基本的には、持っている知識に基づいて書いた上で、その後定義や解説を参照して誤りがないか確認し、必要な箇所は加筆修正をしたものである。
「非線形量子化」
アナログ信号をデジタル化する場合、連続的な値で表現されるアナログ信号を、離散的な値で表現されるデジタル信号に変換する必要があるため、一般的に変換による誤差を生じる。
通常、アナログ値を、それに最も近いデジタル値に変換するケースが多いが、デジタル値として表現される値が等間隔に並んでいる場合(通常の整数型がこれに相当する)、その誤差は元のアナログ値に依存せず、デジタル値の間隔の半分を上限とした一様分布になる。しかし、この誤差を雑音としてみた場合、元のアナログ値の絶対値が大きい場合と比較して、絶対値が小さい場合は相対的に雑音の比率が増すこととなる。
そこで、デジタル値として表現される値を、その値の絶対値などに応じて変化させることが想定される。これを非線形量子化といい、これにより量子化雑音の元のアナログ値に対する比率を一定にするなどの効果が期待される。
「ハミングの限界式」
符号長と誤り訂正能力が与えられた場合に、符号の数の上界を定める不等式を指す。
$${q}$$ 元符号において、符号長が $${n}$$ であり、最大 $${t}$$ 語までの誤りの訂正を可能とするには、符号語の総数 $${M}$$ について以下の式が成り立つ必要がある。
$$
M \sum_{i=0,…,t} {}_n\text{C}_i (q-1)^i \le q^n
$$
この式を、ハミングの限界式と呼ぶ。
【参考】上式のうち、$${\sum}$$ は、ある符号$${c}$$に対して、ハミング距離が $${t}$$ 以下である。すなわち、最大 $${t}$$ 語までの誤りを許容した場合に、誤り訂正によって $${c}$$ へと訂正されるべき符号の数を表す。つまり、符号 1 つにつき、符号の空間をどれだけ多く「占有」しているかを表す係数といえる。
空間全体は $${q^n}$$ 語からなるため、上式が導かれることとなる。
「標的型攻撃メール」
特定の個人や組織等を対象として、機密情報の窃取といった損害を与えることを目的として送信されるメールを指す。特定の個人や組織等を対象とせず無差別的に攻撃メールを送信する場合と比較して、対象が明確であることから、組織内部で規定されている書式やデザインに沿った形式で送信するなど、その対象に適応した方法での攻撃が可能であり、攻撃を受ける側としては、無差別攻撃メールと比べてより慎重な対処が必要とされる。
「RASIS」
計算機システムが期待される機能・性能を実現できているかを判断する5つの指標であり、それぞれ以下の語の頭文字からなる。
R=Reliability:信頼性。平均故障時間の長さ。
A=Availability:可用性。稼働率の高さ。
S=Servicability:保守性。メンテナンスのしやすさ。
I=Integrity:完全性。データの破損等の起こりにくさ。
S=Security:安全性。侵入や改竄等の攻撃に対する強さ。
「URI」
Uniform Resource Identifierの略であり、インターネット上に存在するとしないとに関わらず、物理的なリソース、抽象的な情報、等を識別するためのID文字列。そのサブセットとしてURLがある。
以上
解答は以上です。
以下は有料エリアとなっていますが、追加のコンテンツは特にありません。
本記事を読んで、「まあこれでハイボールでも飲めや」という方がいらっしゃいましたら、ご購入いただければ励みになります。
ここから先は
¥ 300
この記事が気に入ったらサポートをしてみませんか?