DHSBことのは配列と連接の話

 DHSBことのは配列のデフォルトレイヤー(単打面)だけでどれくらいの連接を入力できるのかを調べてみました。
 配列制作者の方だけでなく、DHSBことのは配列を導入してみようと考えている方や、配列を作ってみたいと思っている方の参考資料となるようにまとめたつもりです。

 DHSBことのは配列が何なのか分からない方はこちらをご覧下さい。


※2025年1月26日追記。
 お詫び
 
新下駄配列の全てのグラフに誤りがあったため修正しました。
 原因は右手側で集計されるはずのデータが左手側に混ざっていたことと、一部データに重複と欠落があったためです。
 これによって、左手側のカバー数が本来の数値とはかけ離れた値になり、左右のバランスが異常な割合になってしまいました。
 誤った情報を提供してしまったことを深くお詫び申し上げます。




1. はじめに

 なぜデフォルトレイヤーのみなのかと言いますと、DHSBことのは配列では以下のかな、記号以外を全て単打(短押しと長押しの使い分け)で入力できるからです。同時打鍵系は一切ありません。

  • 「しゃ」「りゃ」などの拗音と、「じゃ」「ぢゃ」などの拗音の濁音。(拗音レイヤーでの短押しと長押し)

  • 「ぱ」「ぴゃ」などの半濁音。(同じく拗音レイヤーでの短押しと長押し)

  • !?-・「」()〜……――『』などの記号、約物系。(記号レイヤーに配置)

 デフォルトレイヤーには「ゃ」「ゅ」「ょ」などの小書き文字を設定しているので、それを使えばレイヤー移動なしで拗音を入力することが可能です。打鍵数も拗音レイヤーを使った場合と変わりません。
 ですが、僕は日常的に拗音レイヤーを使っているので、今回の集計では「DHSBことのは配列は拗音系の連接を入力できない」という扱いにしました。
 別に各レイヤーを含めても良かったんですが……単なるこだわりですね。

 今回使用した連接のデータベースがこちらです。「のにいると」「漢直WS」開発者の岡さんが集めたものです。
 データベースの使用許可も貰っています。

 Wikipedia日本語版の記事を解析したものとして公開されているデータベースです。2連接の「wikipedia.hiragana-asis.2gram.txt」と3連接の「wikipedia.hiragana-asis.3gram.txt 」を使っています。
 漢字をひらがなにしたものもありますが、そちらは使っていません。


注意事項

 全て手作業でやったので集計ミスがあると思います。0.5%から1%くらいの誤差があるかもしれません。子どもの自由研究程度と思ってください。

 他のかな配列のデータを参考値として掲載しています。これらは比較対象ではなく「参考用」です。
 どの配列も設計思想が異なっていて、想定している使い方も違っています。用途によって向き不向きがあり、同じ条件下で純粋に比較することが難しいものです。
 特に、DHSBことのは配列は特殊なキーレイアウト(物理配列的)を持つSvalboardでの使用を前提としています。一般的な一体型や分割型キーボード向けの配列とは棲み分けが必要になるタイプだと思います。

 同指打鍵、ロールオーバー打ち、アルペジオ打鍵、各指の使用率などの運指効率や打鍵効率は一切調べていません。あくまで「どれくらいの連接をカバーしているのか」だけを算出したものです。
 集計した際の条件は各配列の項目に書いてあります。
 できるだけDHSBことのは配列と同等の条件になるようにしたつもりです。
 簡単に説明しますと、シフト面や同時打鍵が必要な入力も全て単打入力と仮定して集計しています。他の配列はデフォルトレイヤー(単打面)のみだと低頻度のかなが一切打てなかったり、濁音化ができなかったりします。単打でほぼ全て書けるDHSBことのは配列と、そうではない配列とでは、参考値として掲載するにしても数値のズレが大きく公平ではないためです。
 ある程度の公平性を持たせるための措置だと思ってください。
 拗音に関する扱いもややこしいことになっています。各配列の拗音の入力方法や実装方法を尊重するための措置ですが、僕自身「この条件はちょっと良くないな……」と思っています。
 とりあえず「まあいいか……」の精神で理解していただけると助かります。
 DHSBことのは配列だけを見たい方は気にしなくても大丈夫です。

 Wikipediaの文体は「だ体(だ調)」や「である体(である調)」が非常に多いので、データベースの頻出順もその傾向になっています。これに照らし合わせて出した数値なので、他のデータを使えば異なる結果が得られるでしょう。

 両手を使った左右交互打鍵を否定するものではありません。僕はM式配列(母音と子音を左右に分割した行段系ローマ字配列)を使っていた経験があるので交互打鍵はかなり好きなほうです。


2. 連接について

 連接についての知識がない方向けの項目です。配列作りに挑戦してみようと考えている方にとっても参考になる内容かもしれません。
 もう知っている方は飛ばしてください。


2-1. そもそも連接って何?

 連接とは「いた」「した」「する」「こと」などの文字の繋がりのことです。これらは2文字の組み合わせなので2連接となります。「である」「だった」「とても」「ことは」なら3連接ですね。
 連接はN-Gramと表記されることも多いです。「あ」「い」のような1文字のみであれば1-Gram(Uni-Gram)、2連接と3連接ならそれぞれ2-Gram(Bi-Gram)、3-Gram(Tri-Gram)ということになります。
 もっと長い4連接(4-Gram)や5連接(5-Gram)もあります。

 つまり、今回使用するデータベース「wikipedia.hiragana-asis.2gram.txt」と「wikipedia.hiragana-asis.3gram.txt 」は、ファイル名にもある通り2連接(2-Gram)と3連接(3-Gram)となるわけです。

 連接の集計方法は様々です。文章からひらがなの部分だけを抽出したり、漢字をひらがなに変換して抽出したり色々あります。言語処理、解析、機械学習の分野では、漢字に手を加えずにそのまま1文字として扱うことも多いと思います。
 上記のデータベースはWikipedia日本語版記事のひらがな部分、句読点、長音符のみを抽出したものです。なので「なが」「る。」「ー、」「った。」「た。ま」のようなパッと見ただけでは意味が分からない文字列もたくさんあります。ちなみに「しょう」「りょう」などの拗音は3文字ですが2連接扱いとなっています。
 こうして抽出した連接を出現回数が多い順に並べて統計を作っていきます。

 連接の統計は元になった文章、文体の影響を受けます。『注意事項』でも書きましたが、Wikipediaの文体は「だ、である体」が非常に多い媒体です。「る。」「た。」は出現回数1位と2位です。
 絵本や児童書といった子ども向けの書籍を参考にして統計を取った場合は、きっと「です、ます体(です、ます調)」が上位にくるはずです。この記事も「です」が多いですね。


2-2. 連接と配列の関係

 では、何のために連接の統計を取るのかといいますと……配列の設計思想のひとつに「出現頻度が高い文字や連接を重視して配置する」というものがあるからです。
 新JIS配列や親指シフト(NICOLA配列)がそれらを意識して作られたと言われています。
 今では薙刀式、新下駄配列、飛鳥カナ配列を始めとする、頻度や連接を考えたかな配列がたくさん生まれています。僕のDHSBことのは配列も頻度と連接を重視して作りました。

 この考え方は日本語入力に限ったことではありません。海外で作られたMTGAPやENGRAMなどの英文向けローマ字配列でも「TH」「OU」のような連接を重視している部分があります。英語が苦手な方でも「Thank you」にこれらのローマ字が含まれているのが分かると思います。

 連接に絡んでいる文字をどのように配置するかは人それぞれ違っています。よく使う文字を人差し指と中指で入力できるように隣同士にすることもあれば、両手で交互に入力できるように置くこともあります。頻度が高いものは隣接させて、低いものは遠くに置く(もしくは別のレイヤーに置く)こともあります。
 どの考え方も正しいので、個人の好みが大きく出る部分だと思います。共通している点はタイピング時の疲労を軽減したいというところでしょう。

 配列を作るときに利用する連接データベースも人それぞれ違っています。自分で作る方もいれば、ネット上にあるものを使う方もいます。
 また、用途によっても変わりますし、どういう文体や表現を使うのかによっても変わります。先ほど例として挙げた絵本と児童書のように「です、ます体」の柔らかい文体に合う配列を作る場合、硬い文から抽出した統計を使うことはないでしょう。同じ日本語の文章ですから共通する表現は多いですし、連接のバリエーションそのものに大きな違いはないはずなので汎用性を高めることはできそうですが……参照元として適しているとは言えないと思います。
 逆の場合も同じですね。硬めの文体に向いている配列を作ろうとしているときに、絵本の頻出文字や頻出連接を参考にはしないでしょう。

 もう少し具体的な例を挙げますと、時代劇や時代小説に出てくる「せぬ」「られぬ」「であろう」「さりとて」といったフレーズを重視したい場合、自分の感覚を大事にしたり、参考にするデータベースを吟味したりする必要があります。これらの連接を一般的と表現するのはなかなか難しいからです。そもそも「ぬ」自体が低頻度傾向の文字であるという点も無視できませんね。
 話し言葉、口語表現、くだけた表現もこれにあたります。「してる」「だね」「だよね」「だわ」「じゃん」「でしょ」などなど、日常生活で頻繁に使うと思われます。

 さらに極端な例になりますが、ネット上でのチャットや書き込みで頻繁に特徴的な語尾をつけたり、変わった口調での会話を楽しんだりしている方であれば、その用途にあった形を模索しなければならないと思います。

 ちなみに、DHSBことのは配列のかな配置は僕自身の感覚(癖)を優先して、汎用性を確かめたいときや客観的に評価したいときに外部のデータベースを利用しました。

 そして、これも『注意事項』で触れた部分ですが、完成した配列と連接の関係を確認する際、参照するデータベースによって結果が変わります。
 絵本の文章に特化した配列が完成したとしても、硬い文体から抽出した統計を物差しにして評価すれば、当然想定したものとは異なる結果になるでしょう。要は本領を発揮できないわけです。
 この記事に掲載されている各配列のデータにも同じことが言えます。あくまで特定の面から見た数値であって、これだけで配列の完成度をはかることはできません。配列の設計思想も違いますし、想定している使い方も異なっています。用途によって向き不向きもあります。
 それでもあえて参考値として掲載しているということを念頭に置いてください。


3. 2連接のデータ

 2連接のデータを確認します。
 使用したのは「wikipedia.hiragana-asis.2gram.txt」の出現頻度上位1000位までの2連接です。出現回数の合計は224,037,130です。
 棒グラフにまとめました。1位から100位までと101位から200位までが100刻み、それ以降が200刻みとなっている点に注意してください。

2連接 1位から1000位までの出現数と内訳

 1-100位までで全体の68.640%を、101-200位までで12.564%を占めています。合計200種類で約8割……よく使う連接がこの範囲にぎっしり詰まっていそうですね。
 どのような連接がランクインしているのかは元のデータを見てください。さすがに全てを書き出すととんでもない量になるので……。

 ですが、例として一部をピックアップしてみます。
 まず『2. 連接について』でも書いたように、2連接の出現頻度1位は「る。」です。出現数は7,708,382で全体の3.440%を占めています。600位から1000位までの出現数を足してやっと4.125%になるので、そのすごさが分かりますね。

 2位には「た。」が入っています。出現数7,372,574で3.290%です。
 なぜ「る。」「た。」がツートップなのかと言いますと、Wikipediaの記事では「いる。」「である。」「した。」「だった。」といった形で文末に出現しまくるからですね。少なくとも、このデータでは1位と2位になるほどの出現率です。

 3位は「して」です。これもよく使いますね。DHSBことのは配列では人差し指の中指を引くことで「して」が入力できます。出現数は5,788,887で2.583%です。ツートップと比べると約1%も下がっています。3位なのに……。

 4位は「てい」です。この4種類で大体分かりますね。「している」「していた」という表現が連想できます。出現回数は5,692,972で2.541%です。
 101-200位には「だっ」「めた」「させ」「ても」「だけ」などが入っています。

 それでは、2連接上位1000種類(出現総数224,037,130)のうち、どれだけ入力できているのかを見ていきましょう。
 データの説明で「カバー数」「カバー率」という言葉を使っています。例えば「る。」「た。」「して」「てい」が入力できるならカバー数4、カバー率は4種類の合計値12.539%となります。

 配列を紹介する順番ですが、最初に僕のDHSBことのは配列、その後に企業や行政が作ったもの、最後のほうに新配列となっています。並びは五十音順です。
 新配列は2000年代に入ってから出てきた配列のことで、個人や少人数のグループが制作したもの、既存の配列を改造したものが多いです。この記事ではかな配列のみを取り上げていますが、ローマ字入力に対応した新配列も多数あります。


3-1. DHSBことのは配列

 記事の冒頭でも説明した通り、デフォルトレイヤー(単打面)のみでどれくらい入力できるかを調べました。
※この条件はDHSBことのは配列のみです。他の配列はデフォルトレイヤー以外も使って集計しています。

 DHSBことのは配列はSvalboard(片側25キーで全50キー)に合わせて作った配列です。40キー(片側20キー)にかなを配置して、残りのキーにエンター、変換、スペース、レイヤーなどを配置しています。
※Double Downと呼ばれている特殊なキーが左右ひとつずつありますが、これは使用していないので数に入れていません。

 2連接1000種類中、デフォルトレイヤーだけで書けないもの(レイヤーキーとの組み合わせが必要になるもの)は全部で26種類でした。拗音9種類、長音符17種類で出現回数の合計は2,732,813、全体の1.219%でした。

 まずはカバー数を見てみましょう。

2連接のカバー数 DHSBことのは配列

 青色が左手側が、赤色が右手側を示しています。
 それぞれの棒グラフの上にある数値がカバー数で、画像下部の「合計」が左右のカバー数を足した値になっています。
 1-100の部分であれば、左手11種、右手45種、両手合わせて56種の2連接を入力できるということになります。
 右端の「全体」は1-1000までの合計です。左手146種、右手377種、両手合わせて523種の2連接を入力できるということになります。

 DHSBことのは配列の使用率は左手側41%、右手側59%で、実際に使用していると右手が6割から7割程度になったりします。
 このグラフを見ても右手に偏っているのが分かります。

 カバー数はどこも半分を少し越えるか、少し切るかといったところなので良いバランスなんじゃないかと思います。
 全体も523で半分を少し越えています。

 次はカバー率を見ていきます。

2連接のカバー率 DHSBことのは配列

 数字が多くて見にくいですね……。何とか整理しようと頑張ったんですがこれが限界でした……。

 左右の色分けはカバー数のときと同じです。
 棒グラフの上にある数値は、カバーしている種類の出現数を合計した値です。
 1-100の左手側はカバー数11種でした。これの出現数の合計値は20,368,507となります。右手は45種で、出現数の合計が65,275,724となります。
 下部の「左右割合」は、カバーしている出現数を総出現数で割って100倍した値です。
 1-100の総出現数は153,779,390なので、左手が13.245%、右手が42.448%となります。この数値の合計が55.693%です。

 101-200の場合は総出現数28,148,893なので、左手が18.237%、右手が37.267%となります。こちらは合計55.504%ですね。
 右端の「全体」もカバー率と同じです。1-1000までの合計を左右それぞれの割合として出しています。

 なぜカバー率を出したのかと言いますと、カバー数だけでは分からない部分があるからです。
 例えば、1-50までカバーしているものと、51-100までカバーしているものがあったとします。同じカバー数50でも、前者は123,996,017でカバー率80.632%、後者は29,783,373でカバー率19.368%です。
 801-1000にも同じことが言えます。801-900までカバーしている場合は55.458%、901-1000までなら44.542%になります。
 このように、カバー率がカバー数を上回っている場合、出現頻度の高い連接を押さえていることが分かります。逆に下回っている場合は出現頻度が低いものを押さえていることになります。

 2つのグラフを見ると、DHSBことのは配列はカバー数、カバー率ともに1-600までは半分以上の数値を出していますが、大きく越えているわけではありません。601以降は半分を切る値なので若干少なめといったところです。
 全体から見ても半数をカバーできているので、可もなく不可もなしといったところでしょうか。ただ、全体カバー数523に対して、全体カバー率が55.080%なので、数に対する割合から見てもまあまあ良いスコアかもしれません。
 拗音と長音符を含める場合は、単純に26種分足せばいいですね。カバー数549、カバー率56.299%です。

 ですが、このカバー数とカバー率の算出方法には欠点があります。
 連接を100単位200単位でしか見ていないので、どんな連接をどれくらいカバーしているのか詳しく把握することができません。
 また、何度も書いているように、他のデータベースを使えば結果は変わりますし、配列の設計思想(どの連接をどれくらい重視するかなど)にも左右されます。
 この記事で取り上げている全ての配列にも言えることなので念頭に置いておいてください。
 あと、全てのかなを片手に集中させたら連接カバー数1000でカバー率100%になります。片手で入力できる仕組みであればこういったケースもあり得るかもしれません。

 DHSBことのは配列における設計思想の具体例を2点だけ挙げてみます。
 1つ目は「い」と「う」を左右に分けて配置しているところです。
 左手中指に「い」を置いているのは僕の癖によるものですが、周囲のかな配置は「いた」「いる」「ない」「いない」といった連接を重視しています。
 もう一方の「う」は、Svalboardの良さを発揮するための位置取りにしたかったのと、「こうして」「どうして」「そうして」「と(い)うように」「ように」「もう」といった組み合わせを大事にしたかったからです。
 これらのかなを左右どちらかの手に押し込むことは非常に難しかったので、いっそのこと頻出連接の『いう』を交互打鍵にしようと考えて現在の形になりました。
 データベースに照らし合わせて言えば、44位(出現回数1,045,723)の「いう」よりも優先したい連接があったから、ということになりますね。
 少なくとも、この結果を見る限り「い」「う」を左右別々に配置したのは間違いではなさそうです。

 2つ目は「っ」「、(読点)」「。(句点)」を右手側に配置しているところです。
 連接を考えると「っ」と「。」は左手側に置いたほうがいいんですが……これも僕の癖に由来しています。今では原稿用紙に縦書きすることもだいぶ少なくなりましたが、あの頃の感覚がずっと残っているんですよね。僕の場合、四角いマス目の大体右上あたりに小書きと句読点を書くんです。だから「っ」「、」「。」は体の右寄り、右半身にあるようなイメージがあります。ついでにカギ括弧の開きも右半身にあるイメージです。
 あ行の小書きはほとんど使いませんし、拗音はレイヤーで実装しているせいか不思議なことに小書きしている感覚はありません。
 あとは昔M式配列を使っていた頃の名残です。僕としては「っ」の交互打鍵が結構気持ちいいんです。

 というわけで、オマケとしてグラフを2つ掲載します。
 これからSvalboardを購入してDHSBことのは配列を導入する方で、なおかつ僕のような癖をお持ちでないのなら、「っ」「。」を左手側に配置してみてください。きっと気持ち良く入力できるはずです。
 左側に配置した場合、データ上はこんな感じになります。

2連接のカバー数 DHSBことのは配列「っ」「。」を左手側に配置した場合
2連接のカバー率 DHSBことのは配列「っ」「。」を左手側に配置した場合

 カバー数は523から2増えて525です。ほぼ変わらずです。
 カバー率は55.080%から63.481%に増加しています。約8%も上がっていますね。間違いなく「る。」「た。」の影響が大きいでしょう。
 拗音と長音符を含めたら551と64.700%です。
 3連接の項目でも左手配置のデータを掲載します。


3-2. JISかな配列

 日本国内で最も有名なかな配列でしょう。
 一般的なJISキーボードのキーキャップにも印字されています。
 使用する文字領域(かなが配置されているキーの数)は4行48キーです。左右24キーずつで、ここにエンター、変換、シフトといったキーは含んでいません。行は段と表記することのほうが多いかもしれませんね。
 文字領域が広すぎたり、かなの出現頻度を考えていなかったり、濁点と半濁点が右手小指にあったり、母音が一番上の数字キー群(数字段)に配置されていたり……色々な問題があると言われている配列です。

 JISかな配列のデータを調べるにあたって、いくつかの条件をつけました。『注意事項』にも書いてありますが、DHSBことのは配列以外はデフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。
 まず左右の分け方です。
 画像の赤線で引いたところから左右に分けています。

JISかなキーボードの左右分け 画像引用元:https://commons.wikimedia.org/wiki/File:Jis_kana.png

 次は濁点についてです。
 JISかな配列では清音の後に「@」を打つことで濁音化することができますが、この分け方だと左手側が清音のみになってしまいます。
 なので、「だ(Q+@)」のように両手で入力しなければならない文字でも、かながある方の手だけで入力したものとして集計しています。この場合は「た」が左手側にあるので左手のみで書いたことになりますね。
 ちなみに、半濁音は1-1000位以内にひとつもありません。なので半濁点キー「[」は使用しません。

 拗音についてですが、JISかな配列の場合は片手で打てない扱いとしました。
 理由は1000位以内の拗音が全て「う」で終わるためです。JISかな配列は右手側に「や」「ゆ」「よ」があり、シフトによって小書き化します。そして「しょう」「ちゃん」「きょう」などで使う「し」「ち」「き」「う」は全て左手側にあります。拗音3文字中連続して打てる部分がひとつもないので、ここでは片手で打てないとしています。

 他の配列でもこれらの条件を適用しています。シフトキー、レイヤーキー、同時打鍵などで両手を使った場合でも、全てかながある方の手だけで入力したものと見なしていますし、拗音も連続して入力できる部分がなければ打てない扱いです。

 ではカバー数とカバー率を見てみましょう。

2連接のカバー数 JISかな配列
2連接のカバー率 JISかな配列

 正直に言うと、(調べ方の影響が大きいとしても)もっと低い数値が出ると思っていました。
 かなの配置を見てみると、左手側によく見る連接が並んでいます。これがグラフにも反映されて、左手側に偏った結果となったようですね。
 様々な問題点を見なかったことにして、このデータだけで判断するなら、JISかな配列は日常的に使用するのに十分な連接をカバーしていると思います。
 かなや濁点の配置をちょっと工夫するだけで使い心地が改善しそうな気がしますね。
 JISかな入力のタイピング競技者たちが運指を最適化して高速入力しているのは本当にすごいと思います。


3-3. 親指シフト(NICOLA)

 数々の文筆家さんたちが使っていたことで有名な入力方式です。特に、勝間和代さんが愛用していたことで話題になりました。
 親指シフトは富士通のワープロに搭載されていました。
 今は現代の規格に合わせたNICOLAが主流だと思います。

 文字領域は3段30キー(左右15キーずつ)です。
 文字通り、親指の位置にシフトキーを配置しているのが大きな特徴です。

 調べる際の条件はJISかな配列とほぼ同じです。デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。
 まずは親指シフトの左右分けです。

NICOLAの左右分け 画像引用元:https://ja.wikipedia.org/wiki/親指シフト#/media/ファイル:NICOLA_J.PNG

 次はシフトキーの扱いについてです。
 NICOLAでは親指シフト系の強みであるストレートシフト、クロスシフトを使用します。
 ストレートシフトは片手でシフトと文字を押すことです。同手シフトと呼ばれることのほうが多いです。順手シフトと呼ぶ人もいるようですね。上記の画像で言うと、「親指左」を押しながら小指で「1」を押すと「?」が出力されます。これを左手側の同手シフトと表現することができます。片手のみで済むのでそのまま集計しています。

 クロスシフトは反対側の手でシフトキーを押すことです。異手シフトや逆手シフトと呼ばれることが多いと思います。対手シフトと呼んでいる方も見かけたことがあります。上記の画像で言うと、「親指右」を押しながら左手人差し指で「け」を押すと「げ」が出力されます。こちらは両手を使っているので、JISかな配列で書いた通りどちらかの手で入力したものと見なします。「げ」であれば、かながある方の手……つまり左手側のみで入力したものと考えます。

 拗音の扱いについてです。
 NICOLAでは「しょう」と入力する場合、右手左手右手と左右交互打鍵になります。3文字中連続して書ける部分がないので打てない扱いとしています。
 ですが、「ちょう」の場合、右手のみで「ちょ」と書くことができます。こちらは打てる判定としています。

 ではNICOLAのグラフを見てみましょう。
 全体的に左手寄りになっています。

2連接のカバー数 親指シフト(NICOLA)
2連接のカバー率 親指シフト(NICOLA)

 親指シフトはJISかな配列よりも効率よく入力することを目的として開発されたと言われています。
 NICOLAの公式サイトでもJISかな配列と比較をしているので、これをターゲットにしていることが分かります。
 なので、少しだけJISかな配列と比べてみましょう。
 グラフを見ると、NICOLAはJISかな配列よりも全体カバー数が10多いですね。逆に全体カバー率は約2%少ないようです。
 データには運指効率、打鍵数、アクション数を一切含んでいないので、このグラフだけで断言することはできませんが……使用しているキーの数、文字領域の範囲から考えると、NICOLAのほうがコンパクトで効率がいいと言えるでしょう。


3-4. 新JIS配列

 通産省(現在の経産省)によって作られた配列です。JIS X 6004と表記されることもあります。
 JISかな配列に変わる新しい規格として作られましたが、ほとんど使われることがなかったようで現在は廃止になっています。
 教科書や天声人語のN-Gramデータを解析して、出現頻度の高い文字や連接を重視して左右バランスよく配置したとされています。
 運指にもかなり力を入れていて、ロールオーバー打ちと交互打鍵の両立を目指した配列でもあります。
 元々はセンターシフト(スペースキーの位置にシフトを配置したり、スペースキー自体にシフト機能を持たせること)での使用を想定していたようですが、実際には通常の小指シフトで実装されることが多かったそうです。

 文字領域は3段32キー(左15キー、右17キー)です。
 キー数やシフトの位置を考えると親指シフトに近い雰囲気がありますね。

 調べる際の条件ですが、これまでに紹介した配列と同じです。デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。
 左右の分け方はこんな感じです。

新JIS配列左右分け 画像引用元:https://ja.wikipedia.org/wiki/新JIS配列#/media/ファイル:JIS_X_6004.png

 拗音についてですが、新JIS配列だと左手だけで「し」「ょ」を入力した後、右手で「う」を打つことになります。3文字中2文字を連続で入力できているので、ここでは片手で打てる扱いとしています。「じょう」も同様です。濁音は片手で打てるということにしているので、これも片手で打てる判定です。
 ですが、「ちょう」は右手、左手、右手と交互に打つことになり、連続している部分がひとつもありません。なので、こちらは打てない扱いとしました。

 ではグラフを見てみましょう。

2連接のカバー数 新JIS配列
2連接のカバー率 新JIS配列

 ライバルであったJISかな配列のグラフと比較すると、新JIS配列のほうがカバー数カバー率ともに若干低めです。
 ですが、新JIS配列は左右のバランスがとても良い……というか驚異的です。1-100と601-800では左右のカバー率に少し開きがありますが、他は大体5%くらいの差しかありません。全体で見ても左手側が約4%多いだけです。
 連接1000種類、出現総数224,037,130のデータと照らし合わせてもこの程度の差しかでないのはすごいと思います。
 40年ほど前にこれほどのかな配列を生み出していたわけですから……とんでもないですね……。
 もうひとつの強みである交互打鍵に関してですが、最初に書いた通り運指効率や打鍵効率などは調べていないので、グラフから読み取ることはできません。


3-5. 飛鳥カナ配列

 ここからは新配列系の紹介になります。
 まずは飛鳥カナ配列です。
 10年以上かけて作られた親指シフト系のかな配列です。

 かな配置は文字や連接の出現頻度を重視しつつ、アルペジオ打鍵で気持ち良く打てるような形になっています。
 小書き、濁音、半濁音をそのまま配置しているのも特徴です。
 それだけでなく、エンターキーの位置がQWERTYのEキーに配置されていたり、バックスペースキーがカタカナひらがなローマ字キーに配置されていたり、様々な工夫が施されています。
 これによって指をあちこちに曲げ伸ばしする必要がなくなり、疲労の軽減に繋がるわけですね。

 文字領域は32キー(左15キー、右17キー)です。
 親指シフトと同じくストレートシフト(同手シフト)、クロスシフト(異手シフト、逆手シフト)でレイヤーを切り替えます。

 次は集計条件です。
 左右に分けた画像を作ろうと思ったんですが大変だったのでやめました……。
 配列図は上のリンクから確認してください。
 これまでの配列と同じく、デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。
 拗音についてですが、飛鳥カナ配列では1文字ずつ「し」「ょ」「う」のように入力する必要があります。「しょう」や「ちょう」は左右交互打鍵となるので、今回の集計では片手のみで入力できない扱いとしています。

 データを見ていきましょう。

2連接のカバー数 飛鳥カナ配列
2連接のカバー率 飛鳥カナ配列

 飛鳥カナ配列は右手側に偏っていると言われています。グラフからもそれが分かりますね。
 カバー数、カバー率ともにDHSBことのは配列と近い雰囲気があります。
 全体カバー数が506でも、全体カバー率が57.566%もあります。数に対して割合が勝っていますね。これは1-600までの範囲で出現頻度の高い連接をしっかり押さえているからでしょう。
 特に1-100のカバー数60、カバー率60.018%が目立っています。100種類中6割カバーはすごいと思います。


3-6. 新下駄配列

 慣れれば高速で入力ができると言われている配列です。
 制作者のkouyさんから掲載許可をいただいています。

※リンクは旧ブログです。

 独自に集めた統計を元にして、出現頻度が高い連接をアルペジオで打てるようにしていたり、バックスペースキーをQWERTY配列の「:」の位置に配置していたり……といった特徴がある配列となっています。
 こう表現すると飛鳥カナ配列と似ているように感じられますが、実際には大きく異なっています。
 まず、親指シフト系配列は専用キーボードを使うか、一般的なキーボードのスペースキー、変換キー、無変換キーをシフトキーとして割り当てて使います。このとき、スペースキーのサイズ感によってはホームポジションを左右どちらかに寄せる必要があります。
 ですが、新下駄配列は親指ではなく左右の中指や薬指を使った同時打鍵シフトを採用しています。スペースキーの大きさに左右されにくく、さらにホームポジションを変える必要もほとんどないので、どんなキーボードでも導入しやすいようになっています。
 そして、「しゃ」「ちゃ」などの拗音を1動作、ワンアクションで入力できるようになっています。1文字ずつ「し」「ょ」と打たなくても同時打鍵で書けるわけです。

 集計条件はこれまでと同じで、デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めています。
 なので、両手同時打鍵が必要な文字も片手で入力できるという扱いにしています。
 拗音も同じです。新下駄配列では右手側に「う」があり、左手側に拗音「しゅ」「ちゅ」などが配置されています。ここでは3文字中前半2文字を連続で打てているので、左手側で入力したという判定をしています。
 文字領域は43キー(左手20、右手23)です。

 データを見てみましょう。

2連接のカバー数 新下駄配列(グラフ修正版)
2連接のカバー率 新下駄配列(グラフ修正版)

 カバー数、カバー率ともに左右のバランスが非常に良いです。
 カバー率の1-100が右手側に偏っていますが、これは出現回数が非常に多い連接を押さえているためです。
 全体カバー数とカバー率の逆転が起きているのも、1-100が影響していると考えられます。
 グラフ修正前と同じく、201以降では数に対して割合が大体釣り合っているので、出現頻度が高い連接ばかりを押さえているわけではないようです。
 全体カバー率は修正前よりも0.111%上がりました。この点も同じく、連接の順位が下になればなるほど1種類当たりの出現数が少なくなるので、カバー率も増加しにくくなるためです。
 こちらの新しいグラフでも、新下駄配列は頻度の高い連接を押さえつつ、あまり見ない連接も広く浅くカバーしているという評価は変わりません。例えば「けを」のような一見するとどう繋がるのか分からないものでも、片手で(実際には同時打鍵)打ててしまうわけです。ちなみに「けを」は603位(出現回数36,634)です。「だけを」「わけを」「片付けを」なんて表現に繋がりそうですね。
 全体カバー数557も相当高い数値です。連接にものすごく強い配列だと言われるのも分かりますね。


3-7. 薙刀式配列 v15

 脚本や小説などの長文を楽に、そして素早く書くために作られたかな配列です。
 単純なかな入力以外にも、約物(記号)系や一行分削除機能などのマクロを搭載しています。
 こちらも制作者の大岡さんから掲載許可をいただいています。

 文字と連接の出現頻度だけでなく、各指の使用率も踏まえたかな配置となっています。小指の負担が非常に少ないのも特徴です。
 そして何より、これまで紹介したものの中で最もコンパクトな配列となっています。なんと文字領域は27キー(左13キー、右14キー)です。狭くなった分、指の移動距離が短くなるので疲れにくくなります。
※外来語の「ヴ」を含めると28キーになると思いますが、今回のデータベースに「ヴ」は入っていません。

 集計の条件です。
 薙刀式は新JIS配列と同じセンターシフトを採用していて、頻度の高いかなをデフォルトレイヤーに、頻度の低いかなをシフト面に配置しています。
 これまでと同じように、デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。なので、シフトは全て同手入力扱いとします。
 また、同時打鍵で濁音、半濁音、拗音を入力する仕組みになっています。濁音もこれまでと同じく片手のみで書ける扱いとしています。例えば「た」は右手に配置されているので「だ」も右手扱い、「か」は左手なので「が」も左手扱いになっています。半濁音は1000位以内に入っていません。

 拗音の扱いについてです。薙刀式は左手「し」と右手「よ」を同時打鍵することで「しょ」を入力することができます。ここに濁音キーを入れると「じょ」になります。他の配列には見られない、とてもユニークな仕組みです。扱いは他の配列と同じです。「う」「ゃ」「ゅ」「ょ」は右手に配置されているので、拗音3文字中2文字を連続して入力することができます。このことから、今回の集計では全て右手のみで入力できたという扱いにしました。

 それではグラフを見ていきましょう。

2連接のカバー数 薙刀式配列 v15
2連接のカバー率 薙刀式配列 v15

 カバー数、カバー率ともに201位以降の左右差が少ないです。大体5%から6%以内に収まっています。
 薙刀式は左右のバランスを考えて作られた配列でもあります。それがこのグラフからも見てとれますね。
 数に対する割合だと、1-100のカバー数が39でちょっと少なめですが、カバー率は48.302%もあります。これは出現回数の多いものに絞って押さえている証拠でしょう。
 1-100ほどではないですが、101-200も41種43.129%です。割合から考えると出現数上位をいくつか押さえていそうです。
 201以降はほぼ釣り合っている感じです。
 全体では427で47.534%なので、こちらも数に対しての割合を考えると良い数値が出ています。
 薙刀式は連接のカバー数をある程度絞り、出現回数上位に集中させつつ、左右の使用率のバランスを取ろうとしていることが分かります。


3-8. のにいると配列

 漢直とかな配列の融合を目指して作られた配列です。
 そして何より、今回使用しているデータベースを制作した方でもあります。※『1.はじめに』でも触れています。
 こちらも制作者の岡さんから掲載許可をいただいています。

https://gist.github.com/oktopus1959/7cb0e392cbed7b7f12a6c0cefb67e306

 漢直は「漢字直接入力」の略です。通常、ユーザーがパソコンで漢字を入力する際はMS IME、Google日本語入力、ATOKなどのIMEを通して「かんじ」を「漢字」に変換しています。
 ですが、漢直は従来型のIMEを経由せずに漢字を出力します。これによって誤変換が発生しません。特定の文字の組み合わせを入力することで、任意の漢字を思い通りに出力できると言えばいいでしょうか。これも何だか誤解を招く表現ですが……そういう仕組みだと思ってください。
 この「のにいると」は漢字を除いたひらがな部分を素早く入力するために作られたそうです。つまり、漢直との併用が前提となっているかな配列なんです。

 集計条件は他の配列と同じで、デフォルトレイヤー(単打面)だけでなく全てのレイヤー、シフト面、同時打鍵を含めて集計しています。
 拗音も新下駄のように同時打鍵系で入力できるタイプです。なので、両手同時打鍵が必要な文字も片手で入力できるという扱いにしています。
 ちなみに、のにいるとには「書き換え」という仕組みが搭載されています。僕はこの機能を全て把握しているわけではないので、上手くデータに反映できていない可能性があります。

 データを見ていきましょう。

2連接のカバー数 のにいると配列
2連接のカバー率 のにいると配列

 少し右寄りな感じです。
 カバー数、カバー率ともに、全ての部分で半分を超えています。101-600が厚そうですね。
 全体だと581種で57.175%となっています。新下駄配列のときと同様に、連接を広くカバーしているため数値があまり伸びていないものと考えられます。
 このデータベースとの相性が良い点もあるかと思いますが、のにいると単体でこれだけの連接をカバーしているわけですから、半身である漢直が加わればそれはもう楽しく快適なタイピング体験ができるでしょう。


4. 3連接のデータ

 次は3連接です。
 使用したのは「wikipedia.hiragana-asis.3gram.txt」の出現頻度上位1000位までの3連接です。出現回数の合計は120,782,019です。
 棒グラフにまとめました。2連接と同様に、1位から100位までと101位から200位までが100刻み、それ以降が200刻みとなっている点に注意してください。

3連接 1位から1000位までの出現数と内訳

 1-100位が58.224%、101-200位が14.449%です。2連接ほどではないものの、上位200種類で全体の約7割を占めています。
 1000位以内に拗音はありませんでした。長音符を含んだ連接は10種類でした。

 3連接の一部をピックアップしてみます。
 出現頻度1位は「ている」です。出現数は3,646,151で全体の3.018%を占めています。「している」「やっている」「られている」といった表現で頻繁に使いますね。
 2位には「いる。」が入っています。出現数2,663,828で2.205%です。1位と合わせて「ている。」となりそうですね。
 3位は「である」です。これもよく使う表現です。Wikipedia日本語版の文体は「だ、である体」なので、これが3位に入るのも納得です。
 4位は「ある。」です。3位と合わせて「である。」の4連接に繋がるのはもちろんですが、それ以外にも「がある」「にある」「もある」といった形でも使いますね。
 101-200位には「から、」「したが」「さらに」「いない」「より、」「これは」などが入っています。

 これら3連接上位1000種類(出現総数120,782,019)のうち、どれだけ入力できているのかを見ていくんですが……前提として、3連接は2連接以上に文字の繋がりが複雑になるので、カバー数カバー率ともに減少しています。
 グラフの見方、集計条件、配列を紹介する順番は同じです。
 2連接のときに大体書いたので内容もかなり短くなっています。


4-1. DHSBことのは配列

 2連接のときと条件は同じです。DHSBことのは配列はデフォルトレイヤー(単打面)のみの集計です。
 長音符はデータに反映していませんが、レイヤー移動込みだと10種類中7種類(出現回数259,678で0.214%)書けました。

 3連接のデータを見ていきましょう。

3連接のカバー数 DHSBことのは配列
3連接のカバー率 DHSBことのは配列

 びっくりするほど右に偏っています。カバー数で見ると左手14%対右手86%くらいで、出現回数で見ると左手10%対右手90%くらいでしょうか。
 DHSBことのは配列を使用していても、さすがに右手のみで文章の8割以上を入力することはありません。漢字が混じっているからです。ですが、こうしてひらがな部分の3連接だけ切り取って集計してみると……なかなかすごい偏り方をしていますね……。

 やはりカバー数は2連接のときよりもかなり少なくなっています。
 全体カバー率についても、319種カバーしているわりにはあまりよくありません。
 1-100が18.766%で、他の部分よりも12%以上少ないです。ここが足を引っ張っていそうです。といっても、ここの数値が低い原因は分かっています。2連接でも触れたように、「っ」と「。」が左手側にあるせいですね。
 101-600はカバー率34.574%、32.186%、36.277%で個人的には健闘しているんじゃないかと思います。数に対する割合もほぼ同じかほんの少し上回るくらいです。

 では、次に「っ」「。」を左手側に配置した場合のグラフを見てみましょう。

3連接のカバー数 DHSBことのは配列「っ」「。」を左手側に配置した場合
3連接のカバー率 DHSBことのは配列「っ」「。」を左手側に配置した場合

 1-100の左手側が上がりまくっていますね……。それだけ「っ」「。」の影響が大きいということなんですが……。なんだこれは……。
 それはともかく、データ上はどこも30%を越えているので、かなり良い数値が出ていると思います。401-600のカバー数が減ったくらいでしょうか。その代わり1-200が増えた感じですし、201以降も65から1ずつ下がっていく形で綺麗に見えます。
 全体カバー数も9種増えて328、カバー率も34.6%です。
 やはり、僕のような癖がないなら左手に置いたほうがいいかもしれませんね。


4-2. JISかな配列

 2連接では思っていたよりも良い数値が出ていましたが……3連接ではどうでしょうか。

3連接のカバー数 JISかな配列
3連接のカバー率 JISかな配列

 左手に偏っているようです。
 全体カバー数230、カバー率24.881%……データ上はなかなか良い数値が出ています。
 左右のかなの振り分け自体は悪くなさそうです。


4-3. 親指シフト(NICOLA)

3連接のカバー数 親指シフト(NICOLA)
3連接のカバー率 親指シフト(NICOLA)

 左手に偏っています。
 101-200のカバー数が9種しかないところが目を引きます。
 ライバルであるJISかな配列と比較すると、1-200の差がそのまま表れている感じです。
 もしかしたらデータベースとの相性がちょっとだけ悪かった可能性もありますね。


4-4. 新JIS配列

3連接のカバー数 新JIS配列
3連接のカバー率 新JIS配列

 3連接でも左右のバランスがすごすぎますね! 全体でも左右の差がほぼありません。
 配列の設計思想から考えると、カバー数とカバー率が低めなのは仕方ないでしょう。
 普及せずに廃止されてしまったのが残念でなりません。


4-5. 飛鳥カナ配列

3連接のカバー数 飛鳥カナ配列
3連接のカバー率 飛鳥カナ配列

 だいぶ右手側に偏っています。左手12%対右手88%くらいの比率です。
 2連接のときにも書きましたが、DHSBことのは配列と近い雰囲気がありますね。
 ですが、カバー数カバー率ともに高い数値が出ています。345種の32.506%です。1-100のカバー数が43もあり、右手側だけで出現数2000万も押さえているのが大きいです。


4-6. 新下駄配列


3連接のカバー数 新下駄配列(修正版)
3連接のカバー率 新下駄配列(修正版)

 右手に偏っています。
 特に1-100が目立っていますね。
 グラフ修正前よりも全体カバー数が5種下がりましたが、カバー率は5.015%も増えていて、30%に近い値を出しています。


4-7. 薙刀式配列 v15

3連接のカバー数 薙刀式配列 v15
3連接のカバー率 薙刀式配列 v15

 3連接は全体カバー数に対してカバー率が下回る傾向にあるのですが、そんな中で薙刀式は全体216種でカバー率24.891%も出しています。
 飛鳥カナ配列と同様に、1-100の右手側で1576万も押さえているのが大きいです。


4-8. のにいると配列

3連接のカバー数 のにいると配列
3連接のカバー率 のにいると配列

 1-100は少なめですが、他は30%を余裕で越えています。
 極端に右手側に偏っているわけでもありません。
 全体も357種、26.790%で良い数値だと思います。


5. 最後に

 データの利用と配列の掲載に関して、ご快諾いただきありがとうございました。

 グラフにしてみると面白いですね。
 僕は癖があるので配置を変える気はありませんが、これからDHSBことのは配列を導入する方で変な癖をお持ちでない場合は、是非「っ」「。」を左手側に配置してみてください。
 もちろん、このデータを参考にしてDHSBことのは配列を改造したり、新たなSvalboard向けの配列を作っても全然OKです。

 現在(2025年1月22日時点)、Datahand/Svalboard向けのかな配列はDHSBことのは配列しかありません。この配列を使用しているのもたぶん僕だけです。
 もしかしたらDatahandが販売されていた時代に、どこかの誰かがかな配列を自作していたかもしません。ですが、僕が調べた範囲では見つけられませんでした。
 これからSvalboardのユーザーが増えていけば面白い配列が生まれて選択肢も増えていくかもしれません。そんな日が来たら嬉しいですね。

 他の配列のデータもなかなか面白かったです。設計思想や文字領域の違いでここまでグラフに変化が出るんですね。連接とキー配置の関係は奥が深いと改めて思いました。
 今回のデータを簡単にまとめると、連接と左右のバランスを考えた場合は全体カバー数400種から450種で、カバー率43%から45%くらいです。
 連接重視でバランスをあまり考えない場合は全体カバー数500種以上で、カバー率50%以上という感じでしょうか。
 3連接の場合、左右バランスを考えるとキー配置はかなり難しくなりそうです。カバー数200種から300種で、カバー率24%から26%くらいが現実的な数値になるかもしれません。もしも全体カバー数300種以上でカバー率3割出せたら最高に近いのではないでしょうか。

 本当はTRONかな配列、月配列系、その他のかな系新配列も調べたかったんですがキツくて断念しました……。

 念のためにもう一度書いておきますが、配列の設計思想は人それぞれ違うものです。片手だけでたくさんの連接を打てることが配列制作における唯一の正解ではありません。
 この記事に掲載したグラフも、特定の面からいくつかの条件(単打と仮定したり、拗音の集計方法など)をつけて算出した数値でしかありません。集計方法に欠点がありますし、使用するデータベースによって傾向も変わります。あくまで参考用のデータや判断材料のひとつとして考えてください。

おわり。

いいなと思ったら応援しよう!