きっぷに記載の文字にラベル付けをする

前回の続き。


文字を検出するだけなら、OCRかけるだけなのでそれほど難しくないのです。問題はここから。文字と位置から、列車名・号車・座席+発駅・発車時刻・着駅・到着時刻を特定したいのであります。あ、乗車日も欲しいですね。

人間の目で見ると

あらためてきっぷの写真を見てみましょう。

列車名  → 115号
号車   → 2号車
座席   → 9D

乗車日  → 5月29日
発駅   → 国府
発車時刻 → 14:23
着駅   → 名鉄金山
到着時刻 → 15:03

この値を読み取ることができます。
これは、機械に判断させたときの期待する結果でもあります。

機械に判断させようとすると

名鉄ミューチケットの場合、115号という列車名では、乗る列車の特定が難しそうです。発駅・発車時刻もないときつい。なので、まず発駅の特定を。

読み取らせているのがきっぷなので、書かれている名詞が駅名である可能性は非常に高いです。では、駅名っぽいものを探してみましょう。太字にした4つが駅名として判断できる文字列が含まれています。

x,y,width,height,text,confidence
1124.463,8,1,青,0.18
1124.476,8,1,-,0.1
1123.517,8,14,---,0.64
252.402,3314,508,(名古屋鉄道)の特別車両券(Cユーチケット)01533-C5DEP.,0.75
1012.606,2501,543,FIRSTCLASSCARTICKET360.国府,0.98
2775.949,694,262,14:23凳,0.77
928.1242,2674,589,名鉄岐阜ゆき名鉄金山,0.98
2947.1531,508,197,15:03着,0.91
1381.1124,4,11,于,0.22
469.1429,243,96,ARR,,0.87
838.1154,1813,1304,名鼓山-5月29日29,0.49
1162.1775,483,77,KANAYAMA,0.98
3130.1671,442,219,15g,0.51
3132.1861,783,597,30|,0.42
2842.2223,8,9,人。,0.12
1124.2302,308,144,MONTH,0.99
2499.2365,9,3,.,0.79
1680.2297,182,143,DAY,0.99
2216.2289,384,145,CARNO.,0.95
2907.2282,412,145,SEATNO.,0.92
158.2579,1419,194,2016.-5.29,0.96
2529.2540,843,197,国府01001,0.91
2494.2888,3,9,。,0.1
2407.2901,3,9,后,0.18
2410.2895,68,21,vit,0.22
2430.2893,33,14,””,0.52
3020.2943,6,17,;,0.32
2916.2960,6,17,表,0.08
3189.2979,14,14,:::,0.75
3208.2986,26,18,“..,0.19
2347.3015,2,10,1,0.25
2413.3012,11,10,::,0.21
3243.3013,3,11,-,0.25

ここから、「発駅が国府」ということを特定するにはどうすればよいでしょうか。ざっと考えてみると、以下のように推測しているかと思います。

・すぐ左に「DEP」って書いてあり、その右側に書いてある駅名だから
・ブロック矢印の上に書いてある駅名だから
・14:23発と書いてあり、その左側に書いてある駅名だから
・この時、国府駅にいたから

などなど。

これらの判断を機械にさせるにあたって、次回以降ロジックを考えてみます。

いいなと思ったら応援しよう!