514日目 パソコンで作った書類を印刷した後、スキャンして画像としてデジタル化することはダメなデジタル化

WordやExcelで作った書類を印刷して、それをもう一度スキャンして、PDFにして保存してデジタル化をしている場合があります。

これは誤ったデジタル化の一例です。

まず、3つの無駄が生じます。

①プリンター、紙、インク、スキャナー、印刷、印刷、スキャンするための電力の無駄
最終的にデジタルにして保存するので、これらの無駄が生じます。

②印刷、スキャンする作業、印刷物を破棄すると作業が無駄
印刷したり、スキャンしたりするのは、人だと思います。その作業が無駄です。

③ ファイル容量の無駄
書類はPDFで保存する場合が多いと思います。
WordやExcelを紙に印刷せずに直接PDFに変換した場合と印刷してスキャンした場合、スキャンしたデータは画像データであるため、ファイルの容量が大きくなります。

情報の品質低下もします。

WordやExcelの文字情報は文字コードという数字を割り当てているだけです。文字の色、大きさ、フォントは文字コードを数式で処理して表示しています。そのため、文字の色、大きさ、フォントが変わっても、データ容量は変化しません。このようなデータをベクタデータと言います。

これがスキャンしたデータになると、文字コードではなく、ビットマップデータやラスタデータという別のデータになります。

ビットマップデータとは、画像を方眼紙のように細かく分割して、1マスが何色かというデータを表示したものです。

文字の大きさが倍になると4倍のデータになります。

見た目は同じように見えますがデータの種類は文字コードではなく、画像としての情報であり、人が見て初めて文字と認識できます。データとして文字情報は持っていません。

そうなると、ファイル内で文字を検索する事ができなくなります。

文字として認識するためには、OCR(Optical Character Recognition/Reader)という技術を使って、文字コードを認識する必要があります。

OCRの読み取り成功率は、100%ではありません。
日本語の場合、
漢字の「化」を半角カタカナの「イヒ」と認識してしまったり、
漢字の「夕」を全角カタカナの「タ」と認識してしまったりします。

単語や文脈から補正をかけることもできますが、それでも100%にはなりません。

このように、もともとは文字コードという文字情報を持っていたものが、印刷して、スキャンしたことにより、文字情報がなくなり、情報が劣化します。

文字を検索できる場合と検索できない場合は、比べるまでもなく、業務の効率はどちらが良い分かると思います。

処理を自動化しようと思っても、文字情報を持っていないので、更なる効率化もできません。

ベクタデータとビットマップデータの違いは、高校の情報Ⅰという科目で習う内容です。

4,5年後に入社してくる新入社員は高校で習った知識として知っているため、こう言った知識のない20代、30代、40代の人は、彼らに仕事が奪われていくことになるでしょう。

今からでも遅くないので、知識を身に着けて悪き行動をやめましょう。

概念的な知識ではなく、基本的な知識を身につけましょう。

いいなと思ったら応援しよう!