#26 「非構造化データを構造化するAI: 大企業の社内には埋もれたお宝データが眠っている」

2024年12月31日 17:00

デデデータ!!〜“あきない”データの話〜第16回「大企業の社内には埋もれたお宝データが眠っている -非構造化データを価値に変える構造化AIとは -」の台本・書き起こしをベースに、テキストのみで楽しめるようにnote用に再構成したものです。podcastで興味を持った方により、理解していただくために一部、リファレンスをつけています。

長く「データ活用」や「デジタルトランスフォーメーション（DX）」に携わってきた経験から、企業のデータやAI、システム導入にまつわるあれこれを語ることが多い。けれど、どうも世間のDXブームを横目に見ていると、実際に成果を出せていない現場がまだまだ多いように思う。

今回は「大企業の社内に山のように埋もれている“非構造化データ”」に着目したい。契約書や見積書、図面、コールセンターの問い合わせ記録など、形が揃わないバラバラのデータ。これらが実は宝の山であり、DXの真髄とも言うべき存在だと考えている。特に読んでほしいのは、社内データを活かしたDXに本気で取り組みたい経営者・マネージャー、あるいは情報システム部門や事業推進担当の人たち。

非構造化データこそがDXの秘めたる“主役”

DXという言葉が広まってずいぶん経つ。ERPや販売管理システム、人事情報システムなど、すでに整備済みの「構造化データ」は多くの企業が活用し始めている。たとえばSQLでテーブルを引っ張ってきて、BIツールで分析。売上推移や経費管理、顧客属性などはグラフ化しやすいからだ。しかし、社内に積み上がった紙の契約書、スキャンPDF、メール本文、FAX、コールセンターの音声ログ、設計図面といった「非構造化データ」は、相変わらずほったらかしのまま。

それはなぜか。単純に扱いづらいからだ。

表形式ではないため分析ツールでそのまま扱えず、人力で読み込み、必要に応じて転記するしかない。ヒヤリハット報告書を延々と手作業で見て集計する状況。何千枚もの見積書や請求書から、材料の単価を探す日々。データサイエンティストを雇ってOCRや機械学習モデルを作ってもらおうとしても、膨大な量のアノテーション作業で早々に挫折する。こうした現状に、私は長年もどかしさを感じてきた。

しかし、近年はAIの進歩が著しい。自然言語処理（NLP）によって文章を自動で分析したり、画像認識によってスキャン書類を自動で構造化したりする技術が実用レベルに達している。

私の見るところ、企業がDXで本当の飛躍を遂げるカギはまさにこの「非構造化データの活用」にあるのではないかと思うようになった。

まだ誰も手をつけていない“秘境”を切り拓くようなダイナミックさ。データサイエンティストなら、それこそデータが持つ魔法のような面白さがある。

なぜ埋もれているのか、そしてなぜ“お宝”なのか

契約書や図面、お問い合わせ記録などの非構造化データは、企業にとって最重要ともいえる知的財産の集合体。

たとえば契約書には、過去の取引条件や顧客ごとの特記事項が克明に記録されている。図面や設計データには、建設・製造業のノウハウが凝縮されている。問い合わせ履歴には、顧客がどう感じ、どこに不満やニーズを持っているかが赤裸々に表れている。

だが、形がバラバラ、内容も多種多様、担当部署も分散しているうえ、そもそも「どこに何があるのか分からない」。それが実情だ。いわゆる「サーバーの肥やし」として放置されるか、クラウドストレージの深い階層に沈んでいる。この状態では分析や活用ができない。まるで地底に埋まった巨大資源を掘り出す手段がないようなもの。

とはいえ、近年はAIOCRやNLPが劇的に進化し、画像や音声からテキストを抽出したり、文脈を自動判別したりできるようになった。非構造化データを「構造化」するためのハードルが、確実に下がってきている。つまり、昔はコスト面や技術面で大変だった発掘作業が、格段にやりやすくなったわけだ。

損害保険会社での事故報告書の分析

ここで一つ、体験談を挟もう。ある損害保険会社が膨大な事故報告書を抱えていた。代理店ごとに書式が違い、紙やPDFが入り混じり、一枚一枚、内容を目視で拾っていた。雨天事故が多いのか、どういった不注意で事故が頻発しているのか。本当は分析すれば見えてくるはずなのに、データがバラバラすぎて手の打ちようがない。どうにかならないか、と相談を受けた。

そのとき感じたのは「現場担当者は疲れ切っている」ということ。データを手作業で構造化する作業は地味だし、退屈だし、ミスすると責められる。工数も際限なく大きくなる。これではいつまでたっても付加価値の高い仕事にシフトできない。私が提案したのは、AI-OCRで文字を起こし、自然言語処理で事故内容や損害箇所などのタグを自動で付与する仕組みだった。

これにより何万件もの報告書を瞬時に集計し、“雨の日×駐車場での事故が多い”といった事実がはっきりした。事故発生の傾向を可視化し、今後の対策に役立てるまでがワンセット。劇的に業務が変化し、担当者は別の戦略業務に注力できるようになった。

この話は氷山の一角。工事現場のヒヤリハット報告書や、コールセンターのクレーム通話記録、設計図や見積書など、同じような「構造化の壁」にぶち当たっている企業が少なくない。

見積書という“ナレッジの宝庫”

もう一つの事例として、見積書を例に挙げる。建設や製造業では、さまざまな部材や資材の価格が高騰したり、調達先が替わったりする。そのたびに複数社から見積もりをとり、Excel表などで管理するはずなのだが、部材名や項目名、書式は会社ごとに微妙に違う。原価計算をしようにも、どこに何が書かれているのか読み解く時間が膨大。結局、人間が目で追いかけて単価を打ち直す。非常に非効率だ。

しかし、AIに処理させれば、建材ABCが1㎡あたりいくらか、どんな条件でコストが上下しているかを構造化データとして抽出できる。すると「似た規模の工事では、過去平均○円だった」「この材料は市場価格が昨年対比で10％上昇している」といった事実を即座にレポートできる。見積書がナレッジの宝庫に変わるわけだ。

非構造化データを構造化するAIの技術要素

では、どうやって非構造化データを構造化するのか。
代表的な技術を簡単に整理する。私自身、いろいろ試行錯誤をしてきたが、今は以下の組み合わせが多い。

自然言語処理（NLP）
テキストをトークンに分割したり（トークナイゼーション）、固有名詞を抽出（ネームドエンティティ認識）したりする。問い合わせ内容や報告書からキーワードをラベリングするのに必須。
画像処理 / OCR
契約書や見積書などをスキャンしたPDFから文字を読み取る。書式が多少ずれていても、機械学習によって高精度で文字を認識する。最近はAIOCRの技術で手書き文字にも対応可能。
音声処理
コールセンターや会議録音をテキスト化し、感情解析やキーワード抽出を行う。数百時間分の音声データでも、一度に大量処理できるから効率がいい。
ビデオ解析
監視カメラ映像や現場作業の動画から、危険行動や特定の動作を認識する。倉庫内作業の改善やマーケティングの分析にも応用が利く。

これらのAI技術を連携させ、さらにデータマイニングで関連性を探り、可視化ツールで管理者が一目で概要を把握できる状態を作るのが理想。それが非構造化データ活用のゴールの一端である。
最近では、LLMが進化したことで、より簡単に精度を高められるようになったのだが、それはまた別の話だ。

「構造化がすべて」ではない。しかし門はそこにある

私自身、クライアントに「すべての非構造化データを一括で整理しましょう」とは言わない。

予算やリソースの問題もあり、すべてを一気に構造化するのは現実的ではないからだ。むしろ「とにかく現場が困っている業務」からAI化するのがおすすめ。毎月数百件以上の請求書や見積書がたまり、手作業に追われるとか、何万件もの問い合わせを統計的に把握したいが時間がないとか、そういった地味だが巨大な工数を削減することが効果的なスタートラインになる。

もちろん、大規模に導入しようとするとクラウドの従量課金がかさみコストが跳ね上がる場合もある。オンプレ環境とのハイブリッド構成や専用ツールの利用など、導入形態は工夫の余地がある。

以前のように「大企業の一部門だけがとてつもない予算をかける」時代ではない。中堅企業でも実現可能なソリューションが増えている実感がある。

図面DXがもたらす衝撃

さらにもう一つ、図面DXの事例。マンションデベロッパーやゼネコンなどで、過去の設計図や間取り図をすべてデータ化する取り組みに関わったことがある。これまで、どんな案件でもほぼゼロから図面を起こしていたが、AIにより「似た規模」「似た構造」のパターンを一瞬で検索できるようになった。

まるで巨大な図面の“図書館”が完成し、そこにラベルがきちんと付いている感覚。「前回の工事で採用したアイランドキッチン配置のバリエーションを探す」といった操作が瞬時にできるようになり、設計期間が約5分の1に短縮できたという話。さらには設計段階で繰り返していたミスや配置の無駄が見え、初期段階で修正をかけられる。これにはエンジニアも唸っていた。

元からあったはずのノウハウが、非構造化のまま埋まっていたために引き出せなかっただけ。こうした話は建設や製造の世界で広く共通する。たとえば工事現場のメンテナンスレポートをAI解析し、老朽化が疑われる設備を優先順位で並べる。結果、定期点検の手戻りが減る。コスト削減だけでなく、安全性も高まる。実に分かりやすい効果だ。

DXの新たなフェーズへ：埋もれたデータの民主化

ここまでの話をまとめると、非構造化データの構造化には大きな可能性がある。ビッグデータ解析で得られるインサイトに加え、単純作業の削減と人的リソースの再配置を実現する。さらには企業独自のノウハウや知識資産を後進に共有することで、属人的になりやすい業務を仕組み化できる。

ただ、私が何度も強調したいのは「導入ハードルが下がっている」という点だ。パブリッククラウドのAPIやSaaSを活用すれば、OCRやNLPのモデルをすぐに試せる。社内データのセキュリティや機密保持のためにオンプレ運用したいなら、それに対応したソリューションも存在する。大企業だけの特権ではなくなりつつあるのだ。

この流れを「データの民主化」と呼んでいる。以前は一部の専門家だけが扱えていた大規模AIやデータ分析が、多くの企業にとって選択肢となり始めた。ちょうどPCが普及して事務作業が高速化したように、非構造化データの活用も一気に広がる余地がある。

まとめ：宝の山を発掘するとき

大企業の社内には膨大なお宝データが眠っている。非構造化データはそのままでは使いづらく、「分析したくても手が出せない」状況に陥りやすい。だが、AI技術の進歩と導入形態の多様化によって、その壁は急速に低くなっている。

私自身、これまで数々の現場でデータを“掘り起こす”支援をしてきたが、得られる成果は想像以上に大きい。事故分析やクレーム対応のスピードアップ、契約書・見積書を通じたコスト削減やノウハウ再利用、図面やメンテナンス記録による設計最適化と安全性の向上。どれもこれも“非構造化を構造化する”作業なしには成し得なかった。

もちろん、現場導入にはコストや学習コスト、運用面の課題もある。しかし今こそ、その埋もれたデータを“負の遺産”として捨てるのか、“宝の鉱脈”と見て掘り下げるのかの岐路に立たされている。表形式のデータだけを追いかけていては得られない新たな気づきや、競合他社に差をつけるビジネスアイデアが潜んでいるかもしれない。

データ分析の準備時間は8割を占めるとよく言われる。非構造化データの取り扱いはまさにその準備工程の塊だ。だが、AIの力を借りれば、これまで人の手で処理していた作業量を大幅に削減できる。ポイントは小さな成功事例から始めて効果を実証し、社内に展開すること。これが「DXを継続的に回す仕組み」になる。

もし次に何か社内改革のテーマを探している人がいたら、ぜひこの非構造化データの活用に目を向けてほしい。契約書、見積書、設計図、事故報告書、ヒヤリハット、営業報告、お問い合わせ履歴…それらの山の奥に何が眠っているか。想像すると、わくわくしないだろうか。埋まっている宝を掘り出し、最前線で活かす。そこにこそ新しいイノベーションの芽が潜んでいる。今だからこそ、私はそう強く確信している。

専門用語解説

DX（デジタルトランスフォーメーション）
企業や社会がデジタル技術を活用し、ビジネスモデルや組織、プロセス自体を変革していくこと。単なるIT導入や自動化ではなく、デジタル化によって新たな価値創造や競争優位を目指す取り組み全般を指す。
非構造化データ
テキスト、画像、音声、動画など、表形式で定義されていないデータの総称。契約書、図面、コールセンター音声ログなどが典型例。単純な集計や検索が難しく、AIやOCRなどの変換技術が必要になる。
構造化データ
テーブル形式やCSVといった形で整理され、データベースなどで取り扱いやすいデータ。売上データや顧客台帳、人事システム情報などが典型例。
OCR（Optical Character Recognition）/ AIOCR
紙の書類や画像上の文字をデジタルテキストに変換する技術。AIOCRとは機械学習やディープラーニングを組み合わせ、手書き文字や複雑なレイアウトにも対応できる高度版を指すことが多い。
NLP（自然言語処理）
人間の言語（文章や会話）をコンピュータで解析する技術領域の総称。文章を単語に分割する「トークン化」、意味を理解する「文脈解析」、人名・地名などを抽出する「ネームドエンティティ認識」など、多岐にわたる手法を含む。
ネームドエンティティ認識（Named Entity Recognition）
NLPの技術の一つ。文章中から特定のエンティティ（固有名詞、組織名、地名、製品名など）を自動抽出し、情報を整理・構造化するために用いる。
データマイニング
大量のデータのなかから特徴的なパターンや関連性を発見し、意思決定や課題解決に活かす技術・手法。クラスタリングや分類、アソシエーション分析などが代表的。

非構造化データを扱う方法

https://www.stat.go.jp/teacher/dl/pdf/c4learn/materials/fourth/dai6.pdf

「DXレポート～ITシステム2025年の崖の克服とDXの本格的な展開https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/20180907_report.html
～」