表記ゆれやレイアウトがバラバラな書類でもデータ化できますか?

 
A:はい、可能です。当社のAI-OCRは、生成AI(LLM)が文脈を理解するため、取引先ごとに異なる表記ゆれや複雑なレイアウトの違いを自動で吸収し、あらかじめ指定した統一フォーマットで出力します。
従来のOCRでは困難だった「人間による目視確認と補正」の工程を、AIが代行します。具体的には以下の4つの機能により、精度の高いデータ化を実現します。

1. 寸法・規格・単位の自動正規化

「10センチメートル」「10cm」「10センチ」など、入力元によって異なる単位表記を、指定のフォーマット(例:10cm)に自動で変換して統一します。マスターデータへの取り込み前の加工プロセスが不要になります。
 

2. 文脈理解による情報の選別(ピンポイント抽出)

一つのセル内に「数量」と「単価」が混在しているものから、「数量」のみを抽出したい場合や、不要な記号や注釈が含まれていたりする場合でも、AIが文脈を判断して必要な項目だけを抽出します。
  • 例: 「¥1,000 / 34個」という記述から、数量の「34」のみを抽出
 

3. 日付フォーマットの統一

西暦(2023-04-01)、スラッシュ区切りなど、バラバラな日付形式を任意の形式(例:2023/04/01)に揃えて出力します。
 

4. あらゆるレイアウトへの対応

縦型のPDF、横型のExcel、さらには手書きのメモまで、書類のレイアウトを問いません。AIがドキュメント全体の構造を解析し、一つの統一されたフォーマット(CSV/エクセル(.xlsx)等)に変換して出力します。