Mistral AI、業界最速・多言語対応のOCRモデルを提供開始

出典:Mistral OCR | Mistral AI

フランスのAIスタートアップ企業であるMistral AIは、複数言語に対応した高精度OCR(光学式文字認識)モデル「Mistral OCR」のAPIを公開しました。

OCRとは、画像やPDFからテキスト情報を抽出する技術であり、今回発表されたAPIはマルチモーダル(複数形式のデータ処理)対応が特徴です。

「Mistral OCR」は、テキストだけでなく表や数式、画像などを文書の構造を維持しながら抽出することが可能です。

抽出された情報はMarkdown形式で提供され、解析や再利用が容易になります。

また、同モデルは複雑なレイアウトを持つ文書や、科学論文に頻繁に見られる数式、グラフ、LaTeX形式なども高精度で処理できるということです。

同社によると、このモデルはGoogleやマイクロソフト、OpenAIが提供する既存の主要OCRモデルを超える94.89%という高い認識精度を達成しており、ベンチマークテストにおいて業界トップの性能を示しました。

出典:Mistral OCR | Mistral AI

特に、フランス語、中国語、ヒンディー語、アラビア語をはじめとする多言語文書の処理でも高評価を獲得しています。

さらに、Mistral OCRは処理速度においても業界最速を謳っており、大規模な文書処理にも適しています。

抽出したデータを自動的に次の作業に連携することも可能で、文書をプロンプトとして用いて特定情報をJSON形式などで構造化し、業務効率化を実現できます。

同モデルのAPIは開発者向けプラットフォーム「la Plateforme」で提供が開始されており、今後クラウド環境やパートナー企業経由のほか、オンプレミス(自社環境)への導入も順次進める予定としています。

Mistral AIはこの技術を通じて、世界に蓄積された膨大なドキュメント情報の活用を促進し、イノベーションを加速させたい考えです。


出典:Mistral OCR | Mistral AI
出典:OCR and Document Understanding | Mistral AI Large Language Models

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次