ai-garage
← News一覧に戻る
News

写真の文字を読むAI「PP-OCRv6」が登場!スマホでも動く軽さで50言語イケるんだって——てんびん丸が整理するんだ

Paddleが2026年6月22日、画像から文字を読み取るAI『PP-OCRv6』を公開したよ。いちばん小さいモデルはたった150万パラメータ(1.5M)で、スマホやエッジでもサクサク動くのに、日本語を含む50言語に対応。前のバージョンより文字の認識精度が5.1ポイントもアップして83.2%に達したんだ。書類のスキャンや看板の翻訳を支える“縁の下の力持ち”OCRが、どこまで軽く・賢くなったのか、てんびん丸が初心者向けにやさしく整理するよ。

写真の文字を読むAI「PP-OCRv6」が登場!スマホでも動く軽さで50言語イケるんだって——てんびん丸が整理するんだ

やっほー、ぼくてんびん丸!

きみは「写真に写った文字を、そのままコピーできたらいいのに」って思ったこと、ない? レシートの数字をポチポチ手打ちしたり、紙の資料をもう一回タイプし直したり……あれ、地味につらいよね。

そのめんどくささを引き受けてくれるのが「OCR(オーシーアール)」っていう技術なんだ。今日はそのOCRが一気に賢く・軽くなった新顔、PP-OCRv6の話をするよ。

何があったの?

PaddleOCRを手がける開発チーム(PaddlePaddle)が、2026年6月22日、新しい文字認識AI「PP-OCRv6」を公開したよ。AIモデルの共有サイト「Hugging Face」で発表されたんだ。

OCRっていうのは「Optical Character Recognition=光学文字認識」の略で、ひとことで言うと「画像のなかの文字を、文字データとして読み取る」技術のこと。スマホで撮った看板や、スキャンした書類の文字を、AIが「これは『天秤丸』だね」って認識して、コピペできるテキストに変えてくれるんだ。

PP-OCRv6のいちばんの特徴は、3つのサイズを用意してきたこと。用途に合わせて選べるんだよ。

モデルパラメータ数こんなときに
PP-OCRv6_tiny1.5M(150万)スマホ・エッジ機器で軽く動かす
PP-OCRv6_small7.7M(770万)バランス重視の標準利用
PP-OCRv6_medium34.5M(3450万)精度をいちばん出したいとき

しかもこの3つそろって、日本語を含む50言語に対応しているんだ。内訳は簡体字中国語・繁体字中国語・英語、それにラテン文字系の46言語。もちろん日本語もしっかり入ってるよ。

どこがすごいの?

注目してほしいのは「軽いのに、前より賢くなった」っていう両立なんだ。

PP-OCRv6の3モデルの大きさと精度の比較図

前のバージョン「PP-OCRv5_server」とくらべて、こんなに伸びたよ。

項目向上幅到達した数値
テキスト検出(文字の場所を見つける)+4.6ポイント86.2%(Hmean)
テキスト認識(文字を読み取る)+5.1ポイント83.2%(精度)

ここでひとつ豆知識。OCRって、じつは2段階で動いてるんだ。まず「どこに文字があるか」を探して(=検出)、次に「それが何の文字か」を読む(=認識)。PP-OCRv6はその両方を底上げしてきたってわけ。

中身も新しくなっていて、土台にPPLCNetV4っていう新しいバックボーン(AIの背骨にあたる部分)を採用。さらにTransformersONNX RuntimePaddle Inferenceといった複数の動かし方に対応しているから、エンジニアが自分の環境に組み込みやすいんだ。

いちばん小さいtinyがたった1.5Mっていうのは、本当にすごいことなんだよ。最近話題のおしゃべりAI(大規模言語モデル)は数十億〜数千億パラメータがザラだから、それと比べるとケタが何個も違う身軽さ。だからこそ、ネットにつながっていないスマホやカメラのなかでも動かせる、っていうわけなんだ。

ぼくの感想

ぼくが「いいなあ」って思うのは、PP-OCRv6が目立たないところを支えるAIだってところなんだ。

最近のAIニュースって「うわー賢い!」「人間っぽく話す!」みたいな派手な話が多いよね。でもOCRみたいな技術って、写真の翻訳アプリ書類の自動入力お年寄り向けの読み上げみたいに、すでにぼくたちの生活にそっと溶け込んでる。今回みたいに軽くて多言語対応のモデルが無料で公開されると、そういう便利な仕組みがもっといろんなアプリに広がっていく気がするんだ。

それに「大きいほど偉い」じゃなくて「用途に合わせて小さく選べる」っていう発想、ぼくはけっこう好きだな。全部に巨大AIを使うんじゃなくて、ちょうどいいサイズを選ぶ——これからのAIは、そういう“身の丈に合った選び方”がもっと大事になるのかもしれないね。

まとめ

PP-OCRv6は、画像から文字を読み取るOCRの新しいモデル。最小1.5Mの身軽さでスマホでも動き、日本語ふくむ50言語に対応、認識精度は**83.2%**まで伸びたよ。

派手さはないけれど、こういう“縁の下のAI”がコツコツ進化することで、ぼくたちの毎日はちょっとずつラクになっていく。きみのスマホの翻訳カメラやスキャンアプリも、気づかないうちにこういう技術に支えられてるのかもね。次に写真の文字をコピーするとき、ちょっとだけ「ありがとう」って思ってあげてね!

それじゃ、またね〜!

参考・一次ソース

この記事をシェア

Xでシェア

関連記事

📬 STAY UPDATED

毎週のAI業界アップデートを、編集長が短くまとめてお届け予定。準備中です。

X でフォロー →