カラクリ、日本企業初のComputer-Using Agent「KARAKURI VL」を公開 - コンピュータ操作を完全自動化できるAIエージェント

GENIAC2期で開発、日本語画像読解タスクで国内最高性能を達成

カラクリ株式会社

カスタマーサポートに特化したAIエージェントを提供するカラクリ株式会社(東京都中央区:代表取締役CEO 小田志門、以下カラクリ)は、日本企業として初めて※1 Computer-Using Agent(CUA)モデル「KARAKURI VL」の開発に成功しました。本モデルは、経済産業省・NEDOが推進する「Generative AI Accelerator Challenge(GENIAC)」第2期のプロジェクトを通して、日本のカスタマーサポート現場向けに最適化されたCUAを開発し、日本語画像読解タスクでは国内最高性能※2 を達成いたしました。さらに国際標準ベンチマーク「OSWorld」を日本語環境向けに独自翻訳・改良したベンチマークも開発し、日本語環境でのCUA評価基準を確立しました。

■Computer-Using Agent(CUA)とは

CUA(Computer-Using Agent)は、自然言語の指示でコンピュータ操作を完全自動化する次世代AI技術です。画面のスクリーンショットを視覚的に認識し、マウスクリックやキーボード入力をコマンドとして実行することで、人間と同様にあらゆるアプリケーションを操作できます。2024年10月のAnthropicによる「Computer Use」機能の発表、2025年1月のOpenAIによる「Operator」の発表により商用化が本格化。現在の最高性能モデルはOSWorldベンチマークで42.9点(人間の72.4点に対し約59%)※3 を記録しています。

■開発背景

CUA技術は急速に発展していますが、既存のモデルはすべて海外企業によって開発され、英語環境を前提としています。日本企業がCUAモデルを独自開発した例はこれまでありませんでした。特に以下の課題が存在していました

  • 日本語UIの文字認識精度の低さ(縦書き、複雑な図表やインターフェイスが含まれる日本語の認識)

  • 日本独自のビジネスアプリケーションへの対応不足

  • 日本語での指示理解と実行精度の問題

  • 日本語環境でのCUA性能を適切に評価するベンチマークの不在

カラクリは、これらの課題を解決するために、日本市場に最適化された独自のCUAモデルの開発に着手しました。

■KARAKURI VLについて

KARAKURI VLはQwen2.5-VLをベースにして、日本語環境に特化したComputer Using Agent向けのVision Languageモデルです。AWS Trainiumを用いて開発された公開事例の中では世界初※4 のQwen-2.5-VL大規模Vision Languageモデルになります。

本モデルの開発は、日本のカスタマーサポート現場が直面する課題を解決することを目的としています。顧客からの問い合わせに対応しながら、複数のシステムを操作し、マニュアルを参照し、適切な回答を作成するという複雑な業務フローをAIが自動化できるよう設計されました。

デモ動画:

1080p以上での視聴をおすすめいたします。画質アイコン(歯車マーク)から選択できます。

【技術的特徴】

基盤技術

◦学習の起点:Qwen2.5-VL(視覚言語モデル)を使用

◦日本語能力の高い画像認識可能なVLMを独自開発

日本語環境への最適化

◦日本語UIの文字認識に特化(縦書き・横書き混在環境に対応)

◦複雑な日本語マニュアルやフローチャートの読解能力

◦日本のカスタマーサポート現場で使用される複雑な図表の理解

◦トークスクリプトやフローチャートを見ながらの業務遂行に対応

【日本語画像読解タスクの性能評価】

国産で10B〜30B帯のオープンモデルに加えて、ベースモデルとして使用したQwen2.5-VL-32B、10B〜30B帯の代表的なモデルであるLlama3.2-11B、Gemma3-27Bを、以下3つのベンチマークで評価した結果一覧(2025年6月時点)

【公開URL】

対話型モデルと推論モデルの2つを公開しております。


対話型モデル
https://huggingface.co/karakuri-ai/karakuri-vl-32b-instruct-2507

推論モデル
https://huggingface.co/karakuri-ai/karakuri-vl-32b-thinking-2507-exp

デモ環境

https://vl.karakuri.cc/

※デモは期間限定で予告なく閉じる場合がござます。予めご了承ください。

■独自ベンチマーク開発

開発にあたっては、国際標準ベンチマークOSWorldの日本語版(OSWorld-JP)を独自に作成いたしました。これは単なる翻訳作業ではなく、約400のタスクを日本の業務環境に合わせて改変し、日本語環境でのCUA評価の新たな基準を確立したものです。この成果は2025年5月に人工知能学会が主催する「JSAI2025」で発表し、オープンソース化しております。
JSAI2025の発表内容:https://confit.atlas.jp/guide/event/jsai2025/subject/3Win5-56/advanced

OSWorld-JP:https://github.com/karakuri-ai/OSWorld-JP

開発過程では、全社員が一丸となってOSWorldベンチマークの日本語化に取り組み、日本独自の業務環境を反映した評価基準を確立しました。この取り組みにより、日本語環境でのCUA性能を正確に測定し、改善していく基盤が整いました。

■今後の展望

現在のモデルでは、まだ実用面での課題が多いのも事実です。コンピュータの操作権限を与えることによる暴走リスク、プロンプト作成に専門知識が必要な点、各社独自ツールへの対応の困難さなどが浮き彫りになりました。カラクリは以下の技術革新により、これらの課題解決を進めます。


【技術】

オムニモーダル化による直感的インターフェース

現在の画像+テキストのみの対応から、音声も含むオムニモーダルモデルへと拡張します。これによりプロンプト入力の手間をなくし、インタラクティブでより直感的な体験を実現。特にカスタマーサポート領域では音声対応により適応可能な範囲が大幅に広がります。

強化学習による性能革新

今回公開したKARAKURI VLでも、DeepSeek R1やOpenAI Operatorなど、強化学習により飛躍的な性能向上を実現した事例を参考に強化学習を実施しております。今後はより大規模な強化学習を実施し、「OSWorld-JPベンチマークでの大幅なスコア向上」「企業環境での自律的な問題解決能力の獲得」を目指してまいります。

【実用化に向けたカスタマイズ】
ガードレール技術の高度化

生成AIの能力拡張では「できないこと」を明確に定義することが重要です。従来のテキスト処理では単純な入出力監視で十分でしたが、汎用的なツール使用権限を持つAIエージェント時代には対応しきれません。ルールベースでの行動制限と画像認識を使った監視を組み合わせ、生成AIの入出力を監視して行動をブロックしたりアラートを出す高度なガードレールの設置が必要です。

ベースモデルに企業固有の操作パターンを学習

ベースモデルは汎用的なコンピュータ操作を学習しただけのため、各企業で活用するには過去のオペレーター操作やAI自身の試行錯誤を通じて企業環境を深く学習することが必要になります。ツールのテスト環境での試行錯誤を繰り返し、ベテランオペレーターレベルに成長させます。


※1 カラクリ社調べ(2025年6月調査・オープンソースおよびインターネットで情報公開されている国産LLMとして)

※2 JDocQA (Acc)・JMMMU・Heron 3つのベンチマークを使用して2025年6月に日本語画像読解タスクを評価

※3 2025年7月3日時点のリーダーボードより引用 https://os-world.github.io/

※4 カラクリ社調べ(2025年6月時点・AWS Trainium上で学習した公開されている事例の大規模VLモデルとして)


▶ 会社概要

カラクリは「FriendlyTechnology」というビジョンを掲げ、大規模言語モデル(LLM)のカスタマーサポートへの実用化を目指すAIスタートアップです。2018年からはトランスフォーマーモデルであるBERTの研究を開始し、2022年からはGPTを含む大規模言語モデルの研究に取り組んでいます。また当社のSaaS事業で提供するカスタマーサポート向けAIシリーズは、高島屋、SBI証券、セブン-イレブン・ジャパン、星野リゾートなど、各業界のトップ企業に選ばれ続けています。

【主な実績】
・2018年  ICCサミット「スタートアップ・カタパルト」入賞
・2020年  Google for Startups Accelerator2020に採択
・2022年  Google for Startups Growth Academy Tech 2022に採択
・2023年    AWS LLM開発支援プログラムに採択
・2024年    生成AI実用化推進プログラムに認定
・2024年  Meta社 完全招待制の生成AI開発者会議に参加
・2024年    経産省「GENIAC」に採択

住所   : 〒104-0045 東京都中央区築地2-7-3 Camel 築地 II 5F

設立   : 2016年10月3日

代表者  : 代表取締役CEO 小田 志門

事業内容 : AIアルゴリズムの研究開発、カスタマーサポート特化型AI「KARAKURI」シリーズの開発・提供・運営など

URL   : https://about.karakuri.ai/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


関連リンク
https://karakuri.ai/
ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

カラクリ株式会社

37フォロワー

RSS
URL
http://www.karakuri.ai/
業種
情報通信
本社所在地
東京都中央区築地2-7-3 CAMEL 築地2 5F
電話番号
-
代表者名
小田 志門
上場
未上場
資本金
6億7140万円
設立
2016年10月