Whisper × Claude APIで面接官AIを構築。音声からエンジニア特化5軸採点を実現する技術フローを公開

3分の音声回答を5軸スコアに変換する——AI面接練習サービス「MENREN」の技術フロー全解説

X-HACK

2026年4月9日 10時00分

エンジニア転職に特化したAI面接練習サービス「MENREN」を提供する株式会社X-HACK（本社: 東京都品川区、代表取締役: 松田信介）は、先日のサービスリリースに続き、生成AIの実践的な活用事例としてMENRENを支える技術アーキテクチャを公開いたします。

OpenAI Whisper APIによる高精度な音声認識と、Anthropic Claude APIによるエンジニア面接に特化したAIフィードバック生成を組み合わせることで、「AIとチャットする」だけでは実現できない"AI面接コーチ"の体験を実現しています。

サービスURL: https://menren.recruit-hub.ai/

■ ChatGPTに「面接練習して」と頼むだけでは解決できない課題

ChatGPTの音声モードに「面接練習をして」と話しかければ、手軽に模擬面接の体験ができる時代になりました。しかし、エンジニアの面接対策として使おうとすると、以下のような課題が残ります。

評価基準が曖昧：「良い回答ですね」のような汎用的なコメントが返るだけで、技術説明力や具体性など、エンジニア採用で重視されるポイントが評価されない
練習の記録が蓄積されない：何回やっても履歴が残らず、自分が上達しているのか分からない
「話す力」の課題に気づけない：テキスト入力では気づけないフィラー（「えーと」「あの」）の多さや、論理の崩れを可視化できない

MENRENはこれらの課題を、音声認識AIとClaude APIを組み合わせた技術アーキテクチャで解決しています。

■ なぜ「音声」にこだわるのか

面接は「話す」場です。頭の中で考えた回答をテキストで入力しても、本番で同じように話せるとは限りません。声に出すと論理が崩れる、時間配分がわからない、フィラーが増える――これらは実際に声を出してみなければ気づけない課題です。

MENRENが音声入力にこだわる理由はここにあります。ユーザーがマイクに向かって話すことで、本番に限りなく近いAI面接練習の環境を提供しています。

■ 技術フロー：音声からAIフィードバックができるまで

MENRENでは、ユーザーが音声で回答してからフィードバックが返るまでに、3つのAI処理ステップを経ています。

【ステップ1：音声録音（ブラウザ）】

ユーザーのブラウザ上でMediaRecorder APIを使って音声を録音します。専用アプリのインストールは不要で、ブラウザだけで動作します。録音中は波形アニメーションを表示し、ユーザーが「話している実感」を持てるようにしています。

【ステップ2：音声認識（OpenAI Whisper API）】

録音された音声はサーバーに送信され、OpenAI Whisper APIで文字起こしされます。

日本語の面接回答には専門用語（「マイクロサービス」「CI/CD」「スクラム」など）が頻出します。汎用的な音声認識では誤認識されやすいこれらの技術用語を、Whisper APIは高い精度で認識できます。

開発初期には「CI/CD」が「シーアイシーディー」とカタカナで認識される問題がありましたが、Whisper APIのpromptパラメータに技術用語リストを渡すことで解決しました。この認識精度がフィードバックの質を左右するため、音声認識エンジンの選定には特にこだわりました。

【ステップ3：AIフィードバック生成（Anthropic Claude API）】

文字起こしされたテキストは、質問文・ユーザーのプロフィール情報（職種・経験レベル・業界）とともにAnthropic Claude APIに送信されます。

Claude APIが担うのは単なる「添削」ではありません。エンジニア面接に特化した5つの評価軸（技術説明力・論理構造・具体性・表現力・流暢さ）でスコアリングを行い、良い点・改善点の具体的なコメントを生成します。

さらに、質問カテゴリ（技術課題系・自己PR系・志望動機系など）に応じて各軸の評価ウェイトを自動調整しており、質問の意図に合った的確なAI面接対策フィードバックを実現しています。

■ 開発で追求したUXと評価設計

【待ち時間を"面接の間"に変えるUX設計】

MENRENでは、AI処理の待ち時間を「面接官が考えている時間」として体験に組み込んでいます。

実際の面接でも、面接官が回答を聞いた後に少し考える時間があります。MENRENではこの「間」を再現し、AI面接官が「考え中」のうなずきアニメーションを表示することで、Whisper APIの音声認識（平均2〜3秒）とClaude APIのフィードバック生成（平均5〜8秒）を合わせた約10秒の処理時間を、自然な面接体験に変えています。

【エンジニア採用の現場に合わせた5軸評価の設計】

MENRENの5軸評価（技術説明力・論理構造・具体性・表現力・流暢さ）は、エンジニア面接経験者へのヒアリングをもとに設計しています。

当初は3軸（技術力・論理性・表現力）でしたが、「数値やチーム規模を交えた具体性」と「フィラーの少なさや回答テンポといった流暢さ」が合否を分けるポイントだと判明し、5軸に拡張しました。

さらに、質問の種類によって「技術説明力を重視すべき質問」「表現力が問われる質問」のように評価の重みを自動調整することで、画一的でないフィードバックを実現しています。

■ 技術スタック

レイヤー	技術	役割
フロントエンド	Next.js（TypeScript）	UI・音声録音・フィードバック表示
バックエンド	Ruby on Rails（APIモード）	ビジネスロジック・API
音声認識	OpenAI Whisper API	音声→テキスト変換
AI評価	Anthropic Claude API	5軸採点・フィードバック生成
インフラ	AWS（ECS Fargate / RDS / CloudFront）	本番環境
認証	Supabase Auth	ユーザー認証

■ 今後の技術的な展望

現在はユーザーが1問ずつ練習する形式ですが、今後はClaude APIのストリーミング機能を活用し、AIが回答内容を踏まえてリアルタイムに深掘り質問を生成する「面接モード」の開発を進めています。本番の面接で感じる「突っ込まれる緊張感」をAIで再現することを目指しています。

さらに、練習結果をX（Twitter）でシェアできるSNS連携機能の提供も開始しています。エンジニアの「スコアを見せたい」文化に合わせ、5軸スコアカードを手軽に共有できます。この機能の詳細は次回のプレスリリースで改めてご紹介いたします。

サービスURL: https://menren.recruit-hub.ai/

■ 会社概要

会社名　　　　株式会社X-HACK

所在地　　　　東京都品川区東五反田2-5-2 THE CASK GOTANDA 702

代表者　　　　代表取締役松田信介

設立　　　　　2018年3月

事業内容　　　生成AI／LLM活用支援、AI駆動型開発基盤の設計・開発、ITシステム導入支援・受託開発

コーポレートサイト　https://x-hack.jp

■ 本件に関するお問い合わせ先

株式会社X-HACK

担当: 豊田

E-mail: support@menren.recruit-hub.ai

すべての画像

種類: 商品サービス
ビジネスカテゴリ: ネットサービスシステム・Webサイト・アプリ開発
キーワード: AI面接面接対策エンジニア転職面接練習AI転職
関連リンク: https://menren.recruit-hub.ai/
ダウンロード: プレスリリース素材
このプレスリリース内で使われている画像ファイルがダウンロードできます