Whisper × Claude APIで面接官AIを構築。音声からエンジニア特化5軸採点を実現する技術フローを公開
3分の音声回答を5軸スコアに変換する——エンジニア面接練習アプリ「Mentai」の技術フロー全解説

エンジニア転職に特化したAI面接練習Webアプリ「Mentai」を提供する株式会社X-HACK(本社: 東京都品川区、代表取締役: 松田信介)は、先日のサービスリリースに続き、生成AIの実践的な活用事例としてMentaiを支える技術アーキテクチャを公開いたします。
OpenAI Whisper APIによる高精度な音声認識と、Anthropic Claude APIによるエンジニア面接に特化したAIフィードバック生成を組み合わせることで、「AIとチャットする」だけでは実現できない"AI面接コーチ"の体験を実現しています。
サービスURL: https://mentai.recruit-hub.ai/
■ ChatGPTに「面接練習して」と頼むだけでは解決できない課題
ChatGPTの音声モードに「面接練習をして」と話しかければ、手軽に模擬面接の体験ができる時代になりました。しかし、エンジニアの面接対策として使おうとすると、以下のような課題が残ります。
-
評価基準が曖昧:「良い回答ですね」のような汎用的なコメントが返るだけで、技術説明力や具体性など、エンジニア採用で重視されるポイントが評価されない
-
練習の記録が蓄積されない:何回やっても履歴が残らず、自分が上達しているのか分からない
-
「話す力」の課題に気づけない:テキスト入力では気づけないフィラー(「えーと」「あの」)の多さや、論理の崩れを可視化できない
Mentaiはこれらの課題を、音声認識AIとClaude APIを組み合わせた技術アーキテクチャで解決しています。
■ なぜ「音声」にこだわるのか
面接は「話す」場です。頭の中で考えた回答をテキストで入力しても、本番で同じように話せるとは限りません。声に出すと論理が崩れる、時間配分がわからない、フィラーが増える――これらは実際に声を出してみなければ気づけない課題です。
Mentaiが音声入力にこだわる理由はここにあります。ユーザーがマイクに向かって話すことで、本番に限りなく近いAI面接練習の環境を提供しています。
■ 技術フロー:音声からAIフィードバックができるまで
Mentaiでは、ユーザーが音声で回答してからフィードバックが返るまでに、3つのAI処理ステップを経ています。
【ステップ1:音声録音(ブラウザ)】
ユーザーのブラウザ上でMediaRecorder APIを使って音声を録音します。専用アプリのインストールは不要で、ブラウザだけで動作します。録音中は波形アニメーションを表示し、ユーザーが「話している実感」を持てるようにしています。
【ステップ2:音声認識(OpenAI Whisper API)】
録音された音声はサーバーに送信され、OpenAI Whisper APIで文字起こしされます。
日本語の面接回答には専門用語(「マイクロサービス」「CI/CD」「スクラム」など)が頻出します。汎用的な音声認識では誤認識されやすいこれらの技術用語を、Whisper APIは高い精度で認識できます。
開発初期には「CI/CD」が「シーアイシーディー」とカタカナで認識される問題がありましたが、Whisper APIのpromptパラメータに技術用語リストを渡すことで解決しました。この認識精度がフィードバックの質を左右するため、音声認識エンジンの選定には特にこだわりました。
【ステップ3:AIフィードバック生成(Anthropic Claude API)】
文字起こしされたテキストは、質問文・ユーザーのプロフィール情報(職種・経験レベル・業界)とともにAnthropic Claude APIに送信されます。
Claude APIが担うのは単なる「添削」ではありません。エンジニア面接に特化した5つの評価軸(技術説明力・論理構造・具体性・表現力・流暢さ)でスコアリングを行い、良い点・改善点の具体的なコメントを生成します。
さらに、質問カテゴリ(技術課題系・自己PR系・志望動機系など)に応じて各軸の評価ウェイトを自動調整しており、質問の意図に合った的確なAI面接対策フィードバックを実現しています。
■ 開発で追求したUXと評価設計
【待ち時間を"面接の間"に変えるUX設計】
Mentaiでは、AI処理の待ち時間を「面接官が考えている時間」として体験に組み込んでいます。
実際の面接でも、面接官が回答を聞いた後に少し考える時間があります。Mentaiではこの「間」を再現し、AI面接官が「考え中」のうなずきアニメーションを表示することで、Whisper APIの音声認識(平均2〜3秒)とClaude APIのフィードバック生成(平均5〜8秒)を合わせた約10秒の処理時間を、自然な面接体験に変えています。
【エンジニア採用の現場に合わせた5軸評価の設計】
Mentaiの5軸評価(技術説明力・論理構造・具体性・表現力・流暢さ)は、エンジニア面接経験者へのヒアリングをもとに設計しています。
当初は3軸(技術力・論理性・表現力)でしたが、「数値やチーム規模を交えた具体性」と「フィラーの少なさや回答テンポといった流暢さ」が合否を分けるポイントだと判明し、5軸に拡張しました。
さらに、質問の種類によって「技術説明力を重視すべき質問」「表現力が問われる質問」のように評価の重みを自動調整することで、画一的でないフィードバックを実現しています。
■ 技術スタック

|
レイヤー |
技術 |
役割 |
|---|---|---|
|
フロントエンド |
Next.js(TypeScript) |
UI・音声録音・フィードバック表示 |
|
バックエンド |
Ruby on Rails(APIモード) |
ビジネスロジック・API |
|
音声認識 |
OpenAI Whisper API |
音声→テキスト変換 |
|
AI評価 |
Anthropic Claude API |
5軸採点・フィードバック生成 |
|
インフラ |
AWS(ECS Fargate / RDS / CloudFront) |
本番環境 |
|
認証 |
Supabase Auth |
ユーザー認証 |
■ 今後の技術的な展望
現在はユーザーが1問ずつ練習する形式ですが、今後はClaude APIのストリーミング機能を活用し、AIが回答内容を踏まえてリアルタイムに深掘り質問を生成する「面接モード」の開発を進めています。本番の面接で感じる「突っ込まれる緊張感」をAIで再現することを目指しています。
さらに、練習結果をX(Twitter)でシェアできるSNS連携機能の提供も開始しています。エンジニアの「スコアを見せたい」文化に合わせ、5軸スコアカードを手軽に共有できます。この機能の詳細は次回のプレスリリースで改めてご紹介いたします。
サービスURL: https://mentai.recruit-hub.ai/
■ 会社概要
会社名 株式会社X-HACK
所在地 東京都品川区東五反田2-5-2 THE CASK GOTANDA 702
代表者 代表取締役 松田信介
設立 2018年3月
事業内容 生成AI/LLM活用支援、AI駆動型開発基盤の設計・開発、ITシステム導入支援・受託開発
コーポレートサイト https://x-hack.jp
■ 本件に関するお問い合わせ先
株式会社X-HACK
担当: 豊田
E-mail: support@mentai.recruit-hub.ai
すべての画像
- 種類
- 商品サービス
- ビジネスカテゴリ
- ネットサービスシステム・Webサイト・アプリ開発
- ダウンロード
