Whisper × Claude APIで面接官AIを構築。音声からエンジニア特化5軸採点を実現する技術フローを公開

3分の音声回答を5軸スコアに変換する——エンジニア面接練習アプリ「Mentai」の技術フロー全解説

X-HACK

エンジニア転職に特化したAI面接練習Webアプリ「Mentai」を提供する株式会社X-HACK(本社: 東京都品川区、代表取締役: 松田信介)は、先日のサービスリリースに続き、生成AIの実践的な活用事例としてMentaiを支える技術アーキテクチャを公開いたします。

OpenAI Whisper APIによる高精度な音声認識と、Anthropic Claude APIによるエンジニア面接に特化したAIフィードバック生成を組み合わせることで、「AIとチャットする」だけでは実現できない"AI面接コーチ"の体験を実現しています。

サービスURL: https://mentai.recruit-hub.ai/

■ ChatGPTに「面接練習して」と頼むだけでは解決できない課題 

ChatGPTの音声モードに「面接練習をして」と話しかければ、手軽に模擬面接の体験ができる時代になりました。しかし、エンジニアの面接対策として使おうとすると、以下のような課題が残ります。

  • 評価基準が曖昧:「良い回答ですね」のような汎用的なコメントが返るだけで、技術説明力や具体性など、エンジニア採用で重視されるポイントが評価されない

  • 練習の記録が蓄積されない:何回やっても履歴が残らず、自分が上達しているのか分からない

  • 話す力」の課題に気づけない:テキスト入力では気づけないフィラー(「えーと」「あの」)の多さや、論理の崩れを可視化できない

Mentaiはこれらの課題を、音声認識AIとClaude APIを組み合わせた技術アーキテクチャで解決しています。

■ なぜ「音声」にこだわるのか 

面接は「話す」場です。頭の中で考えた回答をテキストで入力しても、本番で同じように話せるとは限りません。声に出すと論理が崩れる、時間配分がわからない、フィラーが増える――これらは実際に声を出してみなければ気づけない課題です。

Mentaiが音声入力にこだわる理由はここにあります。ユーザーがマイクに向かって話すことで、本番に限りなく近いAI面接練習の環境を提供しています。

■ 技術フロー:音声からAIフィードバックができるまで 

Mentaiでは、ユーザーが音声で回答してからフィードバックが返るまでに、3つのAI処理ステップを経ています。

【ステップ1:音声録音(ブラウザ)】

ユーザーのブラウザ上でMediaRecorder APIを使って音声を録音します。専用アプリのインストールは不要で、ブラウザだけで動作します。録音中は波形アニメーションを表示し、ユーザーが「話している実感」を持てるようにしています。

【ステップ2:音声認識(OpenAI Whisper API)】

録音された音声はサーバーに送信され、OpenAI Whisper APIで文字起こしされます。

日本語の面接回答には専門用語(「マイクロサービス」「CI/CD」「スクラム」など)が頻出します。汎用的な音声認識では誤認識されやすいこれらの技術用語を、Whisper APIは高い精度で認識できます。

開発初期には「CI/CD」が「シーアイシーディー」とカタカナで認識される問題がありましたが、Whisper APIのpromptパラメータに技術用語リストを渡すことで解決しました。この認識精度がフィードバックの質を左右するため、音声認識エンジンの選定には特にこだわりました。

【ステップ3:AIフィードバック生成(Anthropic Claude API)】

文字起こしされたテキストは、質問文・ユーザーのプロフィール情報(職種・経験レベル・業界)とともにAnthropic Claude APIに送信されます。

Claude APIが担うのは単なる「添削」ではありません。エンジニア面接に特化した5つの評価軸(技術説明力・論理構造・具体性・表現力・流暢さ)でスコアリングを行い、良い点・改善点の具体的なコメントを生成します。

さらに、質問カテゴリ(技術課題系・自己PR系・志望動機系など)に応じて各軸の評価ウェイトを自動調整しており、質問の意図に合った的確なAI面接対策フィードバックを実現しています。

■ 開発で追求したUXと評価設計

【待ち時間を"面接の間"に変えるUX設計】

Mentaiでは、AI処理の待ち時間を「面接官が考えている時間」として体験に組み込んでいます。

実際の面接でも、面接官が回答を聞いた後に少し考える時間があります。Mentaiではこの「間」を再現し、AI面接官が「考え中」のうなずきアニメーションを表示することで、Whisper APIの音声認識(平均2〜3秒)とClaude APIのフィードバック生成(平均5〜8秒)を合わせた約10秒の処理時間を、自然な面接体験に変えています。

【エンジニア採用の現場に合わせた5軸評価の設計】

Mentaiの5軸評価(技術説明力・論理構造・具体性・表現力・流暢さ)は、エンジニア面接経験者へのヒアリングをもとに設計しています。

当初は3軸(技術力・論理性・表現力)でしたが、「数値やチーム規模を交えた具体性」と「フィラーの少なさや回答テンポといった流暢さ」が合否を分けるポイントだと判明し、5軸に拡張しました。

さらに、質問の種類によって「技術説明力を重視すべき質問」「表現力が問われる質問」のように評価の重みを自動調整することで、画一的でないフィードバックを実現しています。

■ 技術スタック

レイヤー 

技術

役割

フロントエンド

Next.js(TypeScript)  

UI・音声録音・フィードバック表示

バックエンド

Ruby on Rails(APIモード)

ビジネスロジック・API

音声認識

OpenAI Whisper API

音声→テキスト変換

AI評価

Anthropic Claude API

5軸採点・フィードバック生成

インフラ

AWS(ECS Fargate / RDS / CloudFront)

本番環境

認証

Supabase Auth

ユーザー認証

■ 今後の技術的な展望 

現在はユーザーが1問ずつ練習する形式ですが、今後はClaude APIのストリーミング機能を活用し、AIが回答内容を踏まえてリアルタイムに深掘り質問を生成する「面接モード」の開発を進めています。本番の面接で感じる「突っ込まれる緊張感」をAIで再現することを目指しています。

さらに、練習結果をX(Twitter)でシェアできるSNS連携機能の提供も開始しています。エンジニアの「スコアを見せたい」文化に合わせ、5軸スコアカードを手軽に共有できます。この機能の詳細は次回のプレスリリースで改めてご紹介いたします。

サービスURL: https://mentai.recruit-hub.ai/

■ 会社概要 

会社名    株式会社X-HACK

所在地    東京都品川区東五反田2-5-2 THE CASK GOTANDA 702

代表者    代表取締役 松田信介

設立     2018年3月

事業内容   生成AI/LLM活用支援、AI駆動型開発基盤の設計・開発、ITシステム導入支援・受託開発

コーポレートサイト https://x-hack.jp

■ 本件に関するお問い合わせ先 

株式会社X-HACK

担当: 豊田

E-mail: support@mentai.recruit-hub.ai

すべての画像


ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

株式会社X-HACK

15フォロワー

RSS
URL
https://x-hack.jp
業種
情報通信
本社所在地
東京都品川区東五反田 2−5−2 THE CASK GOTANDA 702
電話番号
090-8414-4912
代表者名
松田信介
上場
未上場
資本金
100万円
設立
2018年03月