MLX Whisper MCP

0
MLX Whisper MCP は、直接ファイル、base64 データ、YouTube 動画の入力をサポートするオーディオ文字起こし機能を提供するスタンドアロンの Python ベースのサーバーです。高品質な MLX Whisper モデルを活用し、Apple Silicon の Mac に最適化されており、依存関係の管理を自動化し、デバッグ用のリッチなコンソールを提供します。これは、ローカルワークフローやアプリケーションに音声からテキストへの機能を統合するのに最適です。
追加日:
作成者:
Apr 11 2025
MLX Whisper MCP

MLX Whisper MCP

0 レビュー
4
0
MLX Whisper MCP
MLX Whisper MCP は、直接ファイル、base64 データ、YouTube 動画の入力をサポートするオーディオ文字起こし機能を提供するスタンドアロンの Python ベースのサーバーです。高品質な MLX Whisper モデルを活用し、Apple Silicon の Mac に最適化されており、依存関係の管理を自動化し、デバッグ用のリッチなコンソールを提供します。これは、ローカルワークフローやアプリケーションに音声からテキストへの機能を統合するのに最適です。
追加日:
Created by:
Apr 11 2025
Kachi O
フィーチャー

MLX Whisper MCPとは?

この MCP (Model Context Protocol) サーバーは、Apple Silicon の Mac で MLX Whisper を使用した高品質なオーディオ文字起こしを可能にします。直接オーディオファイルパス、base64 エンコードされたオーディオデータ、および YouTube 動画など、さまざまな入力方法をサポートしており、さまざまな文字起こしのニーズに適しています。サーバーは、uv を通じて依存関係のインストールを自動化し、一時ファイルを管理し、元のオーディオと一緒に文字起こしを保存します。高度な MLX Whisper large-v3-turbo モデルを利用して正確な文字起こしを行い、特に Mac 環境でローカル音声認識機能を必要とする開発者向けにシームレスで効率的なソリューションを提供します。

誰がMLX Whisper MCPを使うの?

  • ローカル音声からテキストへのソリューションを必要とする開発者
  • 音声文字起こしに取り組んでいる研究者
  • AI プロジェクトのために Apple Silicon の Mac を使用している Mac ユーザー
  • ワークフローに文字起こしを統合しているチーム
  • 動画の文字起こしが必要なコンテンツクリエイター

MLX Whisper MCPの使い方は?

  • ステップ 1: Mac に Python 3.12 以上をインストールします。
  • ステップ 2: 次のコマンドを実行してサーバーを起動します: `uv run mlx_whisper_mcp.py`。
  • ステップ 3: API 呼び出しやクライアント統合を介して、`transcribe_file`、`transcribe_audio`、`transcribe_youtube` などのサポートツールを使用します。
  • ステップ 4: ファイルパス、base64 オーディオデータ、YouTube URL など、必要な入力パラメーターを提供します。
  • ステップ 5: 入力と一緒にテキストファイルとして保存される文字起こし出力を受け取ります。
  • ステップ 6: 更新や変更のために必要に応じてサーバーを停止または再起動します。

MLX Whisper MCPの主な特長・利点

コア機能
  • transcribe_file: ディスクからオーディオファイルを文字起こしします
  • transcribe_audio: base64 エンコードされたオーディオデータを文字起こしします
  • download_youtube: YouTube 動画をダウンロードします
  • transcribe_youtube: YouTube 動画をダウンロードして文字起こしします
利点
  • 柔軟性のために複数の入力形式をサポート
  • Apple Silicon の Mac 用に最適化
  • 自動依存関係管理
  • MLX Whisper large-v3-turbo モデルを使用した高品質の文字起こし
  • デバッグ用のリッチなコンソール出力

MLX Whisper MCPの主な使用ケース・アプリケーション

  • ポッドキャストやインタビューのローカル文字起こし
  • YouTube の動画コンテンツの文字起こしの自動化
  • Mac ベースの AI ワークフローへの音声認識の統合
  • 高精度の文字起こしが必要な研究プロジェクト
  • 字幕やトランスクリプトを生成するコンテンツクリエイター

MLX Whisper MCPのFAQs

開発者

  • kachiO

あなたも好きかもしれません:

開発者ツール

サーバーとクライアントの相互作用を管理するためのデスクトップアプリケーションで、包括的な機能を備えています。
Eagle アプリとデータソース間のデータ交換を管理するための Model Context Protocol サーバーです。
チャット環境内でさまざまなMCPツールを統合して直接使用するためのチャットベースのクライアントで、生産性を向上させます。
複数の MCP サーバーをホストする Docker イメージで、Supergateway 統合を通じて統一されたエントリーポイントからアクセス可能です。
MCPプロトコルを介してYNABアカウントの残高、取引、および取引の作成にアクセスします。
リアルタイムのマルチクライアントZerodhaトレーディング操作を管理するための、高速でスケーラブルなMCPサーバー。
MCPサーバーへのリモートツール利用のための安全なプロキシベースのアクセスを容易にするリモートSSHクライアント。
AI機能を統合したSpringベースのMCPサーバーで、Minecraftのmod間の通信プロトコルを管理および処理します。
必須のチャット機能を備えたミニマリスティックなMCPクライアントで、複数のモデルとコンテキスト相互作用をサポートします。
AIエージェントがAuthenticatorアプリと安全に対話し、2FAコードとパスワードを取得できるMCPサーバー。

研究とデータ

モデルコンテキストプロトコルをサポートするサーバー実装で、CRICの産業AI機能を統合しています。
バレンシア市の交通、空気品質、天気、シェアサイクルデータを統合プロッキョンで提供します。
MCPツールとUIコンポーネント登録のためのTamboを通じてSupabaseとの統合を示すReactアプリケーション。
MCPプロトコルを利用し、効率的な通信を行うためにBrave Search APIを統合したMCPクライアントです。
Umbraco CMSと外部アプリケーション間のシームレスな通信を可能にするプロトコルサーバー。
NOLは、LangChainとOpen Routerを統合し、Next.jsを使用してマルチクライアントMCPサーバーを作成します。
LLMをFireboltデータウェアハウスに接続し、自律的なクエリ実行、データアクセス、インサイト生成を実現します。
AIエージェントをMCPサーバーに接続し、ツールの発見と統合を可能にするクライアントフレームワークです。
Spring Link は、統一された環境内で複数の Spring Boot アプリケーションを効率的にリンクおよび管理することを促進します。
複数のMCPサーバーと対話するためのオープンソースクライアントで、Claudeのためのシームレスなツールアクセスを実現します。

AIチャットボット

API、AI、オートメーションを統合し、サーバーとクライアントの機能を動的に強化します。
MCP基準を通じて文脈情報を保存および取得することにより、LLMのための長期記憶を提供します。
柔軟な検索オプションを備えた精密医療と腫瘍学研究をサポートする先進的な臨床証拠分析サーバー。
エージェント間の効果的な通信とコラボレーションのために、A2Aエージェント、ツール、サーバー、クライアントを収集するプラットフォームです。
AIサービス、MCP、memGPTと統合したCloud Foundry用のSpringベースのチャットボットです。
OSレベルのツールを使用してmacOSを制御するAIエージェント、MCPと互換性があり、AIを介してシステム管理を容易にします。
SSE、StdIO、または外部プロセスを介してMCPサーバーと対話するためのPHPクライアントライブラリです。
自動化タスクのための自律エージェント、ツール、サーバー、およびクライアントを管理および展開するためのプラットフォームです。
マルチメディアコンテンツ作成のための強力な音声合成および動画生成APIとのインタラクションを可能にします。
シームレスな統合のためにRedNote(XiaoHongShu、xhs)へのAPIアクセスを提供するMCPサーバー。