マルチモーダルAI

Luma AIのUni-1は自己回帰アーキテクチャを採用し、推論ベンチマークでGoogle Nano Banana 2とOpenAI GPT Image 1.5を上回ると同時に、2K解像度の価格を最大30%削減します。

XiaomiはMiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTSを発表した — これら3つのAIモデルは1兆以上のパラメータ、マルチモーダル認識、感情的な音声合成を備え、エージェントベンチマークでClaude Opus 4.6と競合する。

GoogleはGemini Embedding 2をリリースしました。これは、テキスト、画像、動画を統一されたベクトル空間に共にマッピングし、検索や情報検索のタスクに利用できる初のネイティブなマルチモーダル埋め込みモデルです。

中国のDeepSeekはテキスト、画像、動画を生成できるV4マルチモーダルモデルの公開を目前に控えており、報道によればNvidiaやAMDには早期の最適化アクセスを許可せず、中国の年次国会開催前に国内の半導体メーカーであるHuaweiとCambriconにのみ独占的に提供しているという。

DeepSeekの求人情報は、テキスト、画像、音声をサポートするマルチモーダルなAI検索エンジンの計画を明らかにしており、Googleの検索市場シェアを直接的に狙っています。

北京に拠点を置くMoonshot AIは、OpenAIやAnthropicに匹敵しながら運用コストは4分の1のオープンソースのマルチモーダルAIモデルKimi K2.5を公開し、米国の半導体輸出規制が中国のAI開発を抑制する効果について疑問を投げかけている。

AI搭載のツールで、美しくプロフェッショナルなYouTubeサムネイルを素早く簡単に作成できます。

マルチモーダルAIに関する最新ニュースと分析