DeepSeek v3は、巨大な671BパラメータMoEアーキテクチャを、マルチトークン予測や補助損失なしのロードバランシングなどの革新的な機能と組み合わせ、さまざまなタスクで卓越したパフォーマンスを提供します。
DeepSeek v3は、オンラインデモプラットフォームとAPIサービスを通じて利用可能です。ローカル展開のためのモデルウェイトをダウンロードすることもできます。
DeepSeek v3は、数学、コーディング、推論、およびマルチリンガルタスクで優れたパフォーマンスを示し、ベンチマーク評価で常に最高の結果を達成しています。
DeepSeek v3は、NVIDIA GPU、AMD GPU、およびHuawei Ascend NPUなど、さまざまな展開オプションをサポートし、最適なパフォーマンスのための複数のフレームワークオプションを提供しています。
はい、DeepSeek v3はモデルライセンス条件に従った商業利用が可能です。
DeepSeek v3は、他のオープンソースモデルを上回り、さまざまなベンチマークでトップのクローズドソースモデルに匹敵するパフォーマンスを達成します。
DeepSeek v3は、SGLang、LMDeploy、TensorRT-LLM、vLLMなどの複数のフレームワークを使用して展開でき、FP8およびBF16推論モードの両方をサポートしています。
DeepSeek v3は、128Kコンテキストウィンドウを特徴としており、複雑なタスクや長文コンテンツのために広範な入力シーケンスを効果的に処理し理解できます。
DeepSeek v3は、148兆の多様で高品質なトークンで事前トレーニングされ、その後、監視による微調整と強化学習が行われました。トレーニングプロセスは驚くほど安定しており、回復不可能な損失スパイクはありませんでした。
DeepSeek v3は、FP8混合精度トレーニングを利用し、アルゴリズム-フレームワーク-ハードウェアの共同設計を通じて効率的なクロスノードMoEトレーニングを実現し、事前トレーニングをわずか2.788M H800 GPU時間で完了しました。