

LEGALISSのLLM開発力:2025年最新トレーニング手法と技術的挑戦
はじめに
2025年現在、LLM(大規模言語モデル)の開発はもはや単なるAI研究の一分野ではなく、企業の競争力を決定づける中核技術 となっています。しかしLLMの開発は、巨額の計算資源を投入するだけで成功する単純な作業ではありません。データ収集とクリーニング、モデルアーキテクチャの選択、分散学習技術、長文脈処理、微調整手法、推論最適化など、極めて多層的で困難な工程 を総合的に設計・実行できる能力が求められます。
LEGALISSは「不可能を可能にし、世界に衝撃を与える」という理念のもと、AI開発領域において積極的にLLMの研究開発を推進しています。本記事では、私たちが取り組んでいるLLM開発手法を体系的に解説し、その難易度と最先端性を示します。
1. データ基盤:数兆トークン級データの品質管理
1-1 データの多様性と品質
2025年現在、LLM(大規模言語モデル)の開発はもはや単なるAI研究の一分野ではなく、企業の競争力を決定づける中核技術 となっています。しかしLLMの開発は、巨額の計算資源を投入するだけで成功する単純な作業ではありません。データ収集とクリーニング、モデルアーキテクチャの選択、分散学習技術、長文脈処理、微調整手法、推論最適化など、極めて多層的で困難な工程 を総合的に設計・実行できる能力が求められます。
LEGALISSは「不可能を可能にし、世界に衝撃を与える」という理念のもと、AI開発領域において積極的にLLMの研究開発を推進しています。本記事では、私たちが取り組んでいるLLM開発手法を体系的に解説し、その難易度と最先端性を示します。
最新LLMは 数兆〜数十兆トークン のデータで事前学習されます。LEGALISSでは、Webコーパス、コード、学術論文、多言語データを横断的に収集し、以下のような高度なデータパイプラインを構築しています。
-
重複排除:ハッシュベースと埋め込み類似度判定を併用し、冗長性を徹底排除。
-
品質スコアリング:言語流暢性・情報密度・有害性を多次元で評価。
-
汚染防止:評価ベンチマークや将来の下流データとのリークを検出し排除。
1-2 ツールとオープン基盤の活用
LEGALISSは Dolma(3兆トークン級データセット) や RefinedWeb のツールチェーンを活用しつつ、自社向けにカスタマイズ。特に日英中多言語対応に重点を置き、グローバル展開を前提としたLLMを設計しています。
2. モデルアーキテクチャ:DenseとMoEの戦略的選択
2-1 Denseモデルの強み
Llama 3.1(405B) に代表されるDenseモデルは、汎用性と安定性に優れ、ツール利用やコード生成といった複雑タスクに適応可能です。LEGALISSはこのDense路線を「基盤モデル」と位置付け、強力な一枚岩アーキテクチャを維持しています。
2-2 MoEによる効率化
一方で、計算コストを削減しつつ性能を拡張するために MoE (Mixture-of-Experts) の採用も進めています。DeepSeek-V2 のように236Bパラメータを持ちながら、実際には約21Bのみを活性化する手法は、LLM開発のコスト構造を大きく変えました。LEGALISSもこれを参考に、DenseとMoEを用途ごとにハイブリッド運用する戦略を取っています。
3. 分散学習と効率化:FSDP/ZeROとFlashAttention-3
3-1 分散最適化
数百Bパラメータ級のモデルを学習するには、FSDP(Fully Sharded Data Parallel) や ZeRO(Zero Redundancy Optimizer) による分散並列化が必須です。LEGALISSのエンジニアリングチームは、通信ボトルネックを最小化し、クラスタ全体のスループットを最大化するチューニングに注力しています。
3-2 Attentionの高速化
2024年に登場した FlashAttention-3 は、H100 GPU上で1.5〜2倍のスループット向上を実現しました。LEGALISSではFP8精度やTMA重畳を組み合わせ、長文脈学習における効率を飛躍的に高めています。
4. 長文脈処理:128Kから1Mトークンへ
4-1 RoPE拡張とYaRN
従来のLLMは4K〜32Kトークン程度の文脈しか扱えませんでしたが、NTK-awareスケーリング や YaRN(Yet Another RoPE eNhancement) により、128K以上 の長文脈処理が可能になっています。LEGALISSはこれを実務に導入し、法務文書解析や大規模コードベース解析を可能にしています。
4-2 100万トークンの挑戦
Qwen2.5-1M が示した通り、100万トークン級のコンテキスト処理も現実化しました。LEGALISSでも、文献レビューやマルチモーダル大規模解析に対応するため、1Mトークン級LLMの実験を進めています。
5. 後学習とアライメント:ユーザーとの整合性を取る
5-1 SFTからPreference Optimizationへ
従来のSFT(教師あり微調整)に加え、LEGALISSは DPO(Direct Preference Optimization)、SimPO、ORPO を導入。これにより、RLHFに比べて軽量かつ安定したアライメントを実現しています。
5-2 Reasoning強化学習
2025年の最重要進展のひとつが Reasoning-RL です。DeepSeek-R1 が示したように、強化学習のみで推論能力を引き出すアプローチは革命的です。LEGALISSはこの手法を取り入れ、数学・論理・長文読解における「多段階推論能力」の強化を進めています。
6. 新潮流:マルチトークン予測と推論高速化
6-1 Multi-Token Prediction (MTP)
複数トークンを同時に予測する方式は、学習効率と推論速度を大幅に改善します。LEGALISSは推論サーバー向けにMTP最適化を導入し、応答レイテンシの低減を実現しています。
6-2 Speculative Decoding
「下書き生成+検証」というSpeculative Decodingは、推論コストを削減しながら精度を維持できる次世代推論方式です。LEGALISSではこれを製品レベルに落とし込み、商用利用可能な推論基盤を構築しています。
7. LEGALISSのLLM開発ロードマップ
-
データ:Dolma/RefinedWeb+自社独自コーパスを統合し、多言語対応。
-
モデル:DenseとMoEのハイブリッド戦略。
-
分散学習:FSDP+FlashAttention-3+FP8最適化。
-
長文脈:128K〜1Mトークン対応。
-
アライメント:SimPO/ORPOを軸に、推論特化RLで強化。
-
推論:MTP+Speculative Decodingを導入し、実用レベルの高速化。
LLMの開発は「資金とGPUがあれば誰でもできる」ような単純なものではありません。データ基盤からアーキテクチャ選択、分散学習の工学的知見、長文脈処理、ユーザーアライメント、推論最適化に至るまで、高度な総合力 がなければ成立しません。
LEGALISSはその全ての領域において研究開発を推進し、日本発のLLM開発企業 として世界に挑戦しています。私たちは「不可能を可能にする」という理念を胸に、未来を揺るがすAIの実現に取り組み続けます。
