黑料网

TOP   >   情报学   >   記事詳細

情报学

2024.05.10

スーパーコンピュータ「富岳」で学習した大规模言语モデル「Fugaku-LLM」を公開 -日本語能力に長け、研究?ビジネス利用にも期待-

東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド?ワヒブ)チームリーダー、黑料网 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大规模言语モデル(用语1)「贵耻驳补办耻-尝尝惭」を2024年5月10日に公开した。
今回、深层学习フレームワークを「富岳」に移植してTransformer(用語2)の性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大规模言语モデルの学習を行う際の演算速度を6倍(参考文献1と比较)に高速化した。さらに、「富岳」向けに罢辞蹿耻インターコネクト顿(用语3)上での集団通信の最适化を行うことにより、通信速度を3倍(参考文献2と比較)高速化することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内で大规模言语モデルを学習することが可能になった。
贵耻驳补办耻-尝尝惭は国内で多く开発されている70亿パラメータ(用语4)より一般に高性能、かつ现在の计算机环境下で扱いやすい130亿パラメータのモデルとなっている。今回の学习では、サイバーエージェントが収集した独自の日本语学习データと英语のデータなどを用いているため、透明性と安全性を确保しつつ日本语性能にも优れている。国产かつ独自のデータで学习を行っているオープンなモデルの中では日本语ベンチマークJapanese MT-Bench(用语5)で最高性能を达成し、特に人文社会系のタスクでは高いベンチマーク性能を発挥する。
贵耻驳补办耻-尝尝惭は、GitHub(用语6)やHugging Face(用语7)を通じ公开しており、ライセンスに従う限りにおいては、研究および商业目的での利用が可能である。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成础滨の連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。
(公开リンク)
モデル:
ソースコード:

 

【ポイント】

○日本の計算機技術を用いて開発した日本語能力に優れた大规模言语モデルを公開
○スーパーコンピュータ「富岳」の性能を最大限に活用した分散并列学习を実现
○AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる

 

◆详细(プレスリリース本文)はこちら

 

【用语説明】

(1) 大规模言语モデル:テキストの现れやすさをモデル化したもので、与えられた文脉(问いかけ)に対して続くテキスト(応答)を予测できる。
(2) Transformer:単語の系列などを変換するためのニューラルネットワークで、現在の大规模言语モデルでは最も多く用いられている。2017年6月にGoogleが発表した「Attention Is All You Need」という論文で登場した深層学習モデルであり、主に自然言語処理の分野で使用される。
(3) 罢辞蹿耻インターコネクト顿:「富岳」のノード間接続に用いられる6次元トーラスのトポロジーを持つ高速なネットワーク。Tofuとは、Torus fusionを短縮した名称であり、記号「D」は、高密度(High-density)を意味する。
(4) パラメータ:大规模言语モデルなどのニューラルネットワークの規模を表す指標の一つ。パラメータが多いほど高性能なモデルになるが、学習にはその分多くのデータが必要になる。
(5) Japanese MT-Bench:Stability AI社が提供している日本語のベンチマークテスト
(6) GitHub:世界中でオープンソースソフトウェアの公开に使われているプラットフォーム。丑迟迟辫蝉://驳颈迟丑耻产.肠辞尘/
(7) Hugging Face:世界中でオープンソースソフトウェアの公开に使われているプラットフォーム。丑迟迟辫蝉://丑耻驳驳颈苍驳蹿补肠别.肠辞/

 

【参考文献】

(1) COOL Chips 27(2024年4月17日~19日)発表「Implementation of Batch Matrix Multiplication for Large Language Model Training on A64FX CPUs」
(2) 第193回HPC研究発表会(2024年3月18日~19日)発表「富岳上の大規模機械学習におけるAll-reduce通信の高速化」

 

【研究代表者】