アリババクラウド、AI画像生成モデル「通義万相」を発表。企業の創造性と生産性をサポート

アリババグループのデジタルテクノロジーとインテリジェンスのバックボーンであるアリババクラウドは、上海で開催中の「世界人工知能会議2023」で最新のAI画像生成モデル「通義万相（Tongyi Wanxiang）」を発表しました。この先進の生成AIモデルは、現在中国の企業顧客向けにベータテストを提供しています。

アリババクラウドはさらに、言語、視覚、音声領域にわたる複雑で専門的なAIタスクの達成を支援するために設計された汎用フレームワークである「ModelScopeGPT（モデルスコープGPT）」を発表しました。ModelScopeは、アリババクラウドが昨年導入したオープンソースのモデル・アズ・ア・サービスプラットフォームであり、900以上のAIモデルを搭載しています。

画像生成AIモデル「通義万相」

通義万相は、さまざまなタスクを処理することに優れている生成AIモデルです。中国語や英語のテキストプロンプトに応答し、水彩画、油彩画、中国画、アニメーション、スケッチ、フラットイラスト、3D漫画など、多様なスタイルのディテールに富んだ画像を生成します。また、このモデルは、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりすることが可能です。これにより、元の画像の内容を保持しながら、別の画像の視覚スタイルを適用することができます。

アリババクラウドの知識整理、視覚AI、自然言語処理（NLP）における先駆的なテクノロジーを搭載した本モデルは、多言語素材を活用してトレーニングを強化しています。意味理解能力が高く、文脈に即したより正確な画像生成を実現します。

さらに、高解像度の拡散プロセスをS/N比（signal-to-noise ratio）に基づいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化しています。

通義万相は、アリババクラウド独自の大型モデルであるComposerを使用して開発され、画像合成の品質と創造性を維持しながら、空間レイアウトやパレットなどの最終的な画像出力をより細かく制御することができます。

通義万相によるテキストから画像への生成例：

Prompt – Picture a cityscape at twilight, a world merging modern architecture with the evocative aesthetics of anime.

Prompt – Beautiful nature superimposed into an infinite loop sign with bright colours.

Prompt – Immersive, captivating, grayscale coloring, featuring a tiger in the tranquil mandala forest. (後略）

Prompt – A six-year-old girl beautiful and exquisite Chinese-style Hanfu is displayed in front of a clothes rack.（後略）

通義万相のデモビデオは、こちらのURL（https://alizila.com/video/wach-how-alibaba-tongyi-wanxiang-creates-generative-ai-image/ ）にてご覧いただけます。中国の企業ユーザーの方は、ウェブサイト（https://wanxiang.aliyun.com/ ）にアクセスし、ベータテストにお申し込みいただけます。

高度なAIタスクのためのModelScopeGPTの発表

アリババクラウドは、大規模言語モデル（LLM）のパワーを最大限に活用するために設計された強力なフレームワークのModelScopeGPTを発表しました。ModelScopeGPTは、LLMをコントローラとして使用し、ModelScopeオープンソースコミュニティ内の広範なドメイン固有のエキスパートモデルに接続します。豊富なモデル・アズ・ア・サービスエコシステム内に構築されたModelScopeGPTは、アリババクラウドが提供するさまざまなAI機能を活用しています。企業や開発者は、ModelScopeGPTを無料で利用し、多言語ビデオの開発など、ユーザーのリクエストに基づいて高度なAIタスクを実行するための最適なモデルにアクセスし、実行することができます。

アリババクラウドは、今年4月にLLM「通義千問」をリリースしました。将来的には、通義千問をアリババのさまざまなビジネス全体に統合し、ユーザーエクスペリエンスを向上させる予定です。アリババの顧客や開発者もこのモデルを利用し、コスト効率の高い方法でカスタマイズされたAI機能を作成できるようになります。同モデルの発表以来、フィンテック、エレクトロニクス、輸送、ファッション、乳業など、幅広い分野の企業から30万件を超えるベータテストの依頼が寄せられています。

また、通義千問はアリババクラウドのインテリジェント・アシスタント「聴悟（Tingwu）」にも統合され、アシスタントがマルチメディアコンテンツを高い精度と効率で理解・分析できるようになりました。発売以来、36万人以上のユーザーがこのAIアシスタントにアクセスしています。

AIハッカソン大会がイノベーションを促進

ModelScopeのコミュニティは、AIモデルの産業応用を促進するために、中国初のAIハッカソンを開催しました。このAIハッカソン大会では、リーディング・ベンチャー・キャピタル企業からの資金提供やキャッシュ賞金がインセンティブとして提供されました。

300を超える参加チームの中から、56チームが決勝ラウンドに進出しました。参加者は2つのトラックでグランプリを競いました。ひとつは、現実の問題を解決するために大規模言語モデルを革新することです。もうひとつは、既存の事前トレーニング済みのモデルを活用して、テキストから画像を生成したり、大規模言語モデルの自立型エージェントを構築したりするなど、割り当てられたタスクを完了することです。

アリババクラウド・インテリジェンスの最高技術責任者（CTO）の周靖人（Jingren Zhou）は次のように述べています。

「通義万相は、企業やコミュニティが今まで以上の創造性と生産性を実現するためのパラダイムシフト技術を探求し続ける中で、先進的な生成AIモデルの追求において重要なマイルストーンです。通義万相のリリースにより、高品質な生成AI画像がより身近になり、Eコマース、ゲーム、デザイン、広告など、幅広い分野で革新的なAIアートやクリエイティブな表現の開発が進むでしょう。また、コンテストやその他のコミュニティイベントを開催することで、より多くの開発者や起業家と関わることができ、彼らのアイデアを実現し、生産性を向上し、産業の未来を変革し、より汎用性の高いAIツールの作成を促進したいと考えています。」

■参考URL

・通義万相

https://wanxiang.aliyun.com/

・通義万相のデモビデオ

https://alizila.com/video/wach-how-alibaba-tongyi-wanxiang-creates-generative-ai-image/

・ModelScopeGPT

https://modelscope.cn/studios/damo/ModelScopeGPT/summary

・Composer

https://damo-vilab.github.io/composer-page/