Captivating Portraitでプロ技演出!

Promptを入れることでイメージを出力できる TEXT to IMAGEのAIイメージジェネレーションモデルですが、現在DALL-E 2, Stable Diffusion, Midjourneyの3つが主流です。しかし、厄介なのが3つとも同じPromptで動作するということではない点です。

Table of contents

一番自然な文で使えるAIモデル
キーとなる単語をつなげるAIモデル
私の DALL-E 2ショーケース
プロンプトはこちらから！

一番自然な文で使えるAIモデル

DALL-E 2は、一番自然な文で使えるAIシステムです。キャラクターの特徴や性格、雰囲気そして背景までを文章で表現し、まるで状況を書き出すかのようなスタイルでイメージを作ることができます。膨大な情報を持っているAIなので、有名画家の画風や特徴なども熟知しています。ゴッホ風の似顔絵とすれば、それなりのスケッチが簡単に出てきます。

3つのモデルの中では一番自然な言語を使って動かすAIといえます。ただし、主要言語は英語です。日本語でももちろん使えるのですが、画像作成時のテクニカルな表現を日本語からAIが理解できる英語の表現に翻訳するのは難しく、日本語独自の言い回しや隠れた言葉（阿吽の呼吸）は理解できませんので、上級者になるにつれて、英語の語彙力は必須になってきます。

こちらの絵は、同じ英文PromptをDALL-E 2とStable Diffusionで出力した時の結果です。全く同じ文章をいれてもこのように結果が大きく違ってきます。

結果が違う理由は、AIモデルの違いです。DALL-E 2とStable Diffusionでは、文字の解釈の仕方が違いますので、書き方もそれぞれのAIモデルが理解しやすい書き方にしなければなりません。

上記は、自然な英文で書いたのですが、Stable Diffusionにはうまく伝わらなかった例です。

DALL-E 2は、OpenAIのホームページからログインして利用することができます。

DALL·E 2

DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.

入力できる文字数は400字までになります。アカウントを取得し、クレジットカード登録で使った分だけ使えるという利用方法になります。初回は無料クレジットがあるので無料で試せます。

キーとなる単語をつなげるAIモデル

AI Diffusionは、キーワードとなる単語やフレーズをつなげて使うAIモデルです。（現時点ではまだ新しすぎるため、将来的にはDALL-E 2のように文章で伝えることはできるのだと思いますが、まだ人々がその方法を見つけていないという段階かもしれません。）

sharp eyes, detailed face, charcoal painting, dark background, outstanding artwork, by gen and ai, high resolution, 8k, 2d

これは、Playgroundai.comから引用したものですが、このような感じで目の形、ペイントのスタイルなどをいくつも , （カンマ）で区切ってつなげてゆきます。先頭にある文字が一番重要で最後に行けば行くほど影響が弱くなります。

猫の絵を描きたければ、cat　という文字列をどこかに入れると正確です。明記していない場合は、Sharp eyes から AI が判断したものが出てきます。できる限り細かく何がどのようなスタイルでどういう感じに欲しいのかという描写が必要になってきます。

日本語での表記はお勧めしません。意味合いがかなり変わってっくるのでチャレンジする際は、簡単な英語でできますので英語で挑戦することをお勧めします。

こちらは、オープンソースになっているためさまざまなサービスが展開されています。有名なものとしては、LexicaやPlaygroundAIは有名です。これらはどちらもStable Diffusionを使ったサービスです。

Lexica.art　（画像のPromptを閲覧できる）

PlaygroundAI.com　（無料で始められる）

Stable Diffusionには、ベースモデルという呼ばれるものがあります。ベースモデルは、フィルターなどの装飾スタイルは搭載されていないものになります。ちょっとわかりにくいかもしれませんので例をあげると、iPhoneを買った時にアプリを色々追加して自分の使いやすいようにしますよね。そのようなイメージで、プレーンなStabule Diffusion にぼかしをかけて綺麗に見える装飾を追加したり、アニメの美しい顔が簡単に出せるフィルターをつけたりというサービスが出現しています。

LexicaもStable Diffusion ですが、Lexica独自のチューニングをしているため、独特の絵を作ることができます。

PlaygroundAIも同様にStable Diffusionを利用していますが、こちらはNONEというフィルターなしが初期値でフィルターを自分で追加してシーンを選べるというものになります。

Stable Diffusionというベースモデルは同様ですが、チューニング状況が違うため自分の出したい絵にあったサービスを選択する必要があります。

私の DALL-E 2ショーケース

DALL-E 2モデルは、一番扱いやすいAIモデルです。OpenAIの管理下の元で運営しているため、自由が効かないことと、画像サイズが正方形しか選べない。ということはありますが、初心者が始めるには一番お勧めです。以下は、私がDALL-E 2を使って出力したものです。

英語の描写を微妙にすることで、とても細かく描写できます。以下はすべてDALL-E2に英語でPrompt入力して作成した映像です。DALL-E2のページからは、400字がMAXの文字入力になります。

インテリアショーケース

素敵なインテリアの画像が出てくるプロンプトです。

Neon Wolf (ネオン調のオオカミ）

ネオンを扱ったWolfが出てきます。ネオン使いは、ライトエフェクトなどの用語も必要で結構難易度が高いのですが、応用が聞くのでプロンプトテクニックを持っておくと良いと思います。

アルファベットフォント

アルファベットの出力はStable Diffusionでは難しいのですが、DALL-E 2はこんなに可愛いフォントを作ることができます。パラメーターの組み合わせでさまざまなデザインが楽しめそうです。メタルとカラー素材も指定してプロンプト作成しています。

可愛い女の子

日本風のアニメの顔を出すには、Kawaii を追加するのがポイントです。　Kawaii は、すでに英語として認識するので、そのままKawaii で使えます。日本風アニメにしたい場合は必須のキーワードです。

その他

その他たくさんあるのですが、今回人の顔の前にバブルができた面白い画像がでてきたので、今回はこちらの文字列を分析してみました。

こちらの画像のプロンプトを公開し説明してゆきます。

A captivating portrait of a perfect face, with delicate features and intricate details. The image should be high-resolution and showcase advanced techniques such as advanced texture mapping and particle simulations.🤩💎

captivating portrait: という言い方は、このような広告モデルのようなクロースアップの時に使えます。写真やアートの世界ではポートレートにもいろいろな種類があるようです。これまでは単に、A portrait of ~ という使い方をしていましたが、A captivating portrait を追加することで、見事にアイキャッチーな画像が出力されました。

ひとえにPortraitといってもいろいろな種類があるようです。

A captivating portrait is a type of portrait that captures the viewer’s attention and holds it through the use of various artistic techniques. A captivating portrait can be created in different mediums, including painting, drawing, photography, and sculpture.

The elements that make a portrait captivating can vary depending on the viewer’s personal taste and preferences. However, some common features that tend to make a portrait captivating include:

Strong composition: A well-composed portrait can draw the viewer’s eye to the subject and create a sense of balance and harmony in the image.
Expression: Captivating portraits often convey a strong emotional expression, such as joy, sadness, or contemplation, which can evoke a response from the viewer.
Lighting: The use of lighting can create a sense of drama and depth in a portrait and highlight the subject’s features and expressions.
Skillful technique: The use of skilled technique and attention to detail can elevate a portrait and make it stand out from others.

Ultimately, a captivating portrait is one that resonates with the viewer and leaves a lasting impression.

4回出力してかなり面白い結果になりました。顔周りにデコレーションしたい時などの表現方法として覚えておくと応用できそうです。以下のプロンプトからこんな感じででてきました。２度と同じものはでないので、気に入ったものは保存しておきましょう。