[이모저모] 챗GPT와 스테이블 디퓨전 AI이미지 생성 차이와 사용 후기

티스토리 뷰

일상다반사

[이모저모] 챗GPT와 스테이블 디퓨전 AI이미지 생성 차이와 사용 후기

센고쿠 2026. 5. 4. 20:02

728x90

안녕하세요. 월요일의 21입니다. 업로드한 이미지의 주요 대상을 흰 배경의 깔끔한 교육용 단면도로 바꿔줘. 원본 이미지의 고유한 특징은 유지하고, 그럴듯한 단면이나 층별 내부 구조를 보여주며, 라벨이 붙은 명확한 콜아웃도 추가해줘. 교과서나 박물관 과학 그래픽처럼 보이게 하고, 극적이거나 예술적인 연출보다 명확성과 정확성을 우선해줘.

이번에도 내가 좋아하는 카메라 니콘 ZF로 이미지 만들기 시도.

글 올린 지 하루도 안 되었거늘.

사진 제공은 내가 찍은 니콘 ZF로 대체. 하루아침에 또 새로운 프롬프트와 기능이 생겼기에, 챗GPT로 이미지 만들기를 시도했다. 저번에는 설계도였는데, 이번에는 단면도 프롬프트와 단면도 기능이 추가됐다. 이미지 만들기 버튼을 누르지 않고, 프롬프트를 주고 만들기를 시도해도 되기는 하는데, 이 방법이 아무래도 제작에 특화가 된 거 같다. 게다가 알아서 프롬프트를 제공하니 이 방법이 더 수월하다. 그래서 이 기능을 최대한 활용했다.

별개로 챗GPT로 티스토리에 줄 노트가 생기게끔 시도했는데, 이게 다른 피시나 다른 핸드폰 비율에도 맞아야 하더라. 그래서 모바일은 없앴다. 원래는 모바일에는 안 생기게끔 했는데, 다른 피시에서 비율이 안 맞아버리니 해결 방법이 없다. 뭐 다른 피시라기보다는 다른 모니터라 해야 맞겠다.

최근에 줄 노트로 유입이 있어서 붙잡고 해결을 보려 했으나, 귀찮다. 아는 것도 없어서 다 챗GPT가 해주는데, 완벽하게 하려면 CSS나 스킨 자체를 갈아엎거나 해야 한다더라. 내가 하고자 하는 방법은 CSS 편집에서 해결하는 게 아닌 티스토리 글쓰기 에디터 내에서 바로 해결하는 거였는데, 해결하지 못했다. 솔직히 줄 노트를 시도한 이유는 남들 때문이 아니라 내가 보기 편해지려고 시도한 거긴 한데. 글이 길어지면 나도 눈이 피곤해.

여하튼 결과물이 상상 이상이다. 단순히 카메라 사진을 바탕으로 대충 변형해 주는 정도가 아니라, 꽤 정리된 제품 단면도처럼 나왔다. 물론 실제 니콘 ZF 내부 구조와 완전히 일치한다고 보기는 어렵겠지만, 이미지 콘텐츠로 보기에는 충분히 그럴듯했다. 렌즈, 센서, 배터리, 프로세서 같은 요소들이 라벨로 정리되어 있으니 그냥 예쁜 이미지가 아니라 설명용 이미지처럼 보이는 점도 마음에 들었다.

특히 재미있었던 건 내가 찍은 카메라 사진이 전혀 다른 성격의 이미지로 바뀐다는 점이었다. 원본은 그냥 책상 위에 놓인 니콘 ZF 사진이었는데, 결과물은 제품 설명서나 기술 포스터 같은 느낌이 됐다. 사진 한 장을 넣었을 뿐인데, 방향을 어떻게 주느냐에 따라 결과물이 완전히 달라진다. 이래서 자꾸 이미지 생성을 만지게 되는 것 같다. 재밌거든.

게다가 매달 챗GPT에 22달러를 내고 있는데, 이 정도는 뽑아야 하지 않나 싶다. 그냥 글만 쓰기에는 아깝고, 이런 기능은 최대한 써보는 게 맞는 것 같다. 어차피 안 쓰면 손해 같은 느낌이라, 괜히 더 이것저것 시도하게 된다. 이렇게 하나씩 건져가는 재미도 있어서 계속 만지게 되는 것 같고. AI는 배척해야 한다고 생각하는 사람도 있겠지만, 솔직히 내 알 바는 아니다.

나는 그냥 내가 쓸 수 있는 도구를 쓰는 것뿐이다. 글을 대신 써주는 것도 아니고, 사진을 대신 좋아해 주는 것도 아니고, 블로그를 대신 운영해 주는 것도 아니다. 결국 방향을 정하고, 고르고, 버리고, 다시 쓰는 건 내가 하는 일이다. 도구가 생겼으면 써보는 쪽이 내 성향에는 더 맞다. 마음에 안 들면 안 쓰면 되고, 쓸 만하면 계속 쓰면 된다. 지금은 그냥 재미있고, 블로그에 써먹을 거리도 나오고, 가끔은 생각보다 괜찮은 결과물도 건진다. 그 정도면 충분하다.

스테이블 디퓨전(Stable Diffusion)으로 생성한 AI그림들이다. 이 그림을 바탕으로 요청해 봤다.

a blonde haired woman with blue eyes and a yellow jacket on her shoulders, looking at the camera with a serious look on her face, a character portrait, sots art.

1girl, bangs, blonde hair, blue eyes, blue ribbon, blue scrunchie, braid, hair between eyes, hair ornament, looking at viewer, short hair, solo

저기에 썼던 프롬프트가 뭔지 잊어버렸다.

스테이블 디퓨전에 이런 식으로 프롬프트를 입력하면 원하는 이미지를 비교적 간단하게 생성할 수 있다. 실제로는 원하는 결과물이 나올 때까지 꽤 많은 시행착오가 필요하다. 챗GPT는 방향을 잡아주거나 결과를 빠르게 정리하는 데는 수월한 편이지만, 선정적이거나 민감한 표현 등 일부 콘텐츠에는 제한이 있다. 예를 들자면, 자기가 만들고는 위반이라더라. 그래서 그런가 간혹 같은 맥락의 결과물이라도 기준에 따라 제약이 걸리는 경우가 있어 일관성이 아쉽게 느껴질 때도 있다.

또한 스테이블 디퓨전은 생성 방식 자체에 특별한 제약은 없지만, 결과를 뽑아내는 속도와 완성도는 사용하는 컴퓨터 성능에 크게 좌우된다. 고사양 그래픽카드를 사용할 경우 빠르고 디테일한 이미지 생성이 가능하지만, 사양이 낮으면 한 장을 완성하는 데 시간이 꽤 걸리거나 아예 생성이 어려운 경우도 있다. 특히 이미지 해상도나 크기에 따라 체감 속도 차이가 크게 나는 편이다. 전반적인 생성 속도만 놓고 보면 챗GPT보다 빠르게 느껴질 때도 많지만, 원하는 결과물을 정확히 끌어내는 과정 자체는 오히려 챗GPT 쪽이 더 수월한 편이다.

아래는 챗GPT에 요청한 내용이다.
업로드한 피사체를 바탕으로 요즘 유행하는 애니메이션 아트 스타일 이미지를 만들어줘. 약간씩 균일하지 않은 부분이 있는 과감한 line-work에 flat shadow shapes가 들어가는 최소한의 cel shading을 적용해줘. 밝고 채도 높은 색, 깔끔하고 그래픽적인 조명을 사용해. 스타일은 만화 캐릭터 같은 exaggerated proportions로 하고, 폭넓은 감정을 담을 수 있도록 이목구비가 단순하면서도 표현력 높으면서 해부학적으로 다양하게 늘어나게 해. 배경은 살짝 뒤틀린 공간으로 바꿔줘. 장난스러운 perspective distortion에 사물들을 단순화시켜. 완전히 양식화된 비현실적 세계에서 활기차고 생동감 있으면서 코믹한 느낌이 나는 구도와 분위기를 만들어줘.

고칠 점을 분석해서 다시 생성해 달라고 했더니, 이미지 자체에 분석 내용과 개선 포인트를 그대로 박아 넣어버렸다. 다시 요청했더니 박은 것을 이번에는 파일로 생성해서 주더라.

다만 챗GPT도 완벽한 건 아니라서, 수정 요청을 했을 때 의도를 정확히 파악하지 못하고 엇나간 결과를 내놓는 경우도 있다. 특히 수정을 요구할수록 한 번에 맞아떨어지지 않을 때가 있어, 결국 여러 번 다시 설명해야 하는 번거로움이 생기기도 한다.

반대로 스테이블 디퓨전은 처음에는 다루기가 쉽지 않고 어느 정도 공부가 필요한 편이지만, 세팅과 프롬프트를 제대로 이해하고 나면 원하는 결과를 비교적 정확하게 뽑아낼 수 있다는 장점이 있다. 나는 못 다루지만. 기본적으로 무료로 사용할 수 있다는 점도 꽤 큰 장점이다.

첨부한 이미지를 최대한 서툴고, 휘갈긴 듯하고, 진짜 한심하게 다시 그려줘. 배경은 흰색으로 하고, 옛날 컴퓨터 그림판 프로그램에서 마우스로 그린 것처럼 보이게 해줘. 얼핏 비슷한 것 같으면서도 사실은 별로 안 비슷하고, 맞는 듯하면서도 어딘가 엇나간, 헷갈리고 어색한 느낌이면 좋겠어. 픽셀 하나하나 보이는 저화질 느낌도 살려서 얼마나 말도 안 되게 못 그렸는지 확 느껴지게 해줘. 아니, 있잖아, 됐고 그냥 네 맘대로 그려줘.

낙서 기능이 있기에 요청해 봤다.

내가 업로드한 인물 사진을 바탕으로 고퀄리티 ‘메이크업 분석 가이드’ 인포그래픽을 만들어줘. 현대적인 뷰티 매거진 특집처럼 전문적이고 깔끔한 느낌으로 해줘. 업로드한 사진을 기반으로 하되, 과도한 보정 없이 인물의 실제 얼굴 특징과 알아볼 수 있는 느낌을 유지해줘. 긴 문단은 빼고 텍스트는 최소화하면서 핵심이 잘 드러나는 비주얼을 우선해줘. 9:16 비율로 해줘.

메이크업 가이드이다.

피사체나 장면의 한 요소가 개념적 규칙(인과관계, 정체성, 지각, 공간 논리)을 새롭게 상상한 엉뚱하고 우스꽝스러운 초현실적 현상으로 변하는 이미지를 만들되 자연 현상은 넣지 마, 변형은 피사체와 본질적으로 연결되어 있어야 해. 부조리함과 일상의 현실을 섞어서 강렬하고 공상적이면서 기이한 장면을 만들어줘. 피사체와 변형의 경계가 서로 뒤섞이거나 긴장감 있게 느껴져야 해. 피사체의 반응이 이미지에 통일감을 더해줘야 해.

초현실 이미지 생성 기능이다.

일관된 디자인 시스템을 갖춘 새로운 디자인 중심 앱의 5.5x3 목업 이미지를 만들어줘. 사진 없는 모바일 웰컴 화면 1개, 모바일 홈 화면 1개, 제품 또는 서비스 페이지 2개를 보여줘. 목업 이미지에는 그 외 아무것도 넣지 마. 생성하기 전에 내 앱 이름, 용도, 원하는 미감을 물어봐.

앱 디자인 이미지 생성 기능이다.
AI그림을 넣고 돌려서 그런가, 원하는 미감을 물어보지는 않았다.

레트로한 손잉크 만화 스타일의 완전히 독창적이고 단순한 흑백 만화 스트립을 만들어줘. 가로 패널 2~3개를 써줘. 업로드한 이미지를 캐릭터 레퍼런스로 보고, 그 인물을 완전히 만화체로 다시 그리되 모든 패널에서 선화와 명암이 일관되게 유지되게 해줘. 그 사람을 주인공으로 해석하고, 외모를 바탕으로 “설정-강화-반전” 구조가 분명한 기분 좋은 만남을 만들어줘. 첫 번째 패널은 상황을 보여주고, 두 번째는 전개를 더하며, 세 번째는 깜짝 반전을 보여줘. 대사는 짧고 자연스럽고 밝게 해줘. 기술 요소는 넣지 마.

애니메이션 만화 이미지 생성 기능이다.

이 사진을 마법 같은 ‘미니미’ 세계로 바꿔줘. 내 모습을 닮은 작은 3D 스타일 애니메이션 캐릭터들이 주변에서 살아 움직이게 하고, 어깨에 올라가고 가방에 앉고 손을 흔들고 놀고 내 포즈를 따라 하면서 개성 있고 스토리 있는, 장난스럽지만 뭉클한 SNS용 장면을 만들어줘. 원본 사진은 그대로 두고, 작은 캐릭터들만 입체감과 움직임, 사실적인 그림자, 부드러운 감성 무드로 사진에 생기를 더해줘. 마지막에는 일상 속 순간을 담은 듯한 짧고 감성적인 한국어 제목으로 마무리해줘.

미니미 이미지 생성 기능이다.

아주 복잡한 주제를 이해하기 쉽게 풀어주는, 깊이 있게 조사한 에디토리얼 스타일 인포그래픽을 만들어줘. 프리미엄 비주얼 디자인을 적용해줘. 깔끔한 그리드 레이아웃, 굵은 타이포그래피, 은은한 그라디언트, 세련된 컬러 팔레트, 우아한 아이콘, 데이터 시각화, 레이어드 다이어그램, 명확한 위계를 사용해줘. 참고 자료는 동료 심사를 거친 논문과 권위 있는 출판물을 우선해줘. 생성하기 전에 내가 늘 더 잘 이해하고 싶었던 주제가 뭔지 먼저 물어봐줘.

리서치 비주얼 이미지 생성 기능이다.

업로드한 사진을 사용해서 귀여운 일러스트 치비 스티커팩을 만들어줘. 깔끔한 흰 배경에 두꺼운 흰 테두리를 넣고, 세로형으로 만들어줘. 웃음, 울음, 졸림, 놀람, 당황, 먹는 모습, 뚱함, 귀여운 표정 등 다양하게 만들어줘. 각 표정에는 귀여운 문구도 넣어줘. 예: 좋은 아침! / 뭐어어? / 엥? / 리마인드할게! / 너무 졸려 / 와! 승인! / 좋다! / 야 너! / 에취! / 화남! / 엥??? / 잘 자 :3 / 너무 귀여워어어 / 나 이제 좀 멋있어?!

치비 스티커팩이다. 차비인 줄 알았는데...

다른 것도 놀라웠지만, 치비 스티커팩은 생각보다 결과물이 놀라웠다. 그냥 AI로 생성한 그림을 넣고 귀여운 스티커처럼 만들어달라고 했을 뿐인데, 표정이 여러 개로 나뉘고, 문구까지 붙으니 완전히 다른 콘텐츠가 됐다.

원본 그림의 대상이 그대로 남아 있으면서도, 동시에 메신저에서 쓰는 이모티콘이나 굿즈 시안 같은 느낌이 났다. 이게 단순한 이미지 변환인지, 아니면 반쯤은 캐릭터 상품 기획인지 헷갈릴 정도였다. 결과물이 그 정도로 그럴듯했다.

이번에 마음에 들었던 점은 표정의 분화였다. 웃는 모습, 우는 모습, 졸린 모습, 놀란 모습, 당황한 모습, 뚱한 모습 같은 식으로 감정이 여러 그림으로 나뉘니 이미지 하나가 아니라 세트처럼 보였다. 그냥 한 장짜리 그림이면 보고 끝인데, 스티커팩 형식으로 나오니 활용도가 확 늘어난다. 블로그 본문 중간에 넣어도 되고, 썸네일 후보로 써도 되고, 나중에 포스팅 시리즈의 장식 이미지로 써도 된다.

괜히 팩이라는 말이 붙는 게 아니었다. 하나가 아니라 묶음으로 보여야 비로소 그 맛이 난다. 문구가 들어간 것도 꽤 재미있었다. 좋은 아침, 뭐어어, 엥, 너무 졸려, 와 승인, 잘 자 같은 문구가 붙으니 이미지가 갑자기 말을 하기 시작한다. 그림은 원래 조용하다. 물론 그림에도 분위기와 감정이 있지만, 말풍선이나 짧은 문구가 들어가면 사용 맥락이 훨씬 분명해진다. 그냥 귀여운 그림이 아니라, 누군가에게 보낼 수 있는 반응 이미지가 된다. 이 차이가 의외로 크다.

블로그 글에서도 마찬가지다. 이미지는 분위기를 만들고, 짧은 문구는 리듬을 만든다. 다만 여기서도 완벽한 결과만 나온 건 아니다. 글자가 어색하게 들어가거나, 문구가 살짝 깨져 보이거나, 표정과 문장이 완전히 맞지 않는 경우도 있었다. 특히 한글 문구는 이미지 생성에서 아직 불안할 때가 있다.

영어보다 한글을 더 잘 다루는 순간도 있지만, 반대로 이상한 획이 붙거나 글자처럼 보이는데 읽히지 않는 무언가가 나오기도 한다. 이럴 때는 차라리 글자를 빼고 이미지만 만든 뒤, 나중에 직접 문구를 넣는 편이 더 깔끔할 수 있겠다 싶었다. 실제로 그 방법을 선호한다. 그래도 전체적인 완성도는 기대 이상이었다. 솔직히 재미로 시작한 프롬프트에 가까웠는데, 결과물이 너무 멀쩡하게 나와서 조금 당황했다.

카메라 단면도, 애니메이션 스타일, 못 그린 그림판 낙서, 치비 스티커팩까지 시도해 보니 같은 원본 이미지라도 방향을 어떻게 주느냐에 따라 완전히 다른 결과물이 나온다. 이게 지금 이미지 생성 기능의 재미다. 원본은 하나인데, 결과물은 계속 다른 갈래로 뻗어나간다.

생각해 보면 블로그 운영도 비슷하다. 같은 소재라도 어떻게 다루느냐에 따라 전혀 다른 글이 된다. 니콘 ZF라는 카메라를 두고도 사용기, 색감 이야기, 픽쳐컨트롤, 디자인, 단면도 이미지, 스티커팩, AI 이미지 생성 실험까지 계속 뻗을 수 있다.

소재가 고갈되는 게 아니라, 다루는 방식이 고갈되는 쪽이랄까. 물론 매번 새롭고 대단한 걸 만들 수는 없다. 그래도 이런 도구를 건드리다 보면 생각지도 못한 방향이 하나씩 튀어나온다. 블로그 하는 사람에게는 그게 꽤 중요하다. 결국 이번 실험에서 느낀 건 하나다. 챗GPT 이미지 생성은 사진을 예쁘게 바꾸는 도구이기도 하지만, 동시에 콘텐츠 아이디어를 확장하는 도구이기도 하다.

그냥 결과물만 얻고 끝나는 게 아니라, 그 결과물을 보고 다시 글을 쓰게 된다. 단면도 이미지를 만들면 카메라 구조 이야기를 하게 되고, 낙서 이미지를 만들면 일부러 못 만든 이미지의 재미를 쓰게 되고, 치비 스티커팩을 만들면 캐릭터화와 활용성 이야기를 하게 된다. 이미지를 만들었더니 글감이 딸려오는 셈이다. 이 정도면 22달러 회수에 조금은 가까워진 것 같다.

물론 그렇다고 이 기능이 무조건 좋다고만 말할 생각은 없다. 원하는 결과를 정확히 얻으려면 여전히 여러 번 수정해야 하고, 어떤 요청은 이상하게 이해하고, 어떤 결과물은 너무 과장되거나 엉뚱한 방향으로 나온다. 특히 이미지를 분석해서 고쳐 달라고 했더니 분석 내용을 이미지에 박아버리는 식의 결과는 웃기긴 하지만, 동시에 피곤하다. 그래도 그런 삑사리까지 포함해서 가지고 놀 만한 장난감이자 도구라는 생각은 든다. 완벽한 자동화가 아니라, 같이 삽질하는 기계랄까.

스테이블 디퓨전과 비교하면 방향도 다르다. 스테이블 디퓨전은 제대로 세팅하고 다루면 훨씬 세밀한 조절이 가능해 보인다. 모델, 로라, 샘플러, 해상도, 시드, 프롬프트, 네거티브 프롬프트까지 손댈 수 있는 영역이 많다. 대신 그만큼 진입장벽이 높다.

챗GPT는 상대적으로 말로 시키기 쉽다. 정확한 용어를 몰라도 이런 느낌으로라고 던지면 일단 뭔가를 만들어준다. 나처럼 전문적으로 세팅을 파고드는 쪽이 아니라, 블로그에 쓸 이미지를 빠르게 실험해 보고 싶은 사람에게는 챗GPT 쪽이 더 편하게 느껴질 수 있다. 그리고 솔직히 말하자면, 이 정도면 충분히 재미있다. 꼭 완벽한 결과물을 뽑아야만 의미가 있는 건 아니다.

블로그에 올릴 글감이 생기고, 이미지가 생기고, 그 이미지에 대해 또 할 말이 생긴다. 그 자체로 이미 쓸모가 있다. 예전 같으면 사진 한 장 올리고 끝났을 글이, 이제는 단면도도 되고, 애니풍 캐릭터도 되고, 엉망진창 그림판 낙서도 되고, 치비 스티커팩도 된다. 같은 재료로 여러 번 우려먹는다고 볼 수도 있지만, 블로그란 원래 그런 면이 있다. 사골도 끓이면 국물이 나온다. 블로그 사골도 마찬가지다.

이번 실험은 니콘 ZF 사진으로 시작했지만, 결과적으로는 카메라 이야기만은 아니었다. 사진을 찍고, AI로 변형하고, 결과를 보고, 다시 글을 쓰는 과정 자체에 관한 이야기였다. 찍는 사람의 재미와 만드는 사람의 재미가 묘하게 겹친다.

카메라로 찍는 순간에는 현실을 가져오고, 챗GPT로 이미지를 만들 때는 그 현실을 다른 형태로 비튼다. 그리고 블로그에 올릴 때는 그 과정을 다시 글로 정리한다. 사진, AI, 블로그가 이상하게 한 바퀴를 돈다. 앞으로도 이런 기능이 계속 생기면 아마 또 만져볼 것 같다.

단면도, 설계도, 스티커팩까지 나왔으니 다음에는 또 뭐가 나올지 모르겠다. 박물관 전시 패널 같은 이미지가 될 수도 있고, 게임 UI가 될 수도 있고, 제품 광고 포스터가 될 수도 있다. 어차피 내 블로그는 이런 실험을 올리기에 나쁘지 않은 공간이다. 엄청 대단한 정보 글은 아니어도, 직접 해보고 느낀 걸 쓰면 그만이다. 남들이 보기엔 별거 아니어도, 나한테는 글감이고 놀이이고 기록이다.

결과물이 놀랍다. 이 말로 정리할 수밖에 없다. 물론 매번 놀라운 건 아니고, 가끔은 이상하고, 가끔은 답답하고, 가끔은 왜 이렇게 나왔나 싶은 결과도 있다. 그런데 또 한 번씩 이런 식으로 기대 이상이 튀어나오면 계속 누르게 된다.

이번 치비 스티커팩도 그랬다. 그냥 재미로 시작한 요청이었는데, 생각보다 제대로 된 결과가 나왔다. 그래서 또 글을 쓰게 된다. 결국 챗GPT가 이미지를 만들고, 나는 그걸 보고 블로그 글을 만든다. 참 효율적인 건지, 참 별난 짓인지 모르겠지만, 지금은 꽤 재미있다.

728x90

저작자표시 (새창열림)

'일상다반사' 카테고리의 다른 글

[이모저모] 블로그 방문자 수 14만 명 달성, 블로그 수익과 댓글 반응 후기 (2)	2026.05.05
[이모저모] 후지필름 X100VI나 필름 시뮬레이션이 궁금했지만 니콘 ZF도 충분히 재미있다(feat. 니콘 픽쳐컨트롤) (1)	2026.05.05
[이모저모] 티스토리 본문 줄 노트 스타일 만들기(feat. 챗GPT) (2)	2026.05.04
[이모저모] 미투데이, 사라지고 나서 더 그리워진 국내 SNS (2)	2026.05.02
[이모저모] 믹스커피 두 봉지로 끝내는 홈카페 (1)	2026.05.02

TAG more

최근에 달린 댓글

글 보관함

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

최근에 올라온 글

Total

Today

Yesterday

티스토리툴바

21

티스토리 뷰