VQ-GAN은 양자화를 통해 효율을 높이는 대신 정보 손실이 발생해서 국소적 패턴 오류가 생기는것 아닌지
- 랜덤 노이즈에서 시작
- 노이즈를 천천히 이미지로 변환하는 과정에서, 매 단계마다 위의 두 규칙을 적용
- 이미지가 서로 다른 방향으로 연결되어야 할 때는, 이미지를 적절히 회전
- 여러 이미지와 연결되어야 할 경우, 번갈아가며 각 연결을 고려
- 마지막엔 완성된 이미지들을 원래 크기로 자름
배경 같은 걸 만들때 tiled diffusion을 사용한다고 하면, 반복적인 패턴에 지속적으로 변주를 줌으로써 다양성을 추구하면 좋지 않을까...
최종적으로 AR이나 VR 글라스를 통해 구현하면 더 좋지 않을까...
MatFuse에 Dynamic CFG와 CADS를 함께 적용해 더 풍부한 재료 맵 생성 → Tiled Diffusion으로 타일링
큰 모양의 패턴을 잘 이어 붙이려면 tiled diffusion 컨텍스트 윈도우의 크기가 커야 할 것같음 -> tiled diffusion의 컨텍스트 윈도우를 자동으로 조정할 수 있게 개선
Dynamic CFG와 CADS는 결국엔 다양성을 높이는 것 -> 제시한 텍스트나 이미지 외의 다른 이미지를 써봤을 때 map 품질이 별로 안좋게 생성되는 문제는 그런 이미지들이 matfuse의 학습 분포에서 벗어나있기 때문이 아닌지 -> 이를 해결하려면 다양성을 높일 문제가 아니라 matfuse를 더욱 학습시키거나, 입력이미지를 matfuse의 학습분포에 가깝게 만든 후 학습 시작 -> ex) Style Transfer로 조약돌 사진을 MatFuse 학습 스타일로 변환 한 뒤 Dynamic CFG와 CADS로 다양한 맵을 생성
Q. Cads로 맵의 다양성을 늘리는거랑 그 맵이 matfuse에 잘 적용되는거랑은 별개의 문제 아닌지?
-> 텍스처를 matfuse가 잘 처리할 수 있는 형태로 전처리
-> 텍스처들을 특성 공간(feature space)에 매핑, MatFuse 호환 텍스처들의 특성 분포를 분석 후 CADS 방식으로 새 텍스처의 특성을 이 분포 방향으로 점진적으로 어닐링
이는 원본 텍스처의 외관을 크게 변경하지 않으면서 MatFuse 호환성 증가 가능
베이스 텍스처가 잘 인코딩되지 않는 문제라면 VQ-GAN 개선에 집중해야
-> 입력 텍스처를 VQ-GAN이 처리하기 쉬운 형태로 전처리 or VQ-GAN 말고 다른걸 쓰던가 VQ-GAN 자체 개선 (손실값에 고주파수 끼리 뺀 것 추가 등)
컨디셔닝 적용에 문제가 있다면 확산 모델의 조건부 샘플링 과정을 개선해야
-> CADS의 조건 잠재벡터를 matfuse에 학습된 텍스처들의 잠재벡터과 결합해서 원본의 형태에서 크게 벗어나지 않으면서 matfuse에 잘 적용될 수 있는 텍스처를 만들기
맵 입힐 때는 tiled diffusion 사용
SSIM (Structural Similarity Index Measure): 인간의 시각 인식 방식을 모델링하여 이미지 간의 구조적 유사성을 측정
Si-FID (Spectrum-invariant Fréchet Inception Distance: 주파수 도메인에서 텍스처의 통계적 유사성 평가
LPIPS (Learned Perceptual Image Patch Similarity): 인간의 지각적 판단과 일치하는 이미지 유사성 측정
DISTS (Deep Image Structure and Texture Similarity): 구조와 텍스처를 모두 고려한 포괄적 이미지 유사성 측정
PieAPP (Perceptual Image-Error Assessment): 왜곡된 이미지의 지각적 품질 평가
BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator): 참조 이미지 없이 이미지 품질 평가
CLIP-IQA (CLIP-based Image Quality Assessment): OpenAI의 CLIP 모델을 활용한 이미지 품질 평가
TexTile (Texture Tileability Metric): 텍스처의 타일링 가능성(seamless tiling) 평가
결과 텍스처가 얼마나 정량, 정성 적으로 자연스러운가를 평가하는건 당연한거고,
원본과 conditon 조건들의 특성을 얼마나 유지하고 있는지에 대한 평가 필요
교차 어텐션 기반 잠재벡터 융합
- CADS의 조건 잠재벡터를 쿼리(query)로 사용
- MatFuse의 텍스처 잠재벡터를 키(key)와 값(value)으로 활용
- 원본 텍스처 특성에 가중치를 두면서 MatFuse 호환성 확보
사용자가 텍스처를 업로드하면 시스템은 즉시 MatFuse 모델을 통해 텍스처를 적용하고 그 결과를 보여줌
동시에 텍스처 무결성, 색상 정확도, 세부 정보 보존도 등을 분석해 0-100점 척도의 품질 점수와 시각적 보고서를 생성
사용자는 이 품질 정보를 보고 현재 결과를 그대로 사용할지, 미세조정을 통해 품질을 개선할지 결정 (tiled diffusion은 모든 텍스처에 대해 일괄 적용)
미세조정을 선택하면 텍스처 특성에 맞게 모델의 일부 레이어만 효율적으로 조정하며, 진행 상황과 예상 완료 시간을 실시간으로 보여주고 중간 결과를 미리 확인할 수 있음
최종 결과물이 생성되면 개선 전후를 비교할 수 있고, 미세조정된 모델은 캐시에 저장되어 유사한 텍스처 처리 시 재사용됨