생성형AI는 이미 다양한 산업 분야에서 큰 영향을 미치고 있으며, 그 영향력은 계속 증가할 것으로 보이나, 기존의 산업구조와 일자리 감소 등 큰 영향을 미칠 수 있습니다. 따라서 오늘은 현재와 미래의 큰 영향을 주고 있는 생성형AI 문제점, 종류, 활용 사례를 정리해 보겠습니다.
① 생성형AI란 무엇인가?
생성형 AI는 기존 콘텐츠에서 배운 내용을 기반으로 새로운 콘텐츠를 생성하는 인공지능(AI)의 하나입니다. 생성형 AI는 사람과 유사한 창의적 프로세스를 모방하여 텍스트, 사진, 코드, 비디오, 3D 렌더링 등과 같은 새로운 콘텐츠를 생성할 수 있습니다.
1) LMM과의 관계
생성형 AI와 LLM은 밀접한 관계가 있습니다. LLM은 생성 AI의 핵심 구성 요소이며, LLM은 생성 AI가 새로운 콘텐츠를 생성하는 데 필요한 패턴과 규칙을 학습하는 데 사용됩니다.
예를 들어, LLM을 사용하여 텍스트 생성 모델을 훈련할 수 있습니다. 이 모델은 텍스트 데이터 세트에 대해 훈련되며, 시퀀스의 다음 단어를 예측하는 방법을 학습합니다. 이 모델은 다음과 같이 다양하게 작업할 수 있습니다.
- 새로운 시, 코드, 소설 등을 생성할 수 있습니다.
- 고객 서비스 에이전트가 고객의 질문에 응답하는 데 도움을 주고 있습니다.
- 창의적인 콘텐츠를 생성하여 작업에 도움이 되는 도구로 사용되고 있습니다.
따라서, LLM의 발전에 따라서 생성형 AI의 기술 수준은 더욱 향상될 것입니다.
2) 생성형AI의 기본 원리
데이터 수집: 생성형 AI는 먼저 대규모 데이터 세트를 수집합니다. 이 데이터 세트는 이미지, 텍스트, 오디오 등 다양한 형태의 콘텐츠로 구성될 수 있습니다.
모델훈련: 생성형 AI는 수집한 데이터 세트를 기반으로 모델을 훈련합니다. 모델은 데이터 세트에 포함된 패턴을 학습하여 새로운 콘텐츠를 생성하는 데 사용됩니다.
콘텐츠 생성: 생성형 AI는 훈련된 모델을 사용하여 새로운 콘텐츠를 생성합니다. 생성되는 콘텐츠의 유형은 모델의 종류에 따라서 달라집니다.
② 생성형AI의 종류 및 활용 사례
1) 텍스트 생성
바드(BARD): 바드는 Google AI에서 개발한 LLM이며, 바드는 1370억 개의 파라미터를 가지고 있으며, LaMDA와 동일한 수치입니다. 바드는 한국어로 텍스트를 생성할 수 있다는 점이 특징이며, 바드는 텍스트 생성, 번역, 요약, 질문 답변 등 다양한 작업에 활용될 수 있습니다.
GPT-4: GPT-4는 OpenAI에서 개발한 LLM입니다. GPT-4는 1750억 개의 파라미터를 가지고 있으며, 이는 이전 버전인 GPT-4보다 10배 이상 많은 수치입니다. GPT-4는 창의적인 콘텐츠 생성, 특히 시, 소설, 코드, 음악, 그림 등과 같은 창의적인 콘텐츠 생성에 강점이 있습니다. 또한, GPT-4는 텍스트와 코드의 방대한 데이터 세트로 훈련되었기 때문에 다양한 작업을 수행할 수 있는 능력이 뛰어납니다.
LaMDA: LaMDA는 구글 AI에서 개발한 LLM이며, LaMDA는 1370억 개의 파라미터를 가지고 있으며, 이는 GPT-4보다 적은 수치이지만 여전히 방대한 양입니다. LaMDA는 텍스트와 코드의 데이터 세트 외에도 구글 검색을 통해 실제 세계의 정보에 액세스 하고 처리할 수 있습니다. 따라서 LaMDA는 GPT-4보다 더 포괄적이고 최신 정보를 제공할 수 있습니다. LaMDA는 창의적인 콘텐츠 생성 외에도 질문 답변, 요약, 번역 등 다양한 작업에 강점이 있습니다.
2) 이미지 생성
DALL-E 2: DALL-E 2는 텍스트 설명을 사용하여 현실적인 이미지를 생성할 수 있으며, 문장을 만들어 텍스트 설명을 제시하면 실제와 같은 이미지를 생성할 수 있습니다. DALL-E 2는 Diffusion 모델이라는 기술을 사용하여 이미지를 생성하며, Diffusion 모델은 이미지를 점진적으로 생성하는 방식으로 작동합니다. 먼저 흐릿한 이미지를 생성하고, 텍스트 설명과 일치하도록 점차 이미지를 선명하게 만듭니다.
VQGAN+CLIP: VQGAN+CLIP는 텍스트 설명과 이미지를 사용하여 이미지를 생성할 수 있습니다. VQGAN+CLIP은 두 가지 기술을 사용하여 이미지를 생성합니다. VQGAN은 이미지를 벡터로 변환하는 기술이고, CLIP은 텍스트와 이미지를 연결하는 기술입니다. VQGAN은 텍스트 설명과 일치하도록 이미지의 벡터를 점차 조정하고, CLIP은 이미지의 벡터가 텍스트 설명과 일치하도록 이미지를 점차 조정합니다.
Ganbreeder: Ganbreeder는 두 개의 이미지를 결합하여 새로운 이미지를 생성할 수 있습니다. 예를 들어 판다 이미지와 캥거루 이미지를 제공하면 Ganbreeder는 고양이와 강아지가 합쳐진 새로운 이미지를 생성할 수 있습니다.
3) 오디오 생성
DeepMind의 MuseNEt: DeepMind의 MuseNEt은 텍스트, 악보 또는 기타 오디오 데이터를 사용하여 음악을 생성할 수 있는 생성형 AI 오디오 생성 프로그램입니다. MuseNet은 137B 파라미터를 가진 대규모 언어 모델을 기반으로 했으며, MuseNet은 다양한 음악 장르를 생성할 수 있습니다. 또한, 기존 음악을 편곡하거나 새로운 장르로 변환시킬 수도 있습니다.
구글 AI의 WaVeNet: WaveNet은 음성 합성을 위한 생성형 AI 오디오 생성 프로그램입니다. WaveNet은 텍스트를 입력으로 받아 음성을 생성합니다. WaveNet은 매우 사실적인 음성을 생성할 수 있으며, 다양한 목소리를 생성할 수도 있습니다.
Lyrebird: Lyrebird는 음성 합성을 위한 생성형 AI 오디오 생성 프로그램입니다. Lyrebird은 기존에 녹음된 음성을 입력으로 받아 새로운 음성을 생성합니다. Lyrebird은 매우 사실적인 음성을 생성할 수 있으며, 원본 음성과 구별하기 어려울 정도입니다.
③ 생성형AI 문제점
편향성의 확산: 생성형 AI는 대규모 데이터 세트를 사용하여 학습하기 때문에, 그 데이터 세트에 내재된 편향성을 그대로 반영할 수 있습니다. 예시를 들자면, 특정 인종이나 성별에 대한 편향된 데이터 세트를 사용하여 생성형 AI를 학습을 시킬 경우에는 그 생성형 AI 해당 인종이나 성별에 대한 편향된 결과를 생성할 수 있습니다. 이는 인종차별, 성차별 등의 확산으로 이어질 우려가 있습니다.
허위 정보의 확산: 생성형 AI는 매우 사실적인 이미지나 동영상을 생성할 수 있기 때문에, 진짜와 가짜를 구분하기가 어려울 수 있으며, 이는 가짜 뉴스, 가짜 광고 등의 확산으로 이어질 가능성이 있습니다. 이는 사회적 혼란, 정치적 불안 등을 초래할 수 있습니다.
인권침해: 대표적인 인권침해로는 딥페이크 기술이 있습니다. 딥페이크 기술은 실제와 구분하기 어려운 영상을 생성할 수 있으며, 최근 논란이 많았던 프로그램입니다.
일자리감소: 생성형 AI는 반복적이고 단순한 일자리를 대체할 수 있기에 일자리 감소를 초래할 수 있으며, 특히 제조업이나 서비스업 등 생성형 Ai의 도입으로 인해 일자리 감소 현상을 일으킬 수 있습니다.
마치며
생성형 AI의 발전은 현대 사회에 큰 변화를 가져올 것으로 예상되나 기존의 산업구조 및 일자리에 큰 영향을 미칠 수 있습니다. 또한, 정보 왜곡과 개인정보 침해 등 부정적 영향도 발생할 수 있기에 이에 대한 대비도 철저히 해야 합니다. AI의 발전은 곧 우리 사회의 변화를 의미하며 우리는 AI가 대체할 수 없는 자리에 그 속에서 새로운 기회를 찾기 위한 노력이 필요합니다. 끝까지 읽어주셔서 감사합니다.