🔎아티클 스터디: 눈과 귀가 달린 LLM, 멀티모달 AI

2024. 6. 25. 09:58학습/팀스터디

 

01 오늘의 아티클


 

눈과 귀가 달린 LLM, 멀티모달 AI | 요즘IT

최근 openAI가 선보인 AI 모델 GPT-4o에 대한 관심이 뜨겁습니다. GPT-4o는 목소리 톤을 바꾸어 가며 감정을 담은 농담을 던지고, 주변 풍경을 정확히 인식하며 시각장애인을 위한 길 안내와 택시 잡기

yozm.wishket.com

 

02 아티클 정보 요약


1. 멀티모달AI란 텍스트, 오디오, 비디오, 이미지를 입력 받아 다양한 형태 (텍스트, 오디오, 비디오, 이미지로)로 출력하는 모델을 말한다.

2. 멀티모달AI가 일반인공지능(AGI)와 같이 쓰이는 것은 아직 시기상조가 아닐까? 생성형 AI가 아직 인간에 의한 '트리거'를 필요로 하기 때문이다.

3. 하지만 멀지 않은 미래에 이것이 가능할지도 모른다. 휴대폰+계산기능+카메라 기능 등이 너무 당연하게 되어버린 것처럼, 멀티모달AI도 특수한 기술이 아니게 되어버릴 지도 모른다.

 

03 인사이트


- 이젠 생성형 AI에 대적하기 보다는 이들과 어떻게 상생할 것인가를 고민할 시기가 아닌가 싶다. 그래서 프롬프트 엔지니어링을 요구하는 곳이 많아지는 것도 눈에 보인다. 프롬프트 엔지니어링이 굳이 필요한가? 에 대해서는  빵집 프로젝트를 하며 깨달은 점이 있다.

- 스마트폰이라는 새로운 문명을 접한 이들에게 안내서가 필요한 것처럼, 생성형 AI도 어떻게 잘 사용하는지 배우는 과정이 프롬프트 엔지니어링이다. 좋은 기술은 만들기만 하면 끝이 아니다. 잘 사용할 줄 알아야 하는 게 무엇보다 중요할 것이다.