구글의 언어 모델 '팔리젬마2' - 이미지와 텍스트를 동시에 이해하는 AI

이번에 구글에서 '팔리젬마2(PaliGemma 2)를 공개했다. 최신 버전인 언어 모델로 이미지와 문자를 동시에 이해하는 능력을 갖추고 있으며 팔리젬마 1 보다 성능은 향상되고 어떠한 환경에서도 유연하게 대처하여 사용 가능하도록 한 것이 특징이다.

주요 특징

1. 이미지 및 텍스트 이해력 강화

올해 출시된 팔리젬마 2는 단순하게 객체만 인식하는 것이 아닌 전체적인 장면의 맥락을 이해하고 감정과 동작을 분석하는 기능이 강화되었다. 이를 통해 이미지를 설명하고, 질의응답 및 스토리텔링에서 더욱 정교한 성능을 발휘한다

2. 다양한 크기의 모델 제공

30억, 100억, 280억 개의 매개변수를 갖춘 세 가지 버전으로 출시. 사용자의 작업 규모, 성능 요구에 맞춰 적절한 모델을 선택할 수 있다.

3. 고해상도 이미지 지원

팔리젬마 1의 경우 224p 해상도까지만 지원했던 것과 달리, 팔리젬마 2는 448p와 896p 해상도까지 지원한다.

이는 의료 영상 분석, 문서 및 지도 인식 등에서 활용도가 더욱 높아졌다.

4. OCR 및 문서 이해 기능 강화

광학문자인식(OCR) 기능이 크게 향상되어, 표, 차트, 수식 등의 복잡한 구조를 보다 정확하게 분석하여 법률, 금융, 의료 등의 전문 분야에서 활용할 수 있다.

5. 다양한 응용 분야

화학 공식 및 수식 분석: 과학 연구 및 교육에 활용 가능
음악 악보 인식: 악보를 자동 분석하고 연주 정보를 제공
의료 영상 분석: X-ray 및 CT 이미지에서 병변 탐지 및 의료 보고서 자동 생성
공간 추론 및 내비게이션: 지도 분석 및 로봇 비전 시스템 적용

팔리젬마 2의 추가 기능

오픈 소스로 공개된 이번 모델의 경우 허깅페이스(Hugging Face)와 캐글(Kaggle)에서 다운로드할 수 있다.

기존 사용자들은 별도의 코드 수정 없이 업그레이드 가능하고, 특정 작업에 맞춰 미세 조정할 수 있다.

감정 분석 기능과 논란

팔리젬마 2는 사진 속 인물의 감정을 분석하는 기능이 제공되고 있지만 개인 사생활에 대한 논란이 존재한다.

퀸 메리 대학교의 마이크 쿡(Mike Cook) 연구원은 “AI가 인간의 감정을 정확히 분석하기는 어렵다”고 지적했으나, 팔리젬마 2는 감정뿐만 아니라 행동과 장면의 맥락을 종합적으로 분석하는 데 강점을 보이고, 특정 작업에 맞춰 미세 조정하면 더욱 정밀한 결과를 얻을 수 있다.

결론

팔리젬마 2는 다양한 크기와 해상도를 지원함으로써 법률 문서를 분석하거나 의료, 콘텐츠 제작, 자율주행, 등 다양한 산업에서 혁신을 이끌 것으로 예상하고 있다.

팔리젬마 시리즈를 계속 발전시켜, AI 기반을 바탕으로 언어 기술을 더 정교하게 만들어 나갈 계획이라고 밝혔다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Economy' 카테고리의 다른 글

BIS 은행의 안정성 - 국제금융시스템의 중추, 중앙은행의 은행 (0)	2025.02.23
금세공업자에서 현대 은행 시스템까지 - 화폐와 금융의 진화 (0)	2025.02.23
아이온큐 - 양자컴퓨팅 혁명의 리더 (0)	2025.02.22
팔란티어 테크놀리지 - 데이터 분석의 선두 주자 (빅데이터 처리와 AI 기술의 혁신) (0)	2025.02.22
① 메모리 반도체 성장률을 가늠해 보는 지표 - 비트그로스 (bit Growth) (0)	2023.02.19

Gianna

구글의 언어 모델 '팔리젬마2' - 이미지와 텍스트를 동시에 이해하는 AI

주요 특징

팔리젬마 2의 추가 기능

감정 분석 기능과 논란

결론

'Economy' 카테고리의 다른 글

댓글

티스토리툴바

구글의 언어 모델 '팔리젬마2' - 이미지와 텍스트를 동시에 이해하는 AI

주요 특징

팔리젬마 2의 추가 기능

감정 분석 기능과 논란

결론

'Economy' 카테고리의 다른 글

관련글

댓글

티스토리툴바