본문 바로가기
보호되어 있는 글 입니다.
구글의 언어 모델 '팔리젬마2' - 이미지와 텍스트를 동시에 이해하는 AI 이번에 구글에서 '팔리젬마2(PaliGemma 2)를 공개했다. 최신 버전인 언어 모델로 이미지와 문자를 동시에 이해하는 능력을 갖추고 있으며 팔리젬마 1 보다 성능은 향상되고 어떠한 환경에서도 유연하게 대처하여 사용 가능하도록 한 것이 특징이다. 주요 특징1. 이미지 및 텍스트 이해력 강화올해 출시된 팔리젬마 2는 단순하게 객체만 인식하는 것이 아닌 전체적인 장면의 맥락을 이해하고 감정과 동작을 분석하는 기능이 강화되었다. 이를 통해 이미지를 설명하고, 질의응답 및 스토리텔링에서 더욱 정교한 성능을 발휘한다 2. 다양한 크기의 모델 제공30억, 100억, 280억 개의 매개변수를 갖춘 세 가지 버전으로 출시.  사용자의 작업 규모, 성능 요구에 맞춰 적절한 모델을 선택할 수 있다. 3. 고해상도 이미지.. 2025. 2. 23.
Economy

구글의 언어 모델 '팔리젬마2' - 이미지와 텍스트를 동시에 이해하는 AI

by loadging 2025. 2. 23.
반응형

 

이번에 구글에서 '팔리젬마2(PaliGemma 2)를 공개했다. 최신 버전인 언어 모델로 이미지와 문자를 동시에 이해하는 능력을 갖추고 있으며 팔리젬마 1 보다 성능은 향상되고 어떠한 환경에서도 유연하게 대처하여 사용 가능하도록 한 것이 특징이다.

 

주요 특징

1. 이미지 및 텍스트 이해력 강화

올해 출시된 팔리젬마 2는 단순하게 객체만 인식하는 것이 아닌 전체적인 장면의 맥락을 이해하고 감정과 동작을 분석하는 기능이 강화되었다. 이를 통해 이미지를 설명하고, 질의응답 및 스토리텔링에서 더욱 정교한 성능을 발휘한다

 

2. 다양한 크기의 모델 제공

30억, 100억, 280억 개의 매개변수를 갖춘 세 가지 버전으로 출시.  사용자의 작업 규모, 성능 요구에 맞춰 적절한 모델을 선택할 수 있다.

 

3. 고해상도 이미지 지원

팔리젬마 1의 경우 224p 해상도까지만 지원했던 것과 달리, 팔리젬마 2는 448p와 896p 해상도까지 지원한다.

이는  의료 영상 분석, 문서 및 지도 인식 등에서 활용도가 더욱 높아졌다.

 

4. OCR 및 문서 이해 기능 강화

광학문자인식(OCR) 기능이 크게 향상되어, 표, 차트, 수식 등의 복잡한 구조를 보다 정확하게 분석하여 법률, 금융, 의료 등의 전문 분야에서 활용할 수 있다.

 

5.  다양한 응용 분야

  • 화학 공식 및 수식 분석: 과학 연구 및 교육에 활용 가능
  • 음악 악보 인식: 악보를 자동 분석하고 연주 정보를 제공
  • 의료 영상 분석: X-ray 및 CT 이미지에서 병변 탐지 및 의료 보고서 자동 생성
  • 공간 추론 및 내비게이션: 지도 분석 및 로봇 비전 시스템 적용

 

팔리젬마 2의 추가 기능

오픈 소스로 공개된 이번 모델의 경우 허깅페이스(Hugging Face)와 캐글(Kaggle)에서 다운로드할 수 있다.

기존 사용자들은 별도의 코드 수정 없이 업그레이드 가능하고, 특정 작업에 맞춰 미세 조정할 수 있다.

감정 분석 기능과 논란

팔리젬마 2는 사진 속 인물의 감정을 분석하는 기능이 제공되고 있지만 개인 사생활에 대한 논란이 존재한다.

퀸 메리 대학교의 마이크 쿡(Mike Cook) 연구원은 “AI가 인간의 감정을 정확히 분석하기는 어렵다”고 지적했으나, 팔리젬마 2는 감정뿐만 아니라 행동과 장면의 맥락을 종합적으로 분석하는 데 강점을 보이고, 특정 작업에 맞춰 미세 조정하면 더욱 정밀한 결과를 얻을 수 있다.

 

결론

 

팔리젬마 2는 다양한 크기와 해상도를 지원함으로써 법률 문서를 분석하거나 의료, 콘텐츠 제작, 자율주행,  등 다양한  산업에서 혁신을 이끌 것으로 예상하고 있다.

 

 팔리젬마 시리즈를 계속 발전시켜, AI 기반을 바탕으로 언어 기술을 더 정교하게 만들어 나갈 계획이라고 밝혔다.

728x90

댓글