이번에 구글에서 '팔리젬마2(PaliGemma 2)를 공개했다. 최신 버전인 언어 모델로 이미지와 문자를 동시에 이해하는 능력을 갖추고 있으며 팔리젬마 1 보다 성능은 향상되고 어떠한 환경에서도 유연하게 대처하여 사용 가능하도록 한 것이 특징이다.
주요 특징
1. 이미지 및 텍스트 이해력 강화
올해 출시된 팔리젬마 2는 단순하게 객체만 인식하는 것이 아닌 전체적인 장면의 맥락을 이해하고 감정과 동작을 분석하는 기능이 강화되었다. 이를 통해 이미지를 설명하고, 질의응답 및 스토리텔링에서 더욱 정교한 성능을 발휘한다
2. 다양한 크기의 모델 제공
30억, 100억, 280억 개의 매개변수를 갖춘 세 가지 버전으로 출시. 사용자의 작업 규모, 성능 요구에 맞춰 적절한 모델을 선택할 수 있다.
3. 고해상도 이미지 지원
팔리젬마 1의 경우 224p 해상도까지만 지원했던 것과 달리, 팔리젬마 2는 448p와 896p 해상도까지 지원한다.
이는 의료 영상 분석, 문서 및 지도 인식 등에서 활용도가 더욱 높아졌다.
4. OCR 및 문서 이해 기능 강화
광학문자인식(OCR) 기능이 크게 향상되어, 표, 차트, 수식 등의 복잡한 구조를 보다 정확하게 분석하여 법률, 금융, 의료 등의 전문 분야에서 활용할 수 있다.
5. 다양한 응용 분야
- 화학 공식 및 수식 분석: 과학 연구 및 교육에 활용 가능
- 음악 악보 인식: 악보를 자동 분석하고 연주 정보를 제공
- 의료 영상 분석: X-ray 및 CT 이미지에서 병변 탐지 및 의료 보고서 자동 생성
- 공간 추론 및 내비게이션: 지도 분석 및 로봇 비전 시스템 적용
팔리젬마 2의 추가 기능
오픈 소스로 공개된 이번 모델의 경우 허깅페이스(Hugging Face)와 캐글(Kaggle)에서 다운로드할 수 있다.
기존 사용자들은 별도의 코드 수정 없이 업그레이드 가능하고, 특정 작업에 맞춰 미세 조정할 수 있다.
감정 분석 기능과 논란
팔리젬마 2는 사진 속 인물의 감정을 분석하는 기능이 제공되고 있지만 개인 사생활에 대한 논란이 존재한다.
퀸 메리 대학교의 마이크 쿡(Mike Cook) 연구원은 “AI가 인간의 감정을 정확히 분석하기는 어렵다”고 지적했으나, 팔리젬마 2는 감정뿐만 아니라 행동과 장면의 맥락을 종합적으로 분석하는 데 강점을 보이고, 특정 작업에 맞춰 미세 조정하면 더욱 정밀한 결과를 얻을 수 있다.
결론
팔리젬마 2는 다양한 크기와 해상도를 지원함으로써 법률 문서를 분석하거나 의료, 콘텐츠 제작, 자율주행, 등 다양한 산업에서 혁신을 이끌 것으로 예상하고 있다.
팔리젬마 시리즈를 계속 발전시켜, AI 기반을 바탕으로 언어 기술을 더 정교하게 만들어 나갈 계획이라고 밝혔다.
'Economy' 카테고리의 다른 글
BIS 은행의 안정성 - 국제금융시스템의 중추, 중앙은행의 은행 (0) | 2025.02.23 |
---|---|
금세공업자에서 현대 은행 시스템까지 - 화폐와 금융의 진화 (0) | 2025.02.23 |
아이온큐 - 양자컴퓨팅 혁명의 리더 (0) | 2025.02.22 |
팔란티어 테크놀리지 - 데이터 분석의 선두 주자 (빅데이터 처리와 AI 기술의 혁신) (0) | 2025.02.22 |
① 메모리 반도체 성장률을 가늠해 보는 지표 - 비트그로스 (bit Growth) (0) | 2023.02.19 |
댓글