GPT 4.5 최신 뉴스와 혁신적인 AI 기능 소개

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News KR GPT 4.5 최신 뉴스와 혁신적인 AI 기능 소개

GPT 4.5 최신 뉴스와 혁신적인 AI 기능 소개

소개
GPT 4.5 유출
GPT 4.5 모델 소개
GPT 4.5 가격과 성능 비교
GPT 4.5 다양한 기능 소개
Google의 Gemini Pro API 출시
Google의 이미지 생성 모델 소개
Google의 음악 생성 모델 소개
텍스트 음성 변환 모델 소개
Stably AI의 3D 객체 생성 모델 소개
Misl AI의 Mixl 8X 7B 모델 소개
Microsoft의 F-2 Small 모델 소개
Pika 1.0 소개

GPT 4.5 유출

AI 기술은 최근에 폭발적인 성장을 이루고 있으며, 그 중에서도 AI 뉴스는 끊임없이 나오고 있습니다. 오늘의 AI 뉴스는 OpenAI의 GPT 4.5에 대한 유출 소식입니다. Reddit에 유출 소식이 나와 Reddit 페이지를 살펴보면 GPT 4.5에 대한 OpenAI의 페이지 또는 블로그 글 초안이 올라와 있는 것을 볼 수 있습니다. 이 유출이 공식적인 것인지 여부는 아직 확인되지 않았지만, 매우 흥미로운 내용이 담겨 있습니다. GPT 4.5는 GPT 4 Vision의 다중 모달 기능을 비롯하여 언어, 오디오, 비전, 비디오, 3D 등 다양한 모달을 다룰 수 있는 능력을 가지고 있습니다. 하지만 이 유출 소식이 확실한 것은 아니기 때문에 그 내용을 단정짓기에는 아직 이르다고 생각됩니다. GPT 4.5 모델의 가격은 매우 비싸며, 6 cent에서 18 cent까지 주고받는 1,000 토큰에 따라 다르지만, 이러한 가격은 이 유출 소식이 진짜로 공개된 내용인 것처럼 실제로 매우 현실적인 것으로 보입니다. 또한, GPT 4.5 모델은 32K 정도의 컨텍스트 윈도우를 가지고 있는 것으로 추정되며, 이는 현재의 GPT 4 Turbo보다 작지만 여전히 상당히 큰 사이즈입니다. 영상 및 3D 기능에 대한 가격 계산기도 올라와 있으며, 이 또한 매우 현실적인 가격으로 보입니다. 그래도 이 유출 소식이 진짜라면 매우 기대되며, 다음 해 초 혹은 올해 말 이전에 공식 발표될 것으로 예상됩니다. 만약 이 모든 소식이 사실이라면, GPT 4가 출시된 이후로는 최고의 혁신일 것입니다.

GPT 4.5 모델 소개

OpenAI의 GPT 4.5는 이전 버전인 GPT 4보다 더 발전된 모델입니다. GPT 4.5는 다중 모달 기능을 갖추고 있으며, 언어, 오디오, 비전, 비디오, 3D 등 다양한 모달을 효과적으로 처리할 수 있습니다. GPT 4 Vision에서 이미 다중 모달 능력을 보여줬었지만, GPT 4.5에서는 이러한 능력이 언어, 오디오, 비전, 비디오, 3D 등 여러 모달에 걸쳐 확대되어 적용됩니다. 이 모델은 복잡한 추론과 모달 간 이해력을 갖추고 있어, 다양한 정보를 통합해 종합적인 이해를 할 수 있습니다. 예를 들어, 소리와 관련된 정보를 들을 때 해당 소리의 의미를 이해할 수 있거나, 유리가 깨지는 소리의 오디오를 듣고 비디오에서 유리가 깨지는 장면을 보면, 이 두 가지 정보를 종합하여 같은 의미라고 이해할 수 있습니다. 이러한 다중 모달 능력은 기존의 모델들보다 큰 의미를 가지며, AI 기술의 발전 가능성은 매우 큽니다.

GPT 4.5 모델의 가격과 성능 비교

GPT 4.5의 가격은 매우 비싸다는 점이 주목할 만합니다. 1,000 토큰의 입력 및 출력에 대해 6 cent에서 18 cent까지의 가격이 부과됩니다. 이는 현재로서는 매우 비싼 가격으로써, 많은 사람들이 이 모델을 이용하는 것을 어렵게 만들 수 있습니다. 비교적 저렴한 가격으로 더 많은 사람들에게 알려지기 위해 의도적으로 유출된 것이 아닐까 생각됩니다. 하지만 이 가격이 매우 현실적이며 진짜로 발표되는 사실일 가능성이 크기 때문에 믿음직한 정보라고 할 수 있습니다. 또한, GPT 4.5 모델은 64K 컨텍스트 윈도우를 가지고 있는 것으로 예상됩니다. 현재 사용되는 GPT 4 컨텍스트 윈도우 크기인 128,000에 비하면 상대적으로 작지만 여전히 충분히 큰 크기입니다. 가격 또한 1,000 토큰의 입력에 12 cent, 출력에는 36 cent로 매우 비싼 편입니다. 또한, GPT 4.5에는 음성과 오디오를 다루는 모델이 존재합니다. 이 모델은 토큰 대신 분 단위로 가격이 책정되며, 입력은 약 1 cent, 출력은 약 2 cents가 됩니다. 이러한 가격과 성능은 매우 흥미로우며, 곧 발표될 것으로 예상됩니다. 이 모델이 준비된 새로운 기능들은 이전에 볼 수 없었던 혁신적인 기능들을 포함하고 있습니다. 이러한 변화가 실현된다면, 이는 GPT 4 출시 이후로 가장 큰 게임 체인저가 될 것입니다.

GPT 4.5 다양한 기능 소개

GPT 4.5는 이전 모델에 비해 다양한 기능을 제공합니다.

다중 모달 기능: GPT 4.5는 언어, 오디오, 비전, 비디오, 3D 등 다양한 모달을 처리할 수 있습니다. 이를 통해 더 복잡한 추론과 다중 모달 간의 이해력이 가능해집니다.
복잡한 추론 기능: GPT 4.5는 복잡한 추론을 처리할 수 있습니다. 예를 들어, 다양한 모달에서 얻은 정보를 종합해 더욱 효과적인 추론을 할 수 있습니다.
모달 간 이해력: GPT 4.5는 다양한 모달 간의 관계를 이해할 수 있습니다. 예를 들어, 어떤 소리의 의미를 듣고 비디오에서 비슷한 소리를 보면, 이러한 모달 간의 유사성을 이해하고 종합적인 이해를 할 수 있습니다.
고급 모델: GPT 4.5는 이전 모델들보다 성능이 좋습니다. 다양한 모달을 다루는 능력과 복잡한 추론 기능을 갖추고 있어, 다양한 AI 응용 분야에서 더욱 효과적인 활용이 가능합니다.

Google의 Gemini Pro API 출시

Google은 최근에 Gemini Pro API를 출시하였습니다. 이 API의 가격은 OpenAI와 비교해 매우 경쟁력 있는 것으로 알려져 있습니다. 무려 60쿼리/분을 완전히 무료로 이용할 수 있으며, 많은 개발자들에게는 충분한 양입니다. 또한, Gemini Pro 모델은 OpenAI의 GPT 무료 버전과 유사한 성능을 보입니다. API를 통해 입력 및 출력되는 모든 데이터는 Google로 전송되어 AI 기술의 향상을 위해 사용됩니다. 무료 API로서는 데이터 관련 이슈에 대한 우려가 있을 수 있지만, 고려해야 할 점은 API를 완전히 무료로 사용할 수 있다는 것입니다. 사용량이 60쿼리/분 이상이라면 유료 결제 시스템을 이용할 수도 있으며, 가격은 극히 저렴합니다. 초과 사용 시에도 매우 저렴한 가격으로 이용할 수 있어, Google이 시장 점유율을 높이기 위해 가격으로 경쟁하는 모습을 보여줍니다. 앞으로는 오픈 소스가 가장 중요한 요소가 될 것으로 예상되며, 가장 유연하고 저렴한 옵션일 것입니다.

Google의 이미지 생성 모델 소개

Google은 이미지 생성 모델을 공개하였습니다. 이 모델은 이전 모델보다 더 발전된 디퓨전 기술을 이용하여 고품질, 사실적인 이미지를 생성할 수 있습니다. 기존의 이미지 인 모델과 비교해도 비교적 비슷한 수준의 결과를 보여줍니다. 사용자가 원하는 내용을 서술하면 해당 내용에 맞는 사진을 생성해줍니다. 예를 들어, 주황색 세그먼트가 통과하는 해달의 사진을 요청하면 매우 사실적인 이미지를 생성해줍니다. 복잡한 내용이지만, 경쟁 모델인 DALL·E 3 등과 비교하면 큰 차이는 없습니다. 그렇기에 이 모델 자체에 큰 혁신은 없는 것으로 볼 수 있습니다. 하지만 중요한 것은 발전된 인페인팅과 아웃페인팅 기능을 제공한다는 점입니다. 예를 들어, 이미지 위에 책장을 추가해보면 매우 자연스러운 결과를 얻을 수 있습니다. 이 기능은 이전의 DALL·E 3 세대 버전이나 포토샵의 생성 채우기와 유사합니다. 이는 중요한 변화라고 볼 수 있으며, AI의 3D 모델 시대를 미리 엿볼 수 있습니다.

Google의 음악 생성 모델 소개

Google은 놀라운 음악 생성 모델을 공개하였습니다. 이 모델은 사용자가 원하는 음악 스타일을 서술하면 해당 스타일의 음악을 생성해줍니다. 완전히 무료로 이용할 수 있으며, 웹 브라우저상에서 작동합니다. Sunno AI와 비교하더라도 좋은 수준에 속하며, 경쟁력 있는 결과물을 제공합니다. 사용자가 원하는 내용을 서술하면 해당 내용에 맞는 음악을 생성해줍니다. 예를 들어, 즐거운 분위기의 컨트리 음악이라면 기타와 하모니카, 신나는 리듬으로 음악을 생성해줍니다. 이러한 기능을 완전히 무료로 이용할 수 있다는 것은 매우 좋은 점입니다. 또한, 사용자의 서술을 분석하여 원하는 내용을 수정할 수도 있습니다. 사용자와 인터랙션하는 방식과 UI 디자인도 매우 훌륭하며, 음악 생성 능력 역시 상당히 우수합니다. 가사는 없지만 주제와 악기 등을 이해하고, 음악 생성 시 일관성 있는 결과를 보여줍니다. 잡음이 거의 없으며, 훌륭한 오디오 생성 모델입니다.

텍스트 음성 변환 모델 소개

Microsoft도 자사의 텍스트 음성 변환 모델을 공개하였습니다. 이 모델은 사실적인 음성을 생성할 수 있는 능력이 뛰어나며, 고품질인 것으로 알려져 있습니다. 이 작은 동영상은 예시로서 매우 훌륭한 텍스트 음성 변환 결과를 보여줍니다. 이는 정말로 현실적인 텍스트 음성 변환 모델이며, Microsoft는 11 Labs과 경쟁하고자 하는 것으로 보입니다. 여러 가지 다른 목소리를 선택할 수 있으며, 아주 간단한 설정으로 텍스트를 작성하면 음성이 생성됩니다. 기존의 TTS(Ten-to-Speech) 모델과 비교하였을 때, 상당히 경쟁력 있는 성능을 보여주며, 가능한 한 실제 음성과 유사한 결과를 생성합니다. 이 모델은 실제 사용해보기에 매우 훌륭하며, 향후 개발에서 유망한 모델로 주목됩니다.

Stably AI의 3D 객체 생성 모델 소개

Stably AI는 최근 3D 객체 생성 모델을 소개하였습니다. 이 모델은 단일 이미지에서 3D 객체를 생성할 수 있으며, 이전의 모델보다 향상된 품질을 보여줍니다. 이러한 기능은 현재 비상업적인 연구 목적으로 오픈 소스로 제공되고 있습니다. 3D 객체 생성에는 시간과 메모리가 더 필요하며, 24 GB 이상의 VRAM이 권장됩니다. 따라서 이 모델은 일반 가정용 컴퓨터에서 직접 사용하기에는 적합하지 않습니다. 그러나 그 품질은 매우 높으며, 사실적인 3D 생성을 가능하게 합니다. 이러한 발전된 모델은 3D 모델 시대의 시작을 알리며, 기대할 만한 혁신으로 평가됩니다.

Mixl 8X 7B 모델 소개

Misl AI의 Mixl 8X 7B 모델은 오픈 소스로 제공되며, GPT 3.5 Turbo 모델과 비교해도 비슷한 성능을 보입니다. 이 모델은 1백만 개의 토큰에 대해 50 cent의 가격으로 이용할 수 있으며, 매우 저렴한 가격에 놀랍도록 좋은 성능을 제공합니다. 또한, 이 모델은 JSO n 모드와 함수 호출을 지원하여 개발자들에게 유용한 기능을 제공합니다. 특히, 함수 호출 기능은 아주 완벽하게 작동하며, 이는 기존의 GPT 4조차도 어려움을 겪었던 부분입니다. Microsoft의 발표에 따르면, 오픈 소스로서 제공되는 Mixl 8X 7B 모델은 앞으로 더 많은 기능을 제공하고, 가격은 더욱 경쟁력 있을 것으로 보입니다. 이러한 혁신적인 모델의 개발 속도는 기업들을 따라오기 어렵게 만들 수 있습니다.

F-2 Small 모델 소개

Microsoft이 출시한 F-2 Small 모델은 2.7 billion 파라미터를 가지는 매우 작은 모델입니다. 비교적 작은 크기임에도 불구하고 Llama 2 모델과 성능에서 비교하면 큰 차이가 없습니다. 정말 놀라운 일입니다. Llama 2 모델은 파라미터 수가 70 billion으로 더 많지만, F-2 모델과 매우 유사한 성능을 보입니다. 이러한 작은 규모의 모델과 비교할 때, Microsoft의 혁신을 볼 수 있습니다. 작고 효율적인 모델을 개발하면서도 성능은 크게 향상되었습니다. 이러한 혁신은 가격과 성능 면에서 비슷한 모델보다 우수한 결과를 제공하며, 사용자들에게 좋은 선택지를 제공합니다. 현재 상용화되지 않은 상태이지만, 향후 발전 가능성이 크다는 점을 염두에 두어야 합니다.

Pika 1.0 소개

마지막으로 Pika 1.0에 대해 소개합니다. Pika Labs에서는 곧 Pika 1.0을 출시할 예정입니다. 이 모델은 텍스트 기반 비디오 생성에 최적화되어 있으며, 이제까지 본 AI 비디오 생성 모델 중 가장 좋은 결과를 제공합니다. Pika Labs 1.0은 현재 베타 단계이며, Pika 웹사이트는 점차적으로 더 많은 사용자에게 공개되고 있습니다. 향상된 Mid Journey V6 모델은 곧 출시될 예정이며, 비교적 DALL·E 3보다 향상된 품질을 제공해야 합니다. Mid Journey 웹사이트에는 폴더 및 컬렉션 기능이 추가되어 기능이 더 향상되었습니다. 또한, Mid Journey의 네이티브 iOS 앱이 개발 중이며, Dolly 3 수준의 품질을 제공하려는 노력이 이루어지고 있습니다. Pika Labs는 3D 객체 생성 모델을 개발한 Stably AI와 같이 AI 기술은 빠른 속도로 진화하고 있다는 점을 보여주며, 기대할 만한 혁신과 발전이 계속될 것으로 전망됩니다.