开放AI泄露GPT 4.5，Midjourney V6公开，开源LLM压倒开放AI | AI新闻

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN 开放AI泄露GPT 4.5，Midjourney V6公开，开源LLM压倒开放AI | AI新闻

开放AI泄露GPT 4.5，Midjourney V6公开，开源LLM压倒开放AI | AI新闻

AI动态爆炸性发展
OpenAI泄露了GPT 4.5的消息
GPT 4.5带来多模态能力的突破
GPT 4.5价格和功能的详细说明
谷歌推出Gemini Pro API与OpenAI竞争
Google发布了最新的图像到文本生成模型
Google更新了AI音乐生成器
Runway ml推出了文本到语音模型
Stability AI发布了3D物体生成模型
Mistl AI推出了Mixl 8X 7B模型
Microsoft发布了F-2 Small模型
Pika Labs即将发布Pika 1.0版本

AI动态爆炸性发展 🚀

在AI领域，如今的发展速度令人咋舌。最近，人工智能又迎来了一波爆发式的增长。接下来，我们将带您了解一系列重要的AI新闻。

OpenAI泄露了GPT 4.5的消息 😱

最近在Reddit上出现了一则关于OpenAI GPT 4.5的消息。该消息似乎是OpenAI意外泄露的，但也有人认为这是有意为之，目的是为了制造更多的话题和炒作。据称，GPT 4.5是OpenAI迄今为止最先进的模型，具备多模态能力，能够处理语言、音频、视觉和3D等方面的复杂推理和跨模态理解。

GPT 4.5的价格相当昂贵，使用GPT 4.5 chat模型的成本为每1000个token的输入和输出各为6美分和18美分，而使用GPT 4.5 64k窗口模型的成本则更高，每1000个token的输入为12美分，输出为36美分。另外，GPT 4.5还推出了针对音频和语音的模型，每分钟使用价格略高于一美分的输入和略高于两美分的输出。

GPT 4.5带来多模态能力的突破 🌟

最令人兴奋的是，GPT 4.5在多模态能力方面取得了突破。它不仅可以理解语言和文本，还可以处理音频、视觉和3D等多种形式的信息。这意味着它可以同时利用不同的感官来理解整体信息，比如比较声音和3D物体之间的特征，或者分析音频和视频之间的相似之处。这些功能对于AI技术的发展和应用具有重大意义。

GPT 4.5还具备强大的复杂推理能力和跨模态理解能力，使其成为迄今为止最先进的语言模型。虽然这些泄露的信息令人兴奋，但我们也要谨慎对待，因为尚未得到官方证实。

GPT 4.5价格和功能的详细说明 💰

根据泄露的信息，GPT 4.5的价格相当昂贵。使用GPT 4.5 chat模型的成本为每1000个token的输入和输出各为6美分和18美分，而使用GPT 4.5 64k窗口模型的成本则更高，每1000个token的输入为12美分，输出为36美分。对于音频和语音模型，则以每分钟而非每个token计费，输入约为1美分，输出约为2美分。

这些价格非常昂贵，这也使得人们对这些泄露信息的可信度产生一些疑问。然而，与价格相结合的功能和能力使得人们更加相信这些信息的真实性。

尽管这些信息令人振奋，但请记住，目前尚未得到官方证实。我们仍需谨慎对待，等待OpenAI官方的正式公告。

谷歌推出Gemini Pro API与OpenAI竞争 💪

谷歌最近推出了Gemini Pro API，这是他们对OpenAI的一次有力反击。据悉，Gemini Pro API的定价非常具有竞争力，提供每分钟60个API查询的免费版本。这对于90%的开发者来说已经足够，特别是考虑到Gemini Pro与OpenAI的免费版本在质量上相当接近。此外，谷歌还提供按使用量付费的方式，价格极为便宜。

谷歌此举显示出他们希望在市场上赢得更多份额。虽然Gemini Pro可能与OpenAI的产品质量不尽相同，但对许多AI应用程序来说已经足够好了。通过以更低的价格挤压OpenAI，谷歌可能会在市场上取得重要的优势地位。

然而，毋庸置疑的是，最终开源技术将会占据主导地位。开源技术具有最大的灵活性和隐私保护，并且更便宜。当前来看，开源技术的发展速度快于任何公司，同时也要明白，开源技术的发展速度还在不断提高中。

谷歌发布了最新的图像到文本生成模型 🖼️

谷歌最近发布了他们的图像到文本生成模型，他们宣称这是他们迄今为止最先进的扩散技术。这个模型能够产生高质量的逼真图片，而且比原始的Image-In模型具有更强的一致性和可控性。

该模型的输出令人印象深刻，如在一个复杂的场景中生成的柔和的色调油画效果图，以及一个非常逼真的沙滩景色。虽然这些输出是令人印象深刻的，但与DALL-E 3或者Mid Jellyfish相比，并没有太大的突破。然而，该模型具备的高级修复和填充功能非常有趣，能够将缺失的区域补全得很好。

虽然这个模型令人印象深刻，但相对于OpenAI来说，谷歌还有一段距离要赶上。然而，他们正在努力缩小与OpenAI之间的差距，并展示出了潜力。

谷歌更新了AI音乐生成器 🎵

谷歌最近更新了他们的AI音乐生成器。这个音乐生成器是免费使用的，并且可以在任何浏览器上运行。它能够根据您的描述生成音乐，具有很高的质量和自然度。

这款音乐生成器能够理解主题和乐器，并产生很少的音频失真。您可以根据需要指定各种描述，例如欢乐活泼的乡村音乐，包括原声吉他和口琴，并且它们生成的音乐仍然保持快节奏。这个音乐生成器的使用也非常简单，您可以使用它生成的音乐免费，而且界面设计非常友好。

虽然这个音乐生成器没有歌词，但它确实能够理解主题和乐器，音频质量非常高。这个功能颇受人们喜爱，尤其是在AI应用的领域中。

Runway ml推出了文本到语音模型 🔊

Runway ml推出了他们自己的文本到语音模型。11 Labs在文本到语音生成领域一直处于领先地位，提供了高度逼真的声音合成和人声克隆技术，而现在似乎Runway ml也跃跃欲试。

这是一款非常令人兴奋的文本到语音生成器，生成的声音非常高质量和自然。这个功能的音频输出几乎无法与真实声音区别开来。你可以看到Demo中使用了几种不同的声音风格，例如美国英语、年轻女性、男性、英式英语、澳大利亚英语和视频游戏等。此外，Runway ml还提供一些特定的名称，就像其他生成器一样。

这个文本到语音模型具备丰富的高质量声音，而且操作非常简单，只需输入文本即可生成相应的语音。无论是在质量还是在用户界面方面，这都是一款非常出色的模型。

Stability AI发布了3D物体生成模型 🌳

Stability AI发布了稳定性为首的一种质量3D物体生成模型。您只需上传一张图像，它就能生成对应的3D物体。这个模型的表现非常令人印象深刻，非常逼真。

该模型能够根据不同角度的外观对物体进行3D建模，并且其质量明显优于之前的模型。目前，这个模型以开源形式发布，但仅供非商业和研究用途。不过，鉴于Stability AI一贯的开源记录，我想我们未来可能会看到这个模型全面开源并用于商业用途。

这个模型的特点是生成3D物体需要更多的时间和内存，推荐使用24GB VRAM进行生成。虽然它无法在普通家用机器上运行，但其质量令人印象深刻。它的动画效果非常出色，表现出它的强大能力。

Mistl AI推出了Mixl 8X 7B模型 💪

Mistl AI推出了Mixl 8X 7B模型，这是一种非常好的大规模语言模型。有趣的是，这个小小的2.7 billion参数模型在很多方面的性能都可以与规模高达70 billion参数的Llama 2模型相媲美，这是十分惊人的。

这个模型非常小巧，只有2.7 billion参数，但在很多测试中与Llama 2模型相比表现出色。更令人惊喜的是，这个小模型在性能上甚至可以与Mistl 7B相提并论。模型的规模越来越小，运行效率也越来越高，这令人难以置信。

此外，Mistl 8X 7B还添加了JSON模式和函数调用功能，为开发者提供了更多的便利。据报道，这个模型能够完美地进行函数调用，而即使是GPT-4都在这方面遇到了一些困难。Mistl AI正在逐步缩小与OpenAI之间的差距，并展示出了巨大的潜力。

Microsoft发布了F-2 Small模型 📝

Microsoft最近发布了他们的F-2 Small模型，这是一种非常小巧的模型，只有27亿个参数。与之相比，GPT-4拥有超过1000亿个参数。令人惊讶的是，这个微小而精巧的F-2 Small模型在很多方面的性能都可以与拥有700亿参数的Llama 2模型相媲美。

虽然这个微小的F-2 Small模型在某些方面表现出色，但相对于GPT-4和Llama 2来说还有一段距离要赶上。然而，这也展示了Microsoft正在逐步缩小与OpenAI的差距，并展现出潜力。

Pika Labs即将发布Pika 1.0版本 🐹

最后，我们想向大家介绍Pika Labs的即将发布的Pika 1.0版本。实际上，我已经参与了Pika的封闭测试，并非常期待这个版本的发布。Pika Labs是一家致力于开发优质文本到视频生成技术的公司，他们的产品在目前的市场上是最好的。

Pika 1.0版本将带来更出色的文本到视频生成效果，特别是在动漫风格的视频生成方面，取得了显著的进展。我们可以看到一些令人惊讶的结果，几乎无法区分真实与虚拟。与其他AI模型相比，Pika的效果更令人印象深刻。

Pika 1.0还具备出色的视频修复和填充功能，可以在视频中增加、删除或修改物体，并且效果非常逼真。这一切只需简单的操作：选择一个人物面部，添加相应的提示文本，然后让Pika生成视频。简单易用的用户界面也使得操作非常友好。

总之，Pika Labs的产品将在市场上引起轰动。我相信这个技术将对AI视频生成领域产生重大影响。

总结

随着AI技术的不断发展，我们迎来了一系列令人振奋的消息。从OpenAI的GPT 4.5到谷歌的Gemini Pro API，再到Mistl AI的Mixl 8X 7B，每个新的技术突破都为AI产业带来了更多可能性。同时，Pika Labs的即将发布的Pika 1.0版本也将为文本到视频生成技术注入新的活力。

我们期待看到这些创新技术如何改变我们的生活，并推动AI技术的进一步发展。相信不久的将来，我们将看到更多令人激动的突破和进展。