マイクロソフトのphi-1.5: 新機能と性能
マイクロソフトの新しいオープンソースモデル: phi-1.5
イントロダクション
マイクロソフトからの新しいオープンソースモデルであるphi-1.5が登場しました。このモデルについて、先月のこの連載でphi-1を取り上げたことがありますが、興味深いモデルであるため、再度取り上げることにしました。このモデルは非常に低パラメータで、実際にはテキストブックの品質と呼ばれる優れたデータに基づいてトレーニングされています。それゆえ、インターネットから情報をスクレイピングして1995年のRedditスレッドをすべて取得するのではなく、小規模かつ非常に高品質なデータセットが作成されています。このモデル全体のサイズは、データセットが非常に小さいため、たったの13億のパラメータしかありません。先週まで話題にしていたFalcon 180Bと比較すると、これは非常に小さいモデルです。パラメータの量が少ないことの利点は、ホスティングが非常に安価であることです。
phi-1.5の機能と性能
phi-1と合わせてNLPの合成テキストが追加され、さらにテストが行われたことにより、その機能や性能についてより良い理解が得られました。一般的な感覚、言語理解、論理的推論などのベンチマークテストで評価され、10億パラメータ未満のモデルの中でほぼ最先端の性能を発揮することが示されました。ただし、Falcon 180BやLlama 2 65Bなどの高パラメータモデルとのテストでは比較されていないため、ほぼパラメータ数の違いを考慮すると、公平な比較ではないと言えます。また、このモデルはRLHFチューニングされていないため、チューニングプロセスを経ていないChatGPTのようなモデルから期待されるような役立つ応答は期待できません。
phi-1.5の利用可能性
このモデルは趣味家や研究者向けに作られたモデルであり、ローカルでホスティングすることが可能です。私は実際に自分のコンピュータでテストしてみましたが、出力はやや無機質に感じられます。テキストブックの品質のモデルでトレーニングされているにもかかわらず、非常に役立つ応答を出力するわけではありません。しかし、RLHFチューニングされていないため、チューニングプロセスを経ていないため、このような応答が期待されるわけではありません。まだあまり役立つとは言えないかもしれませんが、テストするのは非常に面白いことです。このモデルは、将来的には趣味家や研究者にとって非常に優れたものになるでしょう。
イントロダクション
Stable Audioは、Stability AIから提供される最新のクローズドソースモデルです。これは音声生成モデルであり、実際には音楽生成モデルです。特にテクスチャー音楽(アンビエント音楽、テクノ音楽など)において、かなり良好な音を生成します。また、ホワイトノイズに関してもかなり良い音を出力します。しかし、いくつかの制限もあります。
Stable Audioの仕組み
Stabilityは安定拡散モデルを採用しています。安定拡散は、Midjourneyの画像生成モデルなどで使用された戦略と同じです。ランダムノイズをテキスト記述されたオブジェクトに変換する非常に優れたクリエイティブな生成モデルです。Stable Audioでは、この安定拡散モデルを音声生成アプリケーションに転用し、800,000曲の音楽トラックを提供するストックオーディオプロバイダーからモデルをトレーニングしました。
Stable Audioの限界
現在のウェブポータルでは、45秒のクリップを作成できるだけです。音楽は特に引き込まれるものではなく、特に楽器やボーカルの明瞭さが欠けています。
結論
Stable Audioは、背景音楽やホワイトノイズとしては十分な品質を持っていますが、クリエイティブな音