探索 LAION-5B!
目錄
- 😺 介紹 Lion 5B
- 🌍 數據集構建
- 2.1 獲取數據
- 2.2 數據篩選
- 2.3 數據處理
- 🚀 數據集特點
- 🎥 網頁展示
- 💻 技術細節
- 5.1 數據處理流程
- 5.2 模型訓練
- 5.3 結果分析
- 📊 數據集下載
- 📚 相關資源
- 7.1 Discord 社區
- 7.2 學術合作
- 7.3 技術支持
😺 介紹 Lion 5B
1.1 概述
Lion 5B 是一個開放的大規模數據集,旨在培養下一代圖像文本模型的訓練。數據集的建立是由 Discord 社區中的機器學習愛好者共同完成的。
1.2 背景
訓練大型多模態模型(如 Clip、Dali、Image Gen Basic)所需的大型數據集非常重要,但遺憾的是,這些數據集通常不公開可用。
1.3 目的
Lion 5B 的目標是賦能研究人員和機器學習從業者,以訓練未來的大型多模態模型,並輕鬆創建特定領域的數據集。
🌍 數據集構建
2.1 獲取數據
數據集的基礎來自於 Common Crawl,通過使用開源模型進行過濾,如 B32 和 M-Clip,將非英文文本轉換為共享 Clip 嵌入空間。
2.2 數據篩選
通過餘弦相似度將圖像 Clip 嵌入和文本 Clip 嵌入進行比較,並設置閾值進行數據篩選。
2.3 數據處理
對篩選後的數據進行處理,包括標記工作、訓練模型等。
🚀 數據集特點
3.1 對比
Lion 5B 與先前可用的數據集相比,具有明顯的大小優勢,達到了與大公司內部數據集相當的規模。
3.2 大小比較
Lion 5B 的數據集大小可與 OpenAI、Google 和 Microsoft 內部的數據集相媲美。
3.3 應用示例
Lion 5B 的 Web Demo(knnn5.lion.ai)類似於 Google 圖片搜索,並可方便地獲取相關搜索結果。
🎥 網頁展示
4.1 Demo 鏈接
Lion 5B 的 Web Demo 鏈接為 knnn5.lion.ai,提供與 Google 圖片搜索類似的功能。
4.2 使用介紹
通過在頁面右上角點擊箭頭,用戶可以輕鬆獲取與搜索字符串相關的前 10,000 個搜索結果。
💻 技術細節
5.1 數據處理流程
數據處理包括獲取、篩選、處理和儲存,並通過 GPU 节點進行 Clip 嵌入和相似度計算。
5.2 模型訓練
通過訪問超算資源,訓練多個 Clip 模型,並進行結果分析和性能評估。
5.3 結果分析
通過總計算量和零-shot能力的對比,評估模型的性能和擴展性。
📊 數據集下載
6.1 下載工具
用戶可通過圖像到數據集工具下載數據集,方便快捷。
6.2 下載方式
下載方式簡單易用,用戶只需通過指定的工具進行操作即可完成下載。
📚 相關資源
7.1 Discord 社區
Lion 5B 提供 Discord 社區支援,用戶可在其中獲取技術支持和交流學術