Skalierungsgesetze für Datenfilterung: Datenkuration kann nicht Compute-Agnostisch sein
Dieses Papier untersucht die Skalierungsgesetze für die Datenfilterung und argumentiert, dass die Datenkuration nicht compute-agnostisch sein kann. Es untersucht die Qualität-Quantität-Kompromisse (QQ Tradeoff) und stellt neuronale Skalierungsgesetze vor, die die nicht-homogene Natur von Webdaten berücksichtigen. Die wichtigsten Erkenntnisse sind:
- Vision-Language-Modelle (VLMs) werden für Tausende von GPU-Stunden auf sorgfältig kuratierten Webdatensätzen trainiert.
- In den letzten Jahren hat die Datenkuration an Bedeutung gewonnen, wobei mehrere Forschungsarbeiten Strategien zur Aufrechterhaltung von hochqualitativen Teilmengen von "Rohdaten" entwickelten.
- LAION, ein öffentlich zugänglicher Datensatz, behielt nur 10 % der gecrawlten Daten bei, was die Bedeutung der Datenfilterung hervorhebt.
- Das Papier demonstriert, dass Entscheidungen zur Filterung unabhängig vom Rechenaufwand oft suboptimal sind.
- Begrenzte, qualitativ hochwertige Daten verlieren schnell ihren Nutzen, wenn sie wiederholt werden, was sogar die Einbeziehung von ungesehenen, aber minderwertigen Daten erfordert.
Das Papier stellt fest, dass traditionelle Strategien Entscheidungen zur Filterung unabhängig von dem verfügbaren Rechenaufwand für das Training treffen. Diese Strategien werden typischerweise agnostisch in Bezug auf den verfügbaren Rechenaufwand für das Training entwickelt. Das Papier zielt darauf ab, diesen Qualität-Quantität-Kompromiss anzugehen und neuronale Skalierungsgesetze einzuführen, die die nicht-homogene Natur von Webdaten berücksichtigen. Es identifiziert und formuliert auch die unterschiedliche Nützlichkeit verschiedener Teilmengen von Daten, was einen bisher ignorierten Aspekt in der bestehenden Literatur darstellt. Abschließend formuliert das Papier das Problem der Modellperformanceschätzung auf einer Kombination von Datensätzen und erlaubt es, die beste mögliche Menge von Datensätzen für das Training zu kuratieren. Die Nachricht ist, dass die Datenkuration nicht compute-agnostisch sein kann, und ihr Team schlägt Skalierungsgesetze vor, die es uns erlauben, das bestmögliche Pool für das Training von AI-Modellen zu kuratieren.
UMBRAE: Vereinheitlichte multimodale Dekodierung von Gehirnsignalen
Dieses Papier stellt UMBRAE vor, einen vereinheitlichten multimodalen Decoder von Gehirnsignalen, der darauf abzielt, Herausforderungen in der Gehirnforschung zu bewältigen. UMBRAE extrahiert Instanz-Level-konzeptionelle und räumliche Details aus neuronalen Signalen und konstruiert einen universellen Brain-Encoder für die multimodale Brain-Ausrichtung. Die wichtigsten Punkte sind:
- Bestehende Literatur erfasst selten genaue räumliche Informationen und erfordert subjekt-spezifische Modelle.
- UMBRAE zielt darauf ab, genaue räumliche Informationen wiederherzustellen und die Erstellung subjekt-spezifischer Modelle zu vermeiden.
- UMBRAE extrahiert Instanz-Level-konzeptionelle und räumliche Details aus neuronalen Signalen und rekonstruiert Objektbeschreibungen.
- Es führt eine Cross-Subject-Trainingsstrategie ein, die subjekt-spezifische Merkmale einer gemeinsamen Feature-Raum zuordnet.
- UMBRAE übertrifft bestehende Methoden bei neu eingeführten Aufgaben und solchen, die in gut etablierten Aufgaben gut abschneiden.
Das Papier befasst sich mit den Herausforderungen bei der Wiederherstellung genauer räumlicher Informationen und der Notwendigkeit subjekt-spezifischer Modelle in der Gehirnforschung. UMBRAE begegnet diesen Herausforderungen, indem es einen vereinheitlichten multimodalen Decoder von Gehirnsignalen vorschlägt, einen universellen Brain-Encoder konstruiert und eine Cross-Subject-Trainingsstrategie einführt. Die Leistung der Methode wird bei neu eingeführten Aufgaben und solchen demonstriert, bei denen etablierte Aufgaben gut abschneiden.
ChatGPT kann die Zukunft vorhersagen, wenn es in der Zukunft über die Vergangenheit spielende Geschichten erzählt
Dieses Papier untersucht die Fähigkeit von ChatGPT, zukünftige Ereignisse vorherzusagen, indem es Erzählungen verwendet, die in der Zukunft spielen und über Ereignisse berichten, die in der Vergangenheit stattgefunden haben. Die Studie nutzt die Tatsache, dass die Trainingsdaten von ChatGPT im September 2021 endeten, und bittet es, nach Ereignissen zu fragen, die 2022 stattfanden. Zwei verschiedene Prompt-Strategien wurden eingesetzt: direkte Vorhersage und zukünftige Erzählungen. Die Ergebnisse zeigen:
- ChatGPT-3.5 und ChatGPT-4 können zukünftige Ereignisse mit zwei verschiedenen Prompt-Strategien genau vorhersagen.
- ChatGPT wurde aufgefordert, fiktive Geschichten zu erzählen, die in der Zukunft spielen, mit Charakteren, die Ereignisse teilen, die ihnen in der Vergangenheit widerfahren sind.
- Die Studie konzentrierte sich auf Ereignisse, die 2022 stattfanden, nachdem die Trainingsdaten von ChatGPT gesammelt worden waren.
- Zukünftige Narrative-Prompts verbesserten die Vorhersagegenauigkeit von ChatGPT-4 signifikant, insbesondere bei Vorhersagen von großen Preisen der Academy Awards und wirtschaftlichen Trends.
Die Ergebnisse deuten darauf hin, dass Narrative-Prompts die Fähigkeit des Modells zur halluzinatorischen Konstruktion nutzen und eine effektivere Datensynthese und Extrapolation als geradlinige Vorhersagen ermöglichen. Die Forschung enthüllt neue Aspekte der Vorhersagefähigkeiten von LLMs und schlägt potenzielle zukünftige Anwendungen in analytischen Kontexten vor.
JetMoe: Erreichen der Llama2-Performance mit 0,1 Millionen Dollar
Dieses Papier stellt JetMoe-88 vor, ein neues LLM, das mit weniger als 0,1 Millionen Dollar trainiert wurde. JetMoe-88 demonstriert beeindruckende Leistung, die Llama2-7B übertrifft. Die Ergebnisse deuten darauf hin, dass das Training von LLMs kostengünstiger sein kann als allgemein angenommen. Dieser Bericht ist mit Vorsicht zu genießen, da er möglicherweise von einem Laien verfasst wurde, aber er klingt sehr interessant. Die wichtigsten Ergebnisse sind:
- JetMoe-88 ist ein neues LLM, das kostengünstiges Training demonstriert.
- Das Modell übertrifft Llama2-7B, was auf signifikante Fähigkeiten hindeutet.
- Das Papier betont die Bedeutung der Aufmerksamkeit auf das Kostenbudget, während wir nach besseren Modellen streben.
Darüber hinaus werden alle Parameter und Datensatzmischungen, die für dieses Modell verwendet wurden, in diesem Bericht offen veröffentlicht, was diese Ergebnisse für alle mit leicht zugänglichen LLMs potenziell replizierbar macht.
Zu gut, um wahr zu sein: Menschen lehnen kostenlose Geschenke von Robotern ab, weil sie schlechte Absichten vermuten
Diese psychologische Studie untersucht, wie Menschen auf großzügige Angebote von Robotern reagieren. Die Studie findet heraus, dass Menschen oft übermäßig großzügige Angebote von Robotern ablehnen, weil sie versteckte "Phantomkosten" vermuten, die Teil der Transaktion sein könnten. Die Ergebnisse deuten darauf hin:
- Menschen nehmen wahrgenommene Phantomkosten in den Angeboten +2 $, wenn sie mit einem Menschen interagieren, aber auch mit einem Roboter.
- Das charakteristische Verhalten, ein Angebot, das mehr Geld leistet, weniger wahrscheinlich anzunehmen, ist weniger wahrscheinlich, wenn Menschen mit Robotern als mit Menschen interagieren.
- Menschen sind sozial geneigt, Angebote von Menschen eher zu akzeptieren als Angebote von Robotern, unabhängig davon, ob es sich um einen Bildschirm oder einen physisch verkörperten Roboter handelt.
Die Studie deutet darauf hin, dass Menschen Roboter und Menschen als soziale Agenten mit versteckten Absichten und Kenntnissen behandeln, was ihr Verhalten ihnen gegenüber beeinflusst. Sie bietet nicht nur neue Einblicke, wie Menschen mit Robotern interagieren, sondern auch, wie die Roboterverkörperung die Mensch-Roboter-Interaktionsforschung (HRI) beeinflusst und wie man bessere Entscheidungen entwerfen kann, wenn man mit Robotern interagiert.