Die Testumgebung: Krea.ai
Um einen fairen und unvoreingenommenen Vergleich zu gewährleisten, haben wir uns an Krea.ai gewandt. Die Plattform bietet eine ideale Umgebung für Seiten-an-Seiten-Vergleiche. Darüber hinaus bietet Krea.ai eine ständig wachsende Liste von KI-Videomodellen.
Wir können zwei Open-Source-Modelle, Hunyuan und WAN 2.1, nebeneinander vergleichen, was durch die benutzerfreundliche Oberfläche von Krea.ai weiter vereinfacht wird. Mit der Plattform können Benutzer auch mit Ton experimentieren, wodurch der kreative Prozess weiter verbessert wird. Für die Zwecke dieses Artikels konzentrierten wir uns darauf, die Text-zu-Video-Funktionen beider Modelle zu bewerten. Die Möglichkeiten von Krea AI erleichtern es Content-Erstellern, schnell mit künstlicher Intelligenz zu arbeiten.
Ersteinrichtung und grundlegende Verwendung
Um mit der Verwendung von Krea.ai zu beginnen, navigieren Sie zum Abschnitt für die KI-Videogenerierung auf der Plattform.
Hier können Sie Ihre gewünschte Szene in das Textfeld eingeben, die Auflösung (z. B. 720p) und das Seitenverhältnis (z. B. Querformat) auswählen und auf Generieren klicken. Die Plattform reiht Ihre Anfrage dann in die Warteschlange ein. Mit einem kostenpflichtigen Plan können Sie mit der Generierung mit einem anderen Modell fortfahren, während Sie auf das Ende der ersten Generierung warten.
Es ist wichtig zu beachten, dass Krea.ai eine Funktion zum automatischen Hinzufügen von Ton zu Ihren generierten Videos bietet , die auf verschiedenen KI-Algorithmen basiert, um den Ton an den visuellen Inhalt anzupassen. Diese Funktion kann verwendet werden, um Ihren Videos direkt über die Plattform eine zusätzliche Ebene an Atmosphäre und Wirkung zu verleihen.
Konfrontation mit den Modellen: Hunderttausende generierter Videos analysiert
Um die Qualität der Hunyuan- und WAN 2.1-Modelle fair zu bewerten, haben wir die Modelle mit identischen Textprompts getestet und uns nur auf die erste Generation konzentriert, um jegliche Voreingenommenheit oder "Cherry-Picking" zu vermeiden. Dieser Ansatz ermöglichte es uns, die Out-of-the-Box-Leistung jedes Modells ohne Manipulation zu beurteilen.
Nachfolgend einige unserer Seiten-an-Seiten-Ergebnisse:
Das Spaghetti-Dinner von Bigfoot
Wir begannen mit einem skurrilen Prompt: "Eine Katze springt auf einen Tisch in einem italienischen Restaurant, wo Bigfoot Spaghetti isst." Das Hunyuan-Modell schaffte es, ein Video mit einer Katze zu erstellen, die auf einen Tisch in einem italienischen Restaurant springt, jedoch ohne Bigfoot, der leider fehlte. Das WAN 2.1-Modell lieferte jedoch ein Video von Bigfoot, der Spaghetti isst.
Das WAN 2.1-Modell hielt den Prompt scheinbar besser ein. Dieses anfängliche Ergebnis deutet darauf hin, dass WAN 2.1 in Bezug auf die Prompt-Einhaltung überlegen sein kann.
Skeleton Dance Party
Wir testeten als nächstes einen weniger komplizierten Prompt mit "Skelett tanzt, trägt eine Blume und Sonnenbrille, tanzt in der Wildnis bei Sonnenuntergang." In diesem Szenario produzierten sowohl Hunyuan als auch WAN 2.1 überzeugende Ergebnisse, die skelettartige Figuren zeigten, die in der Natur tanzten.
Einige Beobachtungen haben jedoch ergeben, dass das WAN-Modell mit seinen hochauflösenden Bildern den überzeugenderen Clip erstellte.
Prompte für Prominente: Oprah und die bissige Katze
Wir stellten die Modelle mit einem schwierigeren Prompt auf die Probe: "Oprah Winfrey streichelt eine Katze, die ihr immer wieder ins Gesicht beisst." Weder Hunyuan noch WAN 2.1 erkannten Oprah Winfrey als die Person, die im Bild zu sehen war. Das WAN 2.1-Modell kam dem Konzept des Beissens jedoch etwas näher als das Hunyuan-Modell, welches die Katze friedlich mit Oprah posieren ließ. Für das Szenario hat mir das WAN 2.1-Modell etwas besser gefallen.
Das Geheimnis des gelben Anzugs
Der Autor bat KI darum, Videos für “Einen Kaukasier in seinen Mittdreißigern, der eine rechteckige Brille und einen auffälligen senfgelben Dreiteiler trägt, kombiniert mit einem hellblauen Hemd und einer gemusterten marineblauen Krawatte. Er zeigt einen übertriebenen Gesichtsausdruck mit hochgezogenen Augenbrauen und leicht geöffneten Lippen, während er mit den Händen in den Hosentaschen dasteht. ”Das Wan-Modell hat ein tolles Ergebnis geliefert, während Hunyuan sich weigerte, die Hände in den Taschen zu zeigen. Dies zeigt, wie WAN 2.1 Prompts besser befolgt.
Der tobende Bär
Wir baten die KI darum, Videos von "Old VHS footage of a religious TV show where an elderly man with thinning hair and thick glasses playing ukulele standing next to an anthropomorphic bear..." zu erstellen.
Hier lieferte Wan erneut ein besseres Ergebnis als Hunyuan. Die Bilder sind besser auf die gegebene Beschreibung abgestimmt.