Arthur veröffentlicht ein Open-Source-Tool, das Unternehmen dabei hilft, den besten LLM für einen Job zu finden

Arthur, ein Startup zur Überwachung maschinellen Lernens, hat dieses Jahr vom Interesse an generativer KI profitiert und Tools entwickelt, die Unternehmen dabei helfen sollen, effektiver mit LLMs zu arbeiten. Heute veröffentlicht das Unternehmen Arthur Bench, ein Open-Source-Tool, das Benutzern dabei hilft, das beste LLM für einen bestimmten Datensatz zu finden.

Adam Wenchel, CEO und Mitbegründer von Arthur, sagt, das Unternehmen habe großes Interesse an generativer KI und LLMs gesehen und daher viel Mühe in die Entwicklung von Produkten gesteckt.

Er sagt, dass Unternehmen heute, und zugegebenermaßen ist es weniger als ein Jahr seit der Veröffentlichung von ChatGPT, keine organisierte Möglichkeit haben, die Wirksamkeit eines Tools im Vergleich zu einem anderen zu messen, und deshalb haben sie Arthur Bench entwickelt.

„Arthur Bench löst eines der kritischen Probleme, die wir bei jedem Kunden hören, nämlich, welches Modell für Ihre spezielle Anwendung am besten geeignet ist“, sagte Wenchel gegenüber TechCrunch.

Es verfügt über eine Reihe von Tools, mit denen Sie die Leistung methodisch testen können. Der eigentliche Wert besteht jedoch darin, dass Sie damit testen und messen können, wie die Arten von Eingabeaufforderungen, die Ihre Benutzer für Ihre bestimmte Anwendung verwenden würden, im Vergleich zu verschiedenen LLMs funktionieren.

Bildnachweis:Arthur

„Sie könnten möglicherweise 100 verschiedene Eingabeaufforderungen testen und dann sehen, wie zwei verschiedene LLMs – wie Anthropic im Vergleich zu OpenAI – auf die Art von Eingabeaufforderungen reagieren, die Ihre Benutzer wahrscheinlich verwenden werden“, sagte Wenchel. Darüber hinaus sagt er, dass Sie dies in großem Maßstab tun und eine bessere Entscheidung darüber treffen können, welches Modell für Ihren speziellen Anwendungsfall am besten geeignet ist.

Arthur Bench wird heute als Open-Source-Tool veröffentlicht. Es wird auch eine SaaS-Version für Kunden geben, die sich nicht mit der komplexen Verwaltung der Open-Source-Version auseinandersetzen möchten oder größere Testanforderungen haben und bereit sind, dafür zu zahlen. Aber vorerst konzentriere man sich laut Wenchel auf das Open-Source-Projekt.

Das neue Tool folgt auf die Veröffentlichung von Arthur Shield im Mai, einer Art LLM-Firewall, die Halluzinationen in Modellen erkennen und gleichzeitig vor toxischen Informationen und privaten Datenlecks schützen soll.

Bildnachweis: