Meta FAIR: Bessere Augen und besseres Verständnis von KI-Modellen

Das FAIR-Team von Meta veröffentlicht mehrere Forschungsergebnisse und Fortschritte aus dem Bereich KI. Man wolle Wissenschaftlern einen einfachen Zugang gewähren, um ein offenes Ökosystem rund um KI zu erschaffen, in dem Fortschritt und Entdeckung im Vordergrund stehen. Konkret geht es um einen Meta Perception Encoder sowie einen Collaborative Reasoner und eine 3D-Objekterkennung. Anzeige Der Perception Encoder ist ein großangelegter Bildverarbeitungs-Encoder. Es handelt sich, so beschreibt es Meta in einem Blogbeitrag, um die "Augen" eines KI-Systems. Mit dem Encoder kann es visuelle Informationen verarbeiten. Der neue Perception Encoder sei besonders gut darin, Bilder und Videos zu klassifizieren. Zudem könne er schwierige Aufgaben erfüllen, dazu gehöre beispielsweise das Erkennen eines Stachelrochens, der sich im Meeresboden vergraben hat. Die Fähigkeiten ließen sich außerdem auf den nachgelagerten Sprachprozess übertragen. Das heißt, nutzt man den Encoder, kann ein KI-System auch besonders gut Fragen zu einem Bild beantworten. Meta hat das Modell, den Code, das Datenset und ein Paper zum Perception Encoder veröffentlicht. Der Collaborative Reasoner basiert auf dem Gedanken, dass Menschen bessere Ergebnisse hervorbringen, wenn sie in der Gemeinschaft an etwas arbeiten. Die Herausforderung sei, dass dabei soziale Fähigkeiten vonnöten seien. Das Framework soll nun dabei helfen, diese kollaborativen Fähigkeiten eines Sprachmodells zu verbessern. Es beinhaltet eine Reihe von Aufgaben, die zwei Agenten erfordern. Weil das aber offensichtlich nicht gut funktioniert, ist vorgesehen, dass ein LLM-Agent mit sich selbst zusammenarbeitet, also beide Rollen übernimmt. Der Code ist bei Github verfügbar. Darüber hinaus hat Meta ein Perception Language Model (PLM) veröffentlicht. Es handelt sich um ein Modell für visuelle Sprache und visuelle Erkennungsaufgaben. Das PLM wurde sowohl mit synthetischen Daten trainiert, also mit solchen, die KI-generiert sind, als auch mit offenen Datensätzen. Metas FAIR-Team hat in der Folge ermittelt, welche Daten für das Bildverständnis fehlten. Diese Lücken wurden mit 2,5 Millionen neuen, von Menschen beschrifteten Videos geschlossen. Wer die Menschen waren, die die Videos betitelt haben, wissen wir nicht. Entstanden ist der größte Datensatz seiner Art, schreibt Meta. Im Paper wird betont, dass keine Model-Distillation genutzt wurde. Diese hätte zur Folge, dass der Datensatz, mit dem das große Lehrermodell trainiert wurde, nicht bekannt wäre. Meta gibt jedoch an, das gesamte Datenpaket frei verfügbar zu machen. Das PLM gibt es in Varianten mit 1, 3 und 8 Milliarden Parametern, es eignet sich damit gut für eine "vollständig transparente akademische Forschung". Mit der Veröffentlichung geht auch ein neuer Benchmark einher, den Meta verfügbar macht: PLM-VideoBench. Anzeige 3D-Objekterkennung für Roboter-Interaktion Meta Locate 3D ist ein Modell, das Objekte identifizieren kann – abgeleitet von Sprache. Als Beispiel schreibt Meta, man könne einen Roboter fragen, ob er einem eine rote Tasse vom Tisch bringe. Der Roboter beziehungsweise das Modell dahinter müssen verstehen, was eine rote Tasse und der Tisch sind – und dann eine Abfolge an Schritten abarbeiten, um die Tasse zu greifen und zu bringen. "Damit KI-Systeme uns in der physischen Welt effektiv unterstützen können, müssen sie über ein 3D-Weltverständnis verfügen, das auf natürlicher Sprache basiert." Um Objekte zu erkennen, erstellt das Modell mithilfe von Sensoren eine Struktur aus Punkten. Das basiert unter anderem auf Meta I-JEPA; ein Modell, das auf abstrakte Weise lernen soll, Objekte zu erkennen. Um das richtige Objekt zu finden, werden dann Kontextinformationen hinzugenommen, etwa "Vase nahe dem Fernseher", damit der Roboter nicht die "Vase aus der Fensterbank" holt. Auch hier veröffentlicht Meta FAIR Paper, Daten und Modell bei Github. Direkt testet Meta die Interaktionen zwischen Mensch und Roboter etwa mit Spot von Boston Dynamics. Im Büro von Meta FAIR läuft ein solcher bereits herum und bringt beispielsweise Kuscheltiere von einem Ort zu einem anderen. Der Roboterhund wird noch über ein Quest-Headset angewiesen. Das dazugehörige Framework nennt sich Partnr. Grundsätzlich arbeitet Meta FAIR sehr wissenschaftsbezogen. Die Arbeiten werden in der Regel quelloffen verfügbar gemacht, wobei sich Umfang und Lizenzen unterscheiden. Ziel von Meta FAIR ist das Erreichen einer Advanced Machine Intelligence (AMI), die den Menschen bei alltäglichen Aufgaben helfen kann. (emw)