Nagraj video dla swojego AI! - Nowe sposoby pracy ze sztuczną inteligencją i dziedziny promptów JUŻ TU SĄ.🎥 Jak już wspominałem, Gemini 2.0 charakteryzuje się zaawansowaną multimodalnością, która nie tylko obsługuje różne formaty plików jak obrazy, dźwięki i video, ale przede wszystkim faktycznie wykorzystuje z nich głębszy kontekst przy tokenizacji, rozwijając wymiary wektorów. Postanowiłem wykorzystać ten fakt i zrobić serię eksperymentów, gdzie jako jedyną (poza określeniem języka w czacie) instrukcję podawałem plik video, który jednocześnie zawierał instrukcje, kontekst i potrzebne dane do wykonania zadania. Co więcej, starałem się w tych video: 🔍 Podawać bezpośrednio w wypowiedzi minimum informacji, by sprawdzić skuteczność hybrydowego podawania kontekstu, tj. często w wypowiedzi głosowej na filmie referowałem do czegoś na ekranie, bezpośrednio tego nie nazywając i nie powtarzając zawartych informacji głosowo. 🔍 Starałem się dać sztucznej inteligencji zadania, które miały duży rozstrzał co do kontekstu by zbadać jej zarządzanie uwagą. 🔍 W video celowo staram się mówić naturalnie i nieco nieskładanie, by zbadać "próg wejścia" w korzystaniu z takiej technologii. Obserwacje: 🧠 Model bez problemu łączy kontekst między plikami czy między wymiarami kontekstu, więc możecie swobodnie opowiadać o czymś i pokazywać obraz, nie martwiąc się o to jak to się "sklei". 🧠 Minuta wideo to między 12k a nawet 26k tokenów, więc po pierwsze widać że token w żadnym razie nie zależy od ilości sekund/klatek materiału, po drugie należy z tego powodu brać poprawkę na mniej przewidywalny rozmiar kontekstu. No i oznacza to też, że na raz wielogodzinnych materiałów nie przeanalizujemy. 🧠 Model radzi sobie zarówno z hollistycznym zrozumieniem materiałów, jak również wyciąganiem konkretnych informacji. Ciężko mówić tu o badaniu igły w stogu siana gdy używamy "ledwie" 20k tokenów, ale pod kątem oceny wyciągania konkretnych danych z takiego bądź co bądź chaotycznego video, model też radzi sobie nieźle (np. dopytanie "kto stoi za Instytutem 42?"). 🧠 Pod kątem UX taka komunikacja jest genialna! Moim zdaniem używanie video do instrukcji bardzo demokratyzuje korzystanie ze sztucznej inteligencji, pozwalając nam naturalnie się komunikować: po prostu tłumaczysz modelowi czego od niego chcesz i możesz mu to pokazać. Przykładowy run możecie zobaczyć sami na video. Ja na pewno zamierzam badać temat głębiej i upatruję tutaj całej nowej działki eksplorowania multimodalnego prompt engineeringu. Mam nadzieję że dzięki temu będę mógł niedługo z Michal Stanislawek i Rafał Garbacz wdrożyć niejedną innowację w kontekście user experience narzędzi opartych na AI. Z kolei takie osoby jak Kamil Kozieł czy Szymon Negacz: Gorąco Was zachęcam, byście dla dobra ludzkości przetestowali swoje występy przed sztuczną inteligencją, bo w dobie nowych sposobów inputu, może okazać się że to właśnie zdolność komunikacji i storytellingu w występach będzie najmocniejszą formą promptów.
(ξ/e) AI freak | process freak | Managing Director of Global Business Services Europe
2 dniDokładnie o tym myślałem ostatnio - czy to nada się do tworzenia SOPow (Standard Operating Procedure) z nagranego wideo. Tak jak piszesz to dużo bardziej naturalny sposób podawania instrukcji. Tylko jedna rzecz nie daje mi spokoju - czy my aby na pewno potrzebujemy jeszcze tworzyć SOPy…🤔