Historia 2022 roku polegała na pojawieniu się sztucznej inteligencji, najpierw z modelami generowania obrazów, w tym DALL-E, MidJourney i open source Stable Diffusion, a następnie ChatGPT, pierwszy model generowania tekstu , który przebił się w znaczący sposób . Wydaje mi się jasne, że jest to nowa epoka w technologii.

Aby jednak określić, jak ta epoka mogłaby się rozwinąć, warto spojrzeć 26 lat wstecz do jednej z najsłynniejszych książek strategicznych wszechczasów: The Innovator's Dilemma Claytona Christensena, a zwłaszcza do tego fragmentu o różnych rodzajach innowacji:

Większość nowych technologii sprzyja poprawie wydajności produktu. Nazywam to technologiami podtrzymującymi. Niektóre technologie podtrzymujące mogą mieć charakter nieciągły lub radykalny, podczas gdy inne mają charakter przyrostowy. Wspólną cechą wszystkich technologii podtrzymujących jest to, że poprawiają one wydajność uznanych produktów, w wymiarach wydajności, które klienci głównego nurtu na głównych rynkach historycznie cenili. Większość postępów technologicznych w danej branży ma charakter trwały…

Przełomowe technologie wprowadzają na rynek zupełnie inną propozycję wartości niż ta, która była dostępna wcześniej. Ogólnie rzecz biorąc, przełomowe technologie osiągają gorsze wyniki niż produkty o ugruntowanej pozycji na głównych rynkach. Mają jednak inne cechy, które ceni kilku marginalnych (i generalnie nowych) klientów. Produkty oparte na przełomowych technologiach są zazwyczaj tańsze, prostsze, mniejsze i często wygodniejsze w użyciu.

Wydaje się, że łatwo jest spojrzeć wstecz i określić, czy innowacja była trwała, czy destrukcyjna, patrząc na to, jak istniejące firmy radziły sobie po wejściu tej innowacji na rynek: jeśli innowacja była trwała, to obecne firmy stały się silniejsze; jeśli było to destrukcyjne, prawdopodobnie startupy przejęły większość wartości.

Rozważ poprzednie epoki technologiczne:

  • Komputer osobisty był uciążliwy dla prawie wszystkich obecnych operatorów; te stosunkowo niedrogie i energooszczędne urządzenia nie miały możliwości ani marży zysku minikomputerów, a tym bardziej komputerów typu mainframe. Dlatego IBM z radością zlecił na zewnątrz zarówno chip, jak i system operacyjny oryginalnego peceta, odpowiednio Intelowi i Microsoftowi, aby mogli wypuścić produkt na zewnątrz i zadowolić swoich klientów korporacyjnych; Komputery PC stały się jednak szybsze i to Intel i Microsoft dominowały, ponieważ rynek przyćmił wszystko, co było wcześniej.
  • Internet był prawie całkowicie nową innowacją rynkową, a zatem został zdefiniowany przez zupełnie nowe firmy, które w takim stopniu, w jakim zakłóciły działalność obecnych, zrobiły to w branżach odległych od technologii, zwłaszcza tych związanych z informacją (tj. mediami). To była era Google'a, Facebooka, rynków internetowych, handlu elektronicznego itp. Wszystkie te aplikacje działały na komputerach PC z systemem Windows i Intelem.
  • Przetwarzanie w chmurze jest prawdopodobnie częścią Internetu, ale myślę, że zasługuje na swoją własną kategorię. Było to również niezwykle destrukcyjne: standardowa architektura x86 wyparła dedykowany sprzęt serwerowy, a całe mnóstwo start-upów SaaS pobierało funkcje od operatorów zasiedziałych, aby budować firmy. Warto zauważyć, że podstawowa infrastruktura dla przetwarzania w chmurze została zbudowana przede wszystkim przez zwycięzców poprzednich epok: Amazon, Microsoft i Google. Microsoft jest szczególnie godny uwagi, ponieważ firma przeniosła również swoją tradycyjną działalność związaną z oprogramowaniem na usługę SaaS, po części dlatego, że firma już przeniosła wspomnianą działalność związaną z oprogramowaniem na model subskrypcji.
  • Mobile został ostatecznie zdominowany przez dwóch zasiedziałych graczy: Apple i Google. Nie oznacza to jednak, że nie było to destrukcyjne: nowy paradygmat interfejsu użytkownika Apple polegał na tym, że nie postrzegał telefonu jako małego komputera, a la Microsoft; Nowy paradygmat modelu biznesowego Google polegał na postrzeganiu telefonów nie jako centrum bezpośredniego zysku ze sprzedaży systemów operacyjnych, ale raczej jako fosy dla ich działalności reklamowej .

Godne uwagi w tej historii jest to, że przypuszczenie, które przedstawiłem powyżej, nie jest całkiem słuszne; przełomowe innowacje konsekwentnie pochodzą od nowych podmiotów wchodzących na rynek, ale ci nowi uczestnicy niekoniecznie muszą być start-upami: niektórymi z największych zwycięzców w poprzednich epokach technologicznych były istniejące firmy wykorzystujące swoją obecną działalność, aby przenieść się w nową przestrzeń. Jednocześnie utrzymują się inne założenia teorii Christensena: Microsoft miał problemy z urządzeniami mobilnymi, ponieważ był przełomowy, ale SaaS ostatecznie przetrwał, ponieważ jego model biznesowy był już dostosowany.


Biorąc pod uwagę sukces istniejących firm w nowych epokach, najbardziej oczywistym punktem wyjścia do myślenia o wpływie sztucznej inteligencji jest wielka piątka: Apple, Amazon, Facebook, Google i Microsoft.

Jabłko

Odniosłem się już do jednej z najsłynniejszych książek o strategii technologicznej; jednym z najsłynniejszych esejów był „List strategiczny V” Joela Spolsky'ego, szczególnie ten słynny wers:

Inteligentne firmy próbują utowarowić uzupełnienia swoich produktów.

Spolsky napisał ten wiersz w kontekście wyjaśnienia, dlaczego duże firmy inwestują w oprogramowanie typu open source:

Debugowany kod NIE jest darmowy, niezależnie od tego, czy jest zastrzeżony, czy open source. Nawet jeśli nie płacisz za to gotówką, wiąże się to z kosztem alternatywnym i kosztem czasu. Dostępna jest skończona liczba talentów programistycznych wolontariuszy do prac open source, a każdy projekt open source konkuruje ze sobą o ten sam ograniczony zasób programistyczny, a tylko najseksowniejsze projekty mają naprawdę więcej programistów-wolontariuszy, niż mogą z nich skorzystać. Podsumowując, nie jestem pod wrażeniem ludzi, którzy próbują udowodnić szalone ekonomiczne rzeczy na temat darmowego oprogramowania, ponieważ jeśli o mnie chodzi, dostają po prostu błędy dzielenia przez zero.

Open source nie jest wolne od praw grawitacji czy ekonomii. Widzieliśmy to z Eazel, ArsDigita, The Company Formerly Known jako VA Linux i wieloma innymi próbami. Ale wciąż dzieje się coś, co naprawdę niewielu ludzi w świecie open source rozumie: wiele bardzo dużych spółek publicznych, których obowiązkiem jest maksymalizacja wartości dla akcjonariuszy, inwestuje dużo pieniędzy we wspieranie oprogramowania open source, zwykle płacąc dużym zespołom programistów do pracy nad nim. I to właśnie wyjaśnia zasada dopełnień.

Jeszcze raz: popyt na produkt rośnie, gdy spada cena jego uzupełnień. Ogólnie rzecz biorąc, strategicznym interesem firmy będzie uzyskanie jak najniższej ceny uzupełnień. Najniższą teoretycznie zrównoważoną ceną byłaby „cena towaru” — cena, która powstaje, gdy masz grupę konkurentów oferujących nierozróżnialne towary. Tak więc inteligentne firmy próbują utowarowić uzupełnienia swoich produktów. Jeśli możesz to zrobić, popyt na twój produkt wzrośnie i będziesz mógł pobierać więcej i więcej zarabiać.

Apple inwestuje w technologie open source, w szczególności jądro Darwin dla swoich systemów operacyjnych i silnik przeglądarki WebKit; ta ostatnia pasuje do recepty Spolsky'ego, ponieważ zapewnienie, że sieć działa dobrze z urządzeniami Apple, czyni urządzenia Apple bardziej wartościowymi.

Tymczasem wysiłki Apple w zakresie sztucznej inteligencji były w dużej mierze zastrzeżone: tradycyjne modele uczenia maszynowego są wykorzystywane do takich rzeczy, jak rekomendacje oraz identyfikacja zdjęć i rozpoznawanie głosu, ale nic, co w znaczący sposób porusza igłę w biznesie Apple. Apple otrzymał jednak niesamowity prezent od świata open source: stabilną dyfuzję.

Stable Diffusion jest niezwykłe nie tylko dlatego, że jest open source, ale także dlatego, że model jest zaskakująco mały: kiedy został wydany, mógł już działać na niektórych konsumenckich kartach graficznych; w ciągu kilku tygodni został zoptymalizowany do tego stopnia, że mógł działać na iPhonie .

Apple, co jest jego ogromną zasługą, skorzystało z tej okazji, ogłaszając w zeszłym miesiącu swoją grupę uczenia maszynowego:

Dziś z radością publikujemy optymalizacje Core ML dla Stable Diffusion w systemach macOS 13.1 i iOS 16.2, wraz z kodem umożliwiającym rozpoczęcie wdrażania na urządzeniach Apple Silicon…

Jednym z kluczowych pytań dotyczących stabilnej dyfuzji w dowolnej aplikacji jest to, gdzie działa model. Istnieje wiele powodów, dla których wdrożenie stabilnej dystrybucji na urządzeniu w aplikacji jest lepsze niż podejście oparte na serwerze. Po pierwsze, chroniona jest prywatność użytkownika końcowego, ponieważ wszelkie dane, które użytkownik podał jako dane wejściowe do modelu, pozostają na urządzeniu użytkownika. Po drugie, po pierwszym pobraniu użytkownicy nie potrzebują połączenia z Internetem, aby korzystać z modelu. Wreszcie, lokalne wdrożenie tego modelu umożliwia programistom zmniejszenie lub wyeliminowanie kosztów związanych z serwerem…

Optymalizacja Core ML pod kątem stabilnej dystrybucji i uproszczenie konwersji modeli ułatwia programistom włączenie tej technologii do ich aplikacji w sposób chroniący prywatność i ekonomicznie wykonalny, przy jednoczesnym uzyskaniu najlepszej wydajności na Apple Silicon. Ta wersja zawiera pakiet Pythona do konwersji modeli Stable Diffusion z PyTorch do Core ML przy użyciu dyfuzorów i coremltools, a także pakiet Swift do wdrażania modeli.

Należy zauważyć, że to ogłoszenie składało się z dwóch części: po pierwsze, Apple zoptymalizowało sam model stabilnej dystrybucji (co mogło zrobić, ponieważ było oprogramowaniem typu open source); po drugie, Apple zaktualizował swój system operacyjny, który dzięki zintegrowanemu modelowi Apple jest już dostosowany do własnych chipów Apple.

Co więcej, można bezpiecznie założyć, że to dopiero początek: podczas gdy Apple od lat dostarcza tak zwany „silnik neuronowy” na własnych układach scalonych, ten sprzęt AI jest dostosowany do własnych potrzeb Apple; wydaje się prawdopodobne, że przyszłe układy Apple, jeśli nie w tym roku, to prawdopodobnie w przyszłym roku, również zostaną dostrojone do stabilnej dyfuzji. Tymczasem sama stabilna dyfuzja może być wbudowana w systemy operacyjne Apple, z łatwo dostępnymi interfejsami API dla każdego twórcy aplikacji.

Rodzi to perspektywę „wystarczająco dobrych” możliwości generowania obrazu, które są skutecznie wbudowane w urządzenia Apple, a tym samym dostępne dla każdego programisty bez potrzeby skalowania infrastruktury zaplecza, takiej jakiej potrzebuje wirusowy hit Lensa. A co za tym idzie, zwycięzcy na tym świecie wyglądają bardzo podobnie do zwycięzców z ery App Store: Apple wygrywa, ponieważ jego integracja i przewaga chipów są wykorzystywane do dostarczania zróżnicowanych aplikacji, podczas gdy mali niezależni twórcy aplikacji mają interfejsy API i kanał dystrybucji do budowania nowych biznesów.

Z drugiej strony przegranymi byłyby scentralizowane usługi generowania obrazu, takie jak Dall-E lub MidJourney, oraz dostawcy usług w chmurze, którzy je wspierają (i jak dotąd wspierają wspomniane aplikacje Stable Diffusion, takie jak Lensa). Stable Diffusion na urządzeniach Apple z pewnością nie przejmie całego rynku — Dall-E i MidJourney są „lepsze” niż Stable Diffusion, przynajmniej w mojej ocenie, a poza urządzeniami Apple jest oczywiście duży świat , ale wbudowane funkcje lokalne będą miały wpływ na docelowy adresowalny rynek zarówno usług scentralizowanych, jak i scentralizowanych obliczeń.

Amazonka

Amazon, podobnie jak Apple, wykorzystuje uczenie maszynowe w swoich aplikacjach; bezpośrednie przypadki użycia przez konsumentów do generowania obrazów i tekstu wydają się jednak mniej oczywiste. Ważny jest już AWS, który sprzedaje dostęp do GPU w chmurze.

Część z nich jest wykorzystywana do szkoleń, w tym Stable Diffusion, którewedług założyciela i dyrektora generalnego Stability AI, Emada Mostaque, wykorzystywało 256 Nvidii A100 przez 150 000 godzin za cenę rynkową 600 000 USD (co jest zaskakująco niską!). Większym przypadkiem użycia jest jednak wnioskowanie, tj. faktyczne zastosowanie modelu do tworzenia obrazów (lub tekstu w przypadku ChatGPT). Za każdym razem, gdy generujesz obraz w MidJourney lub awatar w Lensa, wnioskowanie jest uruchamiane na GPU w chmurze.

Perspektywy Amazona w tej dziedzinie będą zależeć od wielu czynników. Pierwszym i najbardziej oczywistym jest to, jak przydatne są te produkty w prawdziwym świecie. Poza tym postęp Apple w budowaniu lokalnych technik generowania może mieć znaczący wpływ. Amazon jest jednak samodzielnym producentem chipów: podczas gdy większość jego dotychczasowych wysiłków koncentrowała się na procesorach Graviton, firma mogła zbudować własny dedykowany sprzęt dla modeli takich jak Stable Diffusion i konkurować ceną. Mimo to AWS zabezpiecza swoje zakłady: usługa w chmurze jest również głównym partnerem, jeśli chodzi o oferty Nvidii.

Głównym krótkoterminowym pytaniem dla Amazona będzie ocena popytu: brak wystarczającej liczby procesorów graficznych spowoduje pozostawienie pieniędzy na stole; kupowanie zbyt wielu, które stoją bezczynnie, byłoby jednak poważnym kosztem dla firmy próbującej je ograniczyć. Jednocześnie nie byłby to najgorszy błąd: jednym z wyzwań związanych ze sztuczną inteligencją jest fakt, że wnioskowanie kosztuje; innymi słowy, zrobienie czegoś za pomocą sztucznej inteligencji wiąże się z kosztami krańcowymi.

Podejrzewam, że ta kwestia kosztów krańcowych jest niedocenianym wyzwaniem w zakresie opracowywania atrakcyjnych produktów AI. Chociaż usługi w chmurze zawsze wiązały się z kosztami, dyskretny charakter generowania sztucznej inteligencji może utrudniać sfinansowanie iteracji niezbędnych do osiągnięcia dopasowania produktu do rynku; Nie sądzę, że to przypadek, że ChatGPT, największy jak dotąd przełomowy produkt, był zarówno bezpłatny dla użytkowników końcowych, jak i dostarczany przez firmę OpenAI, która zarówno zbudowała własny model, jak i ma ukochaną umowę z Microsoftem na moc obliczeniową. Gdyby AWS musiał sprzedawać procesory graficzne za niską cenę, mogłoby to zachęcić do większego wykorzystania w dłuższej perspektywie.

Należy zauważyć, że koszty te powinny z czasem spadać: modele staną się bardziej wydajne, nawet jeśli chipy same w sobie staną się szybsze i wydajniejsze, a usługi w chmurze powinny powrócić do skali, gdy na rynku pojawi się wystarczająca liczba produktów maksymalizujących wykorzystanie ich inwestycje. Nadal pozostaje otwarte pytanie, jak bardzo integracja pełnego stosu zrobi różnicę, oprócz wspomnianej możliwości lokalnego uruchamiania wnioskowania.

Meta

Wyjaśniłem już w Meta Myths , dlaczego uważam, że sztuczna inteligencja jest ogromną szansą dla Meta i jest warta ogromnych nakładów kapitałowych, jakie ponosi firma:

Meta ma ogromne centra danych, ale te centra danych dotyczą przede wszystkim mocy obliczeniowej procesora, co jest potrzebne do zasilania usług Meta. Moc obliczeniowa procesora była również niezbędna do napędzania deterministycznego modelu reklam Meta i algorytmów używanych do polecania treści z Twojej sieci.

Jednak długoterminowym rozwiązaniem ATT jest budowanie modeli probabilistycznych, które nie tylko określają, kto powinien być celem (do czego Meta już używała uczenia maszynowego), ale także rozumieją, które reklamy dokonywały konwersji, a które nie. T. Te probabilistyczne modele będą budowane przez ogromne floty procesorów graficznych, które w przypadku kart Nvidii A100 kosztują pięć cyfr; to mogło być zbyt drogie w świecie, w którym reklamy deterministyczne i tak działały lepiej, ale Meta już nie istnieje w tym świecie i głupotą byłoby nie inwestować w lepsze targetowanie i pomiary.

Co więcej, to samo podejście będzie miało zasadnicze znaczenie dla dalszego rozwoju Reels: znacznie trudniej jest polecać treści z całej sieci niż tylko od znajomych i rodziny, zwłaszcza że Meta planuje polecać nie tylko wideo, ale także wszelkiego rodzaju media i przeplataj je treściami, na których Ci zależy. Tu też kluczem będą modele AI, a sprzęt do ich budowy kosztuje dużo pieniędzy.

W dłuższej perspektywie jednak ta inwestycja powinna się zwrócić. Po pierwsze, lepsze kierowanie i lepsze rekomendacje przynoszą korzyści, które właśnie opisałem, co powinno wznowić wzrost przychodów. Po drugie, po zbudowaniu tych centrów danych AI koszt ich utrzymania i modernizacji powinien być znacznie niższy niż początkowy koszt ich budowy za pierwszym razem. Po trzecie, tej ogromnej inwestycji nie może dokonać żadna inna firma, z wyjątkiem Google (i nieprzypadkowo wydatki kapitałowe Google również wzrosną).

Ten ostatni punkt jest być może najważniejszy: ATT zaszkodziło Meta bardziej niż jakakolwiek inna firma, ponieważ miała już zdecydowanie największy i najlepiej dopracowany biznes reklamowy, ale na dłuższą metę powinno pogłębić fosę Meta. Ten poziom inwestycji jest po prostu nieopłacalny dla firmy takiej jak Snap, Twitter lub jakakolwiek inna, która również zajmuje się reklamą cyfrową (nawet poza faktem, że Snap polega na dostawcach usług w chmurze zamiast na własnych centrach danych); kiedy połączysz fakt, że kierowanie reklam Meta prawdopodobnie zacznie odchodzić od pola (poza Google), z ogromnym wzrostem zasobów reklamowych, które pochodzą z Reels (co obniża ceny), będzie się zastanawiać, dlaczego jakikolwiek reklamodawca miałby zawracać sobie głowę iść gdziekolwiek indziej.

Ważnym czynnikiem wpływającym na działanie sztucznej inteligencji Meta jest nie tylko zbudowanie podstawowego modelu, ale także bieżące dostosowywanie go do indywidualnych użytkowników; to właśnie zajmie tak dużą pojemność i Meta będzie miała zasadnicze znaczenie, aby dowiedzieć się, jak przeprowadzić to dostosowywanie w sposób opłacalny. Tutaj jednak pomaga to, że oferta Meta będzie prawdopodobnie coraz bardziej zintegrowana: podczas gdy firma mogła zobowiązać się do Qualcomm w zakresie chipów do swoich zestawów VR , Meta nadal rozwija własne chipy serwerowe; firma wydała również narzędzia do usuwania chipów Nvidia i AMD dla swoich obciążeń, ale wydaje się prawdopodobne, że firma pracuje również nad własnymi chipami AI.

Interesujące będzie to, jak rzeczy takie jak generowanie obrazu i tekstu wpływają na Meta w dłuższej perspektywie: Sam Lessin stwierdził , że ostateczną grą dla algorytmicznych osi czasu jest treść AI; Przedstawiłem ten sam argument , jeśli chodzi o Metaverse . Innymi słowy, podczas gdy Meta inwestuje w sztuczną inteligencję, aby dawać spersonalizowane rekomendacje, pomysł ten, w połączeniu z przełomami z 2022 r., to spersonalizowane treści dostarczane za pośrednictwem kanałów Meta.

Na razie interesujące będzie obserwowanie, jak rozwijają się narzędzia reklamowe Meta: cały proces zarówno generowania, jak i testowania A/B kopii i obrazów może być wykonywany przez sztuczną inteligencję, a żadna firma nie jest lepsza od Meta w udostępnianiu tego rodzaju możliwości na dużą skalę . Należy pamiętać, że reklamy Meta dotyczą przede wszystkim górnej części ścieżki: celem jest zwrócenie uwagi konsumentów na produkt, usługę lub aplikację, o których istnieniu wcześniej nie wiedzieli; oznacza to, że będzie wiele pominięć — zdecydowana większość reklam nie konwertuje — ale oznacza to również dużą swobodę eksperymentowania i iteracji. Wydaje się to bardzo dobrze pasować do sztucznej inteligencji: tak, generowanie może mieć koszty krańcowe, ale te koszty krańcowe są drastycznie niższe niż u człowieka.

Google

Dylemat innowatora został opublikowany w 1997 roku; był to rok , w którym akcje Eastman Kodak osiągnęły najwyższą cenę 94,25 USD i nie bez powodu: Kodak, jeśli chodzi o technologię, znajdował się w idealnej pozycji. Firma nie tylko zdominowała obecną technologię filmową, ale także wynalazła następną falę: aparat cyfrowy.

Problem sprowadzał się do modelu biznesowego: Kodak zarobił dużo pieniędzy z bardzo dobrymi marżami, dostarczając film z halogenkiem srebra; Z drugiej strony aparaty cyfrowe były cyfrowe, co oznacza, że w ogóle nie potrzebowały filmu. Kierownictwo firmy Kodak było więc bardzo zmotywowane do przekonania samych siebie, że aparaty cyfrowe będą dostępne tylko dla amatorów i tylko wtedy, gdy staną się drastycznie tańsze, co z pewnością zajęłoby bardzo dużo czasu.

W rzeczywistości kierownictwo firmy Kodak miało rację: minęło ponad 25 lat od wynalezienia aparatu cyfrowego, zanim sprzedaż aparatów cyfrowych przewyższyła sprzedaż aparatów filmowych; wykorzystanie aparatów cyfrowych w profesjonalnych zastosowaniach zajęło jeszcze więcej czasu. W międzyczasie Kodak zarobił dużo pieniędzy i wypłacił miliardy dolarów dywidend. I chociaż firma zbankrutowała w 2012 roku, to dlatego, że konsumenci mieli dostęp do lepszych produktów: najpierw aparatów cyfrowych, aw końcu telefonów z wbudowanym aparatem.

Pomysł, że jest to szczęśliwe zakończenie, jest z pewnością sprzeczny z poglądem: większość postrzega Kodak jako porażkę, ponieważ oczekujemy, że firmy będą żyły wiecznie. Z tego punktu widzenia Kodak jest przestrogą o tym, jak innowacyjna firma może pozwolić, aby jej model biznesowy doprowadził ją do ostatecznej zagłady, nawet jeśli ta zagłada była wynikiem tego, że konsumenci kupili coś lepszego.

I tak dochodzimy do Google i AI. Google wynalazł transformator, kluczową technologię leżącą u podstaw najnowszych modeli sztucznej inteligencji. Mówi się, że Google ma produkt do czatowania, który jest znacznie lepszy od ChatGPT. Google twierdzi, że jego możliwości generowania obrazu są lepsze niż Dall-E lub ktokolwiek inny na rynku. A jednak te twierdzenia są tylko tym: twierdzeniami, ponieważ na rynku nie ma żadnych rzeczywistych produktów.

Nie jest to niespodzianką: Google od dawna jest liderem w wykorzystywaniu uczenia maszynowego do ulepszania swoich wyszukiwarek i innych produktów przeznaczonych dla konsumentów (i oferuje tę technologię jako usługę za pośrednictwem Google Cloud). Jednak wyszukiwanie zawsze polegało na ludziach jako ostatecznym arbitrze: Google udostępnia linki, ale to użytkownik decyduje, który z nich jest właściwy, klikając go. Dotyczyło to również reklam: oferta Google była rewolucyjna, ponieważ zamiast pobierać od reklamodawców opłaty za wyświetlenia — których wartość była bardzo trudna do ustalenia, zwłaszcza 20 lat temu — pobierała opłaty za kliknięcia; to właśnie ludzie, do których reklamodawcy próbowali dotrzeć, decydowaliby o tym, czy ich reklamy są wystarczająco dobre.

O zagadce, jaką stanowiło to dla biznesu Google w świecie sztucznej inteligencji, pisałem siedem lat temu w Google and the Limits of Strategy :

We wczorajszym przemówieniu dyrektor generalny Google, Sundar Pichai, po omówieniu historii technologii, która podkreślała epoki PC-Web-Mobile, które opisałem pod koniec 2014 r. , oświadczył, że przechodzimy od świata mobilnego do świata opartego na sztucznej inteligencji; taki był kontekst wprowadzenia Asystenta Google.

Rok przed wspomnianym iOS 6 Apple po raz pierwszy przedstawił pomysł asystenta w postaci Siri; po raz pierwszy można było (teoretycznie) wykonywać obliczenia głosowe. Na początku nie działało to zbyt dobrze (prawdopodobnie nadal nie działa), ale implikacje dla informatyki ogólnie, a konkretnie dla Google, były głębokie: interakcja głosowa rozszerzyła się tam, gdzie można było wykonać obliczenia, od sytuacji, w których można było poświęcić oczy i ręce do urządzenia skutecznie wszędzie, nawet jeśli ogranicza to , co możesz zrobić. Asystent musi być dużo bardziej proaktywny niż np. strona z wynikami wyszukiwania; nie wystarczy przedstawić możliwe odpowiedzi: raczej asystent musi udzielić właściwej odpowiedzi.

Jest to mile widziana zmiana technologii Google; od początku wyszukiwarka zawierała przycisk „Szczęśliwy traf”, założyciel Google, Larry Page, był tak pewny, że wyszukiwarka może dostarczyć dokładnie taki wynik, jakiego oczekiwałeś, i chociaż wczorajsze wersje demonstracyjne Asystenta Google były w puszkach, wyniki, zwłaszcza jeśli chodzi o świadomość kontekstową, były znacznie bardziej imponujące niż inni asystenci na rynku. Mówiąc szerzej, niewielu kwestionuje to, że Google jest wyraźnym liderem, jeśli chodzi o sztuczną inteligencję i uczenie maszynowe, które leżą u podstaw ich asystenta.

Biznes to jednak coś więcej niż technologia, a Google ma dwie istotne wady, zwłaszcza jeśli chodzi o asystentów. Po pierwsze, jak wyjaśniłem po tegorocznym Google I/O, firma ma lukę w wejściu na rynek : asystenci są przydatni tylko wtedy, gdy są dostępni, co w przypadku setek milionów użytkowników iOS oznacza pobieranie i używanie oddzielnego app (lub budowanie doświadczenia, w którym użytkownicy, podobnie jak Facebook, będą chętnie spędzać dużo czasu).

Po drugie jednak, Google ma problem z modelem biznesowym: przycisk „Szczęśliwy traf” gwarantował, że dane wyszukiwanie nie przyniesie Google żadnych pieniędzy. W końcu, jeśli użytkownik nie musi wybierać z wyników wyszukiwania, nie ma również możliwości kliknięcia reklamy, a tym samym wybiera zwycięzcę konkursu, który Google stworzył między swoimi reklamodawcami w celu przyciągnięcia uwagi użytkownika. Asystent Google ma dokładnie ten sam problem: gdzie trafiają reklamy?

Artykuł ten zakładał, że Asystent Google będzie używany do wyróżniania telefonów Google jako ekskluzywnej oferty; okazało się to błędne, ale podstawowa analiza pozostaje aktualna. W ciągu ostatnich siedmiu lat główną innowacją w modelu biznesowym Google było umieszczanie coraz większej liczby reklam w wyszukiwarce, co jest szczególnie skuteczną taktyką na urządzeniach mobilnych. I szczerze mówiąc, rodzaje wyszukiwań, na których Google zarabia najwięcej – podróże, ubezpieczenia itp. – i tak mogą nie nadawać się do interfejsów czatu.

To jednak powinno tylko zwiększyć obawy kierownictwa Google, że generatywna sztuczna inteligencja może, w konkretnym kontekście wyszukiwania, stanowić przełomową innowację zamiast trwałej. Przełomowa innowacja, przynajmniej na początku, nie jest tak dobra jak to, co już istnieje; dlatego jest łatwo odrzucany przez menedżerów, którzy mogą uniknąć myślenia o wyzwaniach związanych z modelem biznesowym, wmawiając sobie (słusznie!), że ich obecny produkt jest lepszy. Problem polega oczywiście na tym, że przełomowy produkt staje się coraz lepszy, nawet gdy produkt zasiedziałego staje się coraz bardziej rozdęty i trudny w użyciu – i to z pewnością brzmi bardzo podobnie do obecnej trajektorii wyszukiwarki Google.

Nie dzwonię do góry w imieniu Google; Zrobiłem to wcześniej i przezabawnie się myliłem . Mylenie się jest jednak najczęściej kwestią czasu: tak, Google ma swoją chmurę, a dominacja YouTube tylko wydaje się rosnąć, ale zarys szczytu wyszukiwania wydaje się wyraźny, nawet jeśli wyrzuca pieniądze i zyski przez lata.

Microsoftu

Tymczasem Microsoft wydaje się mieć najlepszą pozycję ze wszystkich. Podobnie jak AWS ma usługę w chmurze, która sprzedaje GPU; jest także wyłącznym dostawcą chmury dla OpenAI. Tak, to jest niewiarygodnie drogie , ale biorąc pod uwagę, że OpenAI wydaje się mieć wewnętrzną ścieżkę do bycia dodatkiem epoki AI do tej listy najlepszych firm technologicznych, oznacza to, że Microsoft inwestuje w infrastrukturę tej epoki.

Tymczasem Bing jest jak Mac w przededniu iPhone'a: tak, przynosi sporo przychodów, ale ułamek dominującego gracza i stosunkowo nieistotna kwota w kontekście Microsoftu jako całości. Jeśli włączenie wyników podobnych do ChatGPT do Bing naraża model biznesowy na możliwość zdobycia ogromnego udziału w rynku, jest to zakład, który warto postawić.

Tymczasem najnowszy raport The Information mówi, że GPT ostatecznie pojawi się w aplikacjach produktywności Microsoftu. Sztuką będzie naśladowanie sukcesu narzędzia do kodowania AI GitHub Copilot (które jest zbudowane na GPT), które odkryło, jak być pomocą zamiast przeszkadzać (tj. nie być Clippy!).

Co ważne, dodanie nowej funkcjonalności — być może za opłatą — doskonale wpisuje się w subskrypcyjny model biznesowy Microsoftu. Warto zauważyć, że firma, którą kiedyś uważano za wzór dla ofiar zakłóceń, w pełnej relacji nie tylko zrodzi się z zakłóceń, ale będzie dobrze przygotowana do osiągnięcia dzięki niemu wyższych wyżyn.


O potencjalnym wpływie sztucznej inteligencji można napisać znacznie więcej, ale ten artykuł jest już bardzo długi. OpenAI jest oczywiście najciekawsze z perspektywy nowej firmy: możliwe, że OpenAI stanie się platformą, na której zbudowane są wszystkie inne firmy AI, co ostatecznie oznaczałoby, że wartość ekonomiczna AI poza OpenAI może być dość skromna; jest to również argument byka dla Google, ponieważ byliby najlepiej przygotowani do bycia Microsoft Azure dla AWS OpenAI.

Istnieje inna możliwość, w której modele open source rozprzestrzeniają się w przestrzeni generowania tekstu oprócz generowania obrazów. W tym świecie sztuczna inteligencja staje się towarem: jest to prawdopodobnie najbardziej wpływowy wynik dla świata, ale paradoksalnie najbardziej wyciszony pod względem wpływu ekonomicznego na poszczególne firmy (podejrzewam, że największe możliwości będą w branżach, w których dokładność jest niezbędna: w związku z tym niedoinwestowanie w sztuczną inteligencję, a la Kodak niedoinwestowanie w technologię cyfrową, zapominając, że technologia staje się lepsza).

Rzeczywiście, największymi zwycięzcami mogą być Nvidia i TSMC. Inwestycja Nvidii w ekosystem CUDA oznacza, że firma nie ma po prostu najlepszych chipów AI, ale najlepszy ekosystem AI, a firma inwestuje w skalowanie tego ekosystemu . To jednak pobudzało i nadal będzie pobudzać konkurencję, szczególnie w zakresie wewnętrznych wysiłków związanych z chipami, takich jak TPU firmy Google; jednak wszyscy będą robić swoje żetony w TSMC, przynajmniej w dającej się przewidzieć przyszłości.

Jednak największy wpływ ze wszystkich jest prawdopodobnie całkowicie poza naszym radarem. Tuż przed przerwą Nat Friedman powiedział mi w wywiadzie dla Stratechery o Riffusion , która wykorzystuje stabilną dyfuzję do generowania muzyki z tekstu za pomocą wizualnych sonogramów, co sprawia, że zastanawiam się, co jeszcze jest możliwe, gdy obrazy są naprawdę towarem. W tej chwili tekst jest uniwersalnym interfejsem , ponieważ tekst jest podstawą przekazywania informacji od czasu wynalezienia pisma ; ludzie są jednak wzrokowcami, a dostępność sztucznej inteligencji zarówno do tworzenia, jak i interpretacji obrazów może zasadniczo zmienić to, co oznacza przekazywanie informacji w sposób, którego nie można przewidzieć.

Na razie nasze prognozy muszą być znacznie bardziej ograniczone czasowo i skromne. To może być początek epoki sztucznej inteligencji, ale nawet w technologii epoki potrzebują dekady lub dłużej, aby przekształcić wszystko wokół siebie.

Napisałem kontynuację tego artykułu w tej codziennej aktualizacji .