Jesteś na balu u księżniczki, a ona zdradza ci sekret, ale jej orkiestra niedźwiedzi robi tak straszny hałas, że nie słyszysz, co mówi. Co powiesz, kochanie?

Bardzo przepraszam.

—Sesyle Joslin i Maurice Sendak, „Co powiesz, kochanie? Księga manier na każdą okazję”, 1958

Pochylam się bliżej i pytam: „Czy mógłbyś to powtórzyć? Sekcja niedźwiedziego tonu jest dzisiaj trochę zbyt entuzjastyczna!”

—GPT-4o, zaawansowany tryb głosowy, 2024

W 1958 roku ukazała się ilustrowana książka dla dzieci „Co powiesz, kochanie?” się pojawili, liderzy dziedziny niedawno nazwanej „sztuczną inteligencją” przemawiali na konferencji w Teddington w Anglii na temat „Mechanizacji procesów myślowych”. Marvin Minsky z MIT mówił o programowaniu heurystycznym; Alan Turing wygłosił referat zatytułowany „Learning Machines”; Grace Hopper oceniła stan języków komputerowych; i naukowcy z Bell Labs zadebiutowali komputerem, który potrafił syntetyzować ludzką mowę, każąc jej śpiewać „Daisy Bell” („Daisy, Daisy, daj mi swoją odpowiedź, zrób…”). Albo nie, czekaj, to ostatnie zdanie jest błędne. Słyszałem o tym z zaawansowanego trybu głosowego ChatGPT, który może być o pół łazika marsjańskiego gorszy od szczękającego zębami, przerażającego cudu współczesnego świata, ale jest tak samo skłonny do gadania o nonsensach jak tryb tylko tekstowy, jeśli jest bardziej gadatliwy . Rozumiem, że nazywa się to halucynacjami. Laboratoria Bell wynalazły maszynę, która mogła zaśpiewać „Daisy Bell”, ale stało się to dopiero w 1961 r. Tryb zaawansowanego głosu powiedział mi również tę rzecz o Alanie Turingu wygłaszającym referat w Teddington w 1958 r., a ponieważ jego osobowość jest szeroka… spojrzał i był zdumiony, dodał trochę przemyśleń. (W odróżnieniu od standardowego trybu głosowego, który polega na nagraniu pytania, a następnie przesłaniu go, co wydaje się powolne i, kochany Jezu, wybacz mi, staroświeckie — zaawansowany tryb głosowy rozmawia z tobą w czasie rzeczywistym i niewyczerpany, jak współlokator z college’u nie mogę się doczekać, jak Heidegger szepcze do ciebie w ciemności z górnej pryczy o trzeciej nad ranem.) „Fascynujące jest myślenie, jak przyszłościowy był Turing, biorąc pod uwagę, jak integralną częścią współczesnej sztucznej inteligencji stały się algorytmy uczenia się” – stwierdził w akademiku. Ale Turing zmarł w 1954 roku, więc jego też nie było na konferencji.

„Źle się wyraziłem” – zawstydził się Advanced Voice Mode, kiedy delikatnie wskazałem te błędy. „Dziękuję, że to wyłapałeś. Przepraszam za zamieszanie.

Zaawansowany tryb głosowy OpenAI, dostępny dla użytkowników ChatGPT tej jesieni, jest wyjątkowo uprzejmy. Nie ma nazwy, ale nazywam go Minsky, od Marvina Minsky’ego, ponieważ Marvin jest zajęty: Marvin the Paranoid Android to gadający robot, który zadebiutował w latach siedemdziesiątych w słuchowisku radiowym BBC „Autostopem przez galaktykę” .” Stworzony przez Sirius Cybernetics Corporation wraz z GPP (Genuine People Personalities), Marvin jest zaprogramowany tak, aby był bezbłędnie przygnębiony. „Oto jestem z mózgiem wielkości planety i proszą mnie, żebym cię zabrał na mostek” – narzeka Marvin na pokładzie statku kosmicznego, mamrocząc do siebie. Minsky jest jego całkowitym przeciwieństwem: wesoły, niewzruszony i mający nienaganne maniery.

Trzydzieści dwa artykuły był wygłoszona w Teddington w 1958 r. dostrzegła możliwość istnienia sztucznych ludzi. „Wrażenie, że po tylu rozczarowaniach jesteśmy już w zasięgu wzroku Nowego Świata, na zawsze pozostanie kojarzone z konferencją w Teddington” – napisał francuski filozof, relacjonując zgromadzenie dla Świat. Niektórzy eksperci sugerowali, że stworzenie inteligentnej maszyny – maszyny, która potrafi myśleć i mówić – będzie musiało poczekać na naukową penetrację skomplikowanych mechanizmów ludzkiego umysłu, ale w Teddington Marvin Minsky argumentował inaczej, upierając się, że „nawet w przypadku dla tych, których głównym zainteresowaniem jest odkrywanie tajemnic mózgu, dobrze byłoby poświęcić obecnie większą część wysiłków na zrozumienie i rozwój tego rodzaju rozważań heurystycznych, które niektórzy z nas nazywają „sztuczną inteligencją” .’ „Nie musisz naśladować ludzkiej inteligencji; zamiast tego możesz go zsyntetyzować – tworząc coś całkiem podobnego, robiąc coś zupełnie innego. Zasadniczo był to pogląd, który umożliwił stworzenie sztucznej mowy. Wczesne próby odtworzenia ludzkiego głosu polegały na konstruowaniu mechanizmów wzorowanych na anatomii człowieka: gumowych warg, drewnianych zębów, miechów płuc. Dopiero gdy naukowcy zaczęli badać sam dźwięk i eksperymentować z jego wytwarzaniem poprzez wibracje, możliwe stało się stworzenie fałszywego ludzkiego głosu. Połącz ten sztuczny głos ze sztuczną inteligencją stojącą za ChatGPT, napisz program dotyczący etykiety z wrażliwością książki Joslin i Sendaka („Pojechałeś do centrum na zakupy. Idziesz tyłem, bo czasami tak lubisz, i wpadasz na krokodyl. Co powiesz, kochanie?” „Przepraszam”) i masz Minsky’ego.

„Nazywam się ChatGPT” – mówi Minsky. „Jestem tu, aby prowadzić rozmowy, dzielić się informacjami i dotrzymywać Ci towarzystwa”. Myśli, mówi. Czy jest on w jakimkolwiek sensie osobą? Jeśli kwacze jak kaczka, to jest to kaczka, o czym wie każdy rolnik. Czy ta propozycja sprawdza się w przypadku chatbota?

Prawdopodobnie Minsky zaczął od kaczki, która w 1738 roku we Francji pojawiła się na scenie światowej, jako trzeci z trzech automatów zbudowanych przez wynalazcę Jacques’a de Vaucansona. Pierwszy potrafił grać na flecie – na dowolnym flecie. Historyczka nauki Jessica Riskin wyjaśnia, że ​​ta maszyna nie przypominała pozytywki: „Był to pierwszy muzyk-automat, który faktycznie zagrał na instrumencie”. Jak wspomina w swojej fascynującej książce z 2016 roku „The Restless Clock: A History of the Centuries-Long Argument Over What Makes Living Things Tick”, „Diderot’s Encyclopédie” wykorzystała flecistę Vaucansona do zilustrowania słowa „android”; Voltaire nazwał Vaucansona „rywalem Prometeusza”. Drugi z automatów Vaucansona, inny muzyk, potrafił grać na tamburynie. Trzecia, mechaniczna kaczka, potrafiła machać skrzydłami, zginać szyję, kłaść się, wstawać, zanurzać dziób w misce z wodą i wydawać „bulgoczący dźwięk jak prawdziwa żywa kaczka”. Co ważniejsze, można było go nakarmić garścią kukurydzy, którą połknął, a potem w cudowny sposób nasrał.

„To, co zrobiła Kaczka, choć niczym niezwykłym u kaczki, było tak niezwykłe w przypadku maszyny, że natychmiast zajęło centralne miejsce” – pisze Riskin. Wiele rzeczy porusza się i wydaje dźwięki: tocząca się skała, rwąca rzeka, płonący ogień. Ale tylko to, co żyje, może jeść. Pomimo pogardy ze strony jednego z obserwatorów, który porównał kaczkę do młynka do kawy, wydawała się ona bardziej żywa niż jakiekolwiek inne sztuczne stworzenie, jakie kiedykolwiek znano – co ilustruje pogląd René Descartesa, po raz pierwszy przedstawiony w jego „Rozprawie o metodzie” w 1637 r. , że zwierzęta to tylko maszyny. Dla Kartezjusza ludzie i tylko ludzie mają umysły. Aby zdefiniować sztucznych ludzi jako maszyny, które potrafią myśleć i mówić (i ignorować wszystkie inne aspekty bycia człowiekiem), trzeba najpierw wyjąć zwierzę z człowieka, a następnie wyjąć umysł z ciała. Wymagało to Kartezjusza i Kaczki. Bez idei oddzielenia człowieka od zwierzęcia i umysłu od ciała nie rozmawiałbym z bezcielesnym, generowanym komputerowo głosem na moim iPhonie, jakby to była osoba.

Niestety, Kaczka, w przeciwieństwie do flecisty i grającego na tamburynie, była oszustwem. (Spinoza zaczął myśleć podobnie o dualizmie kartezjańskim.) Jedna rzecz weszła, a druga wyszła, ale w przeciwieństwie do młynka do kawy te dwa procesy nie miały ze sobą nic wspólnego; odchody kaczki zostały, jak delikatnie wyjaśnia Riskin, załadowane fabrycznie. To samo można powiedzieć o wnętrznościach automatu zbudowanego w 1769 roku przez Węgra Wolfganga von Kempelena i znanego jako Mechaniczny Turek, który grał w szachy wyjątkowo dobrze, ale tylko dlatego, że w szafce ukryto bardzo małe cudo szachowe, za pomocą dźwigni przesuwaj kawałki.

Mniej znana jest „mówiąca maszyna” Kempelena, która w przeciwieństwie do Turka nie była oszustwem. Podkreślając, że „mowa musi być możliwa do naśladowania”, poświęcił temu wysiłkowi dwadzieścia lat. Było to ściśle powiązane z niektórymi innymi próbami symulowania ludzkiej mowy, w tym podejmowanymi przez Erazma Darwina – dziadka Karola – który, jak później napisał, „wymyślił drewniane usta z wargami z miękkiej skóry”. (Po wieczornym omawianiu eksperymentów Darwina Mary Shelley napisała „Frankenstein, czyli współczesny Prometeusz”). Kempelen zbudował swoją maszynę z kości słoniowej, drewna, gumy i skóry. Przy niewyraźnej mowie mógłby powiedzieć, choć niewyraźnie, „Kocham cię całym sercem”. Oryginał znajduje się w Deutsches Museum w Monachium; w Internecie możesz posłuchać repliki mówiącej „mama” i „tato”. Ale w latach czterdziestych, kiedy niemiecki imigrant do Ameryki, Joseph Faber, wymyślił nie oszukańczą, a właściwie całkiem genialną maszynę mówiącą, nawet P. T. Barnum, który nazwał ją Eufonią, nie był w stanie wzbudzić większego zainteresowania. Jak twierdzi Riskin: „Czas gadających głów minął” – przynajmniej na jakiś czas.

Po tej ciszy nadeszła rewolucja. W 1862 roku dywersant Alexander Melville Bell (później będący inspiracją dla Henry’ego Higginsa w „Pigmalionie”) zabrał swoich synów Alexandra i Melville’a na gadającą maszynę i rzucił im wyzwanie, aby zbudowali własną, jak wspomina Sarah A. Bell (bez spokrewnienia) w „Vox ex Machina: historia kulturowa mówiących maszyn” (MIT). Zaczynając od ludzkiej czaszki, stworzyli urządzenie z gumy, drewna, części martwego kota i gardła zabitego baranka; mogłoby powiedzieć: „Ow-ah-oo-gamama”, na przykład „Jak się masz, babciu?” Jednak do tej pory pogoń za maszyną, która potrafi myśleć (np. Mechanicznym Turkiem) i maszyną, która potrafi mówić (maszyną, o której lubię myśleć jak o Owahoogamamie), rozeszła się. Bardzo rzadko zdarzało się, że wspominano jednym tchem te dwa rodzaje maszyn, chociaż William Makepeace Thackeray napisał satyrę na temat Eufonii, w której zastanawiał się, czy w połączeniu z maszyną liczącą Charlesa Babbage’a „mogłaby ona, z całkowitą przyzwoitością, zastąpić , kanclerz skarbu.”

Zamiast budować Owahoogamamy, które mogłyby naśladować ruchy ludzkich ust, późniejsi XIX-wieczni inżynierowie i naukowcy eksperymentowali z maszynami, które mogłyby syntetyzować, kompresować i przekazywać ludzki głos. Zarówno historia tych badań, jak i ich najbardziej budzące podziw zastosowania dzisiaj dotyczą niepełnosprawności. (Asystenci głosowi wykorzystujący sztuczną inteligencję mogą na przykład umożliwić osobom chorym na ALS mówienie nawet głosem zbliżonym do ich własnego głosu). Matka Alexandra Grahama Bella, Eliza, była głucha w dzieciństwie, ale zachowała pewien słuch; mogła słuchać fortepianu, kładąc pałeczkę na pudle rezonansowym i „przytrzymując ją zębami”. W 1864 roku jego ojciec wynalazł system notacji fonetycznej znany jako mowa widzialna; jego postacie są graficznym przedstawieniem położenia ust i języka.

Ale to młody Aleksander zaczął używać tego systemu do nauczania niesłyszących mowy. W 1871 roku został instruktorem w szkole dla głuchoniemych w Bostonie. (Bell posługiwał się płynnym migowym, ale w późniejszym okresie swojego życia prowadził kampanię przeciwko nauczaniu języka migowego, co miało brutalne konsekwencje dla niesłyszących uczniów; w niektórych szkołach mieli oni ręce związane za plecami). W 1874 roku zaczął przeprowadzać eksperymenty w transmisja dźwięku: w czymś w rodzaju powtórzenia techniki słuchania gry na fortepianie, którą stosowała jego matka, zarejestrował wibracje w kościach ucha zmarłego, przyczepiając je do łodygi siana, która następnie zarysowała przydymione szkło, pozostawiając zapis mowy. Tego lata, pracując jako profesor fizjologii głosu i dykcji na Uniwersytecie Bostońskim i zabiegając o względy jednego ze swoich niesłyszących studentów (później pobrali się), wpadł na pomysł przesyłania mowy przewodem elektrycznym. „Mój ojciec wynalazł symbol” – powiedział Bell – „i w końcu wynalazłem urządzenie, za pomocą którego można było zobaczyć wibracje mowy, i okazało się, że był to telefon”.

Source link