Ray Kurzweil, światowej sławy wynalazca, naukowiec i wizjoner, stawia pytania o przyszłość rewolucji technologicznej, która ma nadejść. Albo już nadeszła…
Od czasu wydania poprzedniej przełomowej książki Raya Kurzweila „Nadchodzi osobliwość” większość przewidywań autora dotyczących postępu technologicznego się sprawdziła, a takie koncepcje jak AI, inteligentne maszyny i biotechnologia są obecnie powszechnie znane i wykorzystywane.
Pora na zadanie nowych pytań:
• Jak technologia będzie zmieniać ludzkość w nadchodzących dekadach?
• Dlaczego AI jest przyszłością ewolucji ludzkości?
• Jak zwiększymy długość życia powyżej obecnego limitu 120 lat?
i na odpowiedź na kolejne wątpliwości:
• Jaki wpływ wywrze AI na poziom zatrudnienia?
• Czy autonomiczne maszyny można zostawić bez nadzoru?
• Czy technologia wirtualnego ożywiania zmarłych odmieni nasze życie emocjonalne?
✓ „Osobliwość coraz bliżej” to fascynująca eksploracja naszej przyszłości, która dotyka najgłębszych pytań filozoficznych.
– Yuval Noah Harari, autor „Sapiens”
✓ Niewiele osób miało taki wpływ na sposób myślenia o AI jak Ray Kurzweil.
– Mustafa Suleyman, dyrektor generalny Microsoft AI
✓ Ray Kurzweil najlepiej ze znanych mi osób przewiduje przyszłość sztucznej inteligencji.
– Bill Gates
✓ Ta książka zmieni wszystko, co wiecie o technologii, życiu i śmierci.
– Tony Robbins, autor i konsultant biznesowy
✓ Ray Kurzweil to najlepsza wyrocznia naszej cyfrowej epoki.
– Peter H. Diamandis, dyrektor generalny XPRIZE, prezes zarządu Singularity University
✓ Nikt nie jest bardziej optymistycznie nastawiony do technologii niż Ray Kurzweil.
– „The Boston Globe”
Raymond „Ray” Kurzweil (ur. 1948) jest amerykańskim wynalazcą, futurologiem, przedsiębiorcą i pisarzem. Od 2012 roku pełni funkcję dyrektora technicznego firmy Google. Absolwent amerykańskiego Massachusetts Institute of Technology. Od lat 80. kierował różnymi spółkami, zajmującymi się opracowywaniem i wdrażaniem nowych technologii, takich jak m.in. syntezatory mowy oraz systemy rozpoznawania znaków w plikach graficznych (OCR). Jest autorem znanych na całym świecie książek o sztucznej inteligencji, biotechnologii i transhumanizmie: „The Age of Intelligent Machines” (1990), „The Age of Spiritual Machines” (1999), „Nadchodzi osobliwość” (2005). Założyciel katedry futurologii na Singularity University w Dolinie Krzemowej – interdyscyplinarnych studiach, które mają na celu „przygotować ludzkość na przyśpieszoną zmianę technologiczną”. Od 2001 roku prowadzi instytut Kurzweil Accelerating Intelligence zajmujący się monitorowaniem zmian będących następstwem procesów rozwoju technologii opisanych w jego książkach. W 2011 roku trafił na 30. miejsce w rankingu najbardziej wpływowych ludzi świata tygodnika „Time”.
Osobliwość coraz bliżej. Kiedy połączymy się z AI
Przekład: Tomasz Lanczewski
Wydawnictwo Relacja
Premiera: 27 listopada 2024
WPROWADZENIE
W mojej książce z 2005 roku Nadchodzi osobliwość przedstawiłem teorię, że zbieżne, wykładnicze trendy technologiczne prowadzą do transformacji, która całkowicie przekształci ludzkość. Istnieje kilka kluczowych obszarów zmian, które nadal jednocześnie nabierają tempa: moc obliczeniowa staje się tańsza, biologia człowieka jest coraz lepiej rozumiana, a inżynieria staje się możliwa na znacznie mniejszych skalach. W miarę jak możliwości sztucznej inteligencji rosną, a informacje stają się coraz bardziej dostępne, coraz ściślej integrujemy te możliwości z naszą naturalną inteligencją biologiczną. Ostatecznie nanotechnologia umożliwi kulminację tych trendów w postaci bezpośredniego rozszerzenia naszych mózgów o warstwy wirtualnych neuronów w chmurze. W ten sposób połączymy się ze sztuczną inteligencją i wzbogacimy się o miliony razy większą moc obliczeniową, niż obdarzyła nas biologia. Poszerzy to naszą inteligencję i świadomość w sposób tak głęboki, że aż trudny do pojęcia. To wydarzenie nazywam osobliwością.
Termin „osobliwość” został zapożyczony z matematyki (gdzie odnosi się do nieokreślonego punktu funkcji, jak w przypadku dzielenia przez zero) i fizyki (gdzie oznacza nieskończenie gęsty punkt w centrum czarnej dziury, w którym obowiązujące prawa fizyki załamują się). Należy jednak pamiętać, że używam tego terminu jako metafory. Moja prognoza dotycząca technologicznej osobliwości nie sugeruje, że tempo zmian naprawdę stanie się nieskończone, ponieważ wzrost wykładniczy nie implikuje nieskończoności, podobnie jak w przypadku fizycznej osobliwości. Czarna dziura ma wystarczająco silną grawitację, by uwięzić nawet światło, ale w mechanice kwantowej nie ma sposobu na uwzględnienie naprawdę nieskończonej masy1. Używam jednak metafory osobliwości, ponieważ oddaje ona naszą niezdolność do zrozumienia tak radykalnej zmiany na naszym obecnym poziomie inteligencji. Ale gdy to przejście nastąpi, będziemy zwiększać naszą zdolność poznawczą na tyle szybko, aby się do niego przystosować.
Jak szczegółowo opisałem w Nadchodzi osobliwość, długoterminowe trendy sugerują, że osobliwość nastąpi około 2045 roku. W momencie publikacji owej książki data ta była oddalona o czterdzieści lat – czyli dwa pełne pokolenia – w przyszłość. Z tej odległości mogłem przewidywać ogólne siły, które spowodują tę transformację, ale dla większości czytelników temat ten był wciąż stosunkowo odległy od codziennej rzeczywistości 2005 roku. Wielu krytyków twierdziło wówczas, że mój harmonogram jest zbyt optymistyczny, a nawet że pojawienie się osobliwości trzeba uznać za niemożliwe.
Od tamtej pory wydarzyło się jednak coś niezwykłego. Wbrew wątpliwościom sceptyków postęp nadal przyspieszał. Media społecznościowe i smartfony przestały być czymś wyjątkowym i stały się naszymi nieodłącznymi towarzyszami, dzięki którym łączy się obecnie ze sobą większość światowej populacji. Innowacje algorytmiczne i pojawienie się dużych zbiorów danych umożliwiły sztucznej inteligencji osiągnięcie zaskakujących momentów przełomowych nawet wcześniej, niż spodziewali się eksperci – od opanowania gier takich jak Jeopardy! i go, po prowadzenie samochodów, pisanie esejów, zdawanie egzaminów adwokackich i wykrywanie raka. Teraz potężne i elastyczne duże modele językowe, na przykład GPT-4 i Gemini, mogą przekładać polecenia formułowane w języku naturalnym na kod komputerowy, radykalnie zmniejszając barierę między ludźmi a maszynami. W momencie, gdy czytacie te słowa, dziesiątki milionów ludzi prawdopodobnie doświadczyły już tych możliwości na własnej skórze. W międzyczasie koszt sekwencjonowania ludzkiego genomu spadł o około 99,997 procent, a sieci neuronowe zaczęły dokonywać istotnych odkryć medycznych dzięki cyfrowej symulacji biologii.
Wreszcie zyskujemy nawet możliwość bezpośredniego łączenia komputerów z mózgami. U podstaw wszystkich tych osiągnięć leży coś, co nazywam prawem przyspieszających zwrotów: technologie informacyjne, takie jak metody obliczeniowe, stają się wykładniczo tańsze, ponieważ każdy postęp ułatwia zaprojektowanie kolejnego etapu ich własnej ewolucji. W rezultacie w momencie pisania tego tekstu za jednego dolara można kupić około 11 200 razy więcej mocy obliczeniowej, przy uwzględnieniu inflacji, niż kiedy Nadchodzi osobliwość trafiła na półki.
Poniższy wykres, który omówię szczegółowo w dalszej części książki, podsumowuje najważniejszy trend napędzający naszą cywilizację technologiczną: długoterminowy wykładniczy wzrost (pokazany jako w przybliżeniu linia prosta na skali logarytmicznej) ilości mocy obliczeniowej, jaką można kupić za stałą kwotę. Z prawa Moore’a wynika, że tranzystory stale się kurczą, dzięki czemu komputery stają się coraz potężniejsze – ale to tylko jeden z przejawów prawa przyspieszających zwrotów, które obowiązywało już na długo przed wynalezieniem tranzystorów i można się spodziewać, że będzie obowiązywać nawet po osiągnięciu fizycznych granic tranzystorów i zastąpieniu ich przez nowe technologie. Trend ten zdefiniował współczesny świat i niemal wszystkie nadchodzące przełomy omówione w tej książce zostaną przez niego bezpośrednio lub pośrednio spowodowane.
Tak więc trzymamy się harmonogramu dla osobliwości. Istotność tej książki wynika z samej natury wykładniczej zmiany. Trendy, które na początku tego stulecia były ledwo zauważalne, obecnie w bezpośredni sposób wpływają na życie miliardów ludzi. Na początku lat dwudziestych XXI wieku weszliśmy w gwałtownie i stromo rosnącą część krzywej wykładniczej, a tempo innowacji wpływa na społeczeństwo jak nigdy dotąd. Dla porównania: chwila, w której czytacie te słowa, jest prawdopodobnie bliżej stworzenia pierwszej nadludzkiej sztucznej inteligencji niż wydania mojej ostatniej książki Jak stworzyć umysł z 2012 roku.
I przypuszczalnie jesteście bliżej osobliwości niż wydania mojej książki z 1999 roku The Age of Spiritual Machines (Wiek maszyn duchowych). Bądź też, mierząc to w kategoriach ludzkiego życia, dzieci urodzone dzisiaj będą właśnie kończyć studia, gdy nadejdzie osobliwość. Na poziomie bardzo osobistym jest to inny rodzaj „nadejścia” niż w 2005 roku.
Dlatego teraz napisałem tę książkę. Trwający tysiąclecia marsz ludzkości w kierunku osobliwości stał się szalonym biegiem. We wstępie do Nadchodzi osobliwość wyraziłem opinię, że byliśmy wtedy „w początkowych etapach tej transformacji”. Teraz wkraczamy w jej kulminację. Tamta książka dotyczyła spojrzenia na odległy horyzont – ta opisuje ostatnie kilometry na ścieżce wiodącej do jego osiągnięcia.
Na szczęście obecnie widzimy tę ścieżkę znacznie wyraźniej. Chociaż zanim osiągniemy osobliwość, pozostaje do rozwiązania wiele wyzwań technologicznych, jej kluczowi prekursorzy szybko przechodzą ze sfery nauki teoretycznej do aktywnych badań i rozwoju. W nadchodzącej dekadzie ludzie będą wchodzić w interakcje ze sztuczną inteligencją, która może wydawać się przekonująco ludzka, a proste interfejsy mózg–komputer będą miały wpływ na codzienne życie na podobieństwo dzisiejszych smartfonów. Cyfrowa rewolucja w biotechnologii wyleczy choroby i znacząco wydłuży ludzkie życie w zdrowiu. Jednocześnie jednak wielu pracowników odczuje ból wynikający z zaburzeń gospodarczych, a wszyscy staniemy w obliczu ryzyka wynikającego z przypadkowego lub celowego nadużycia tych nowych możliwości. W latach trzydziestych XXI wieku samodoskonaląca się sztuczna inteligencja i dojrzewająca nanotechnologia połączą ludzi i nasze maszynowe wytwory w sposób dotychczas nieznany, co jeszcze bardziej zwiększy zarówno możliwości, jak i zagrożenia. Jeśli uda nam się sprostać wyzwaniom naukowym, etycznym, społecznym i politycznym, jakie stwarza ten postęp, do 2045 roku głęboko przekształcimy życie na Ziemi na lepsze. Jeśli jednak poniesiemy porażkę, nasze przetrwanie stanie pod znakiem zapytania. Dlatego też ta książka opowiada o naszym ostatecznym podejściu do osobliwości – szansach i niebezpieczeństwach, którym musimy wspólnie stawić czoła w ramach ostatniego pokolenia zamieszkującego świat, jaki znaliśmy.
Na początek przyjrzymy się temu, w jaki sposób tak naprawdę nadejdzie osobliwość, i umieścimy to wydarzenie w kontekście długotrwałego dążenia naszego gatunku do przekształcenia własnej inteligencji. Tworzenie świadomości za pomocą technologii rodzi ważne pytania filozoficzne, dlatego omówimy wpływ tego przejścia na naszą własną tożsamość i poczucie celu. Następnie przejdziemy do praktycznych trendów, które będą charakteryzowały nadchodzące dekady. Jak pokażę, prawo przyspieszających zwrotów powoduje wykładniczą poprawę w bardzo szerokim zakresie wskaźników odzwierciedlających dobrostan człowieka. Jednym z najbardziej oczywistych negatywnych skutków innowacji jest natomiast bezrobocie spowodowane automatyzacją w jej różnych postaciach. Chociaż te szkody są realne, przekonamy się, czemu istnieją uzasadnione powody do długoterminowego optymizmu – oraz dlaczego ostatecznie nie będziemy konkurować ze sztuczną inteligencją.
W miarę jak technologie te odblokowują ogromną materialną obfitość dla naszej cywilizacji, nasza uwaga skupi się na pokonaniu kolejnej bariery na drodze do pełnego rozkwitu: słabości naszej biologii. Następnie przyjrzymy się narzędziom, których będziemy używać w nadchodzących dziesięcioleciach, aby sprawować coraz większą kontrolę nad samą biologią – najpierw poprzez pokonanie procesu starzenia się naszych ciał, a następnie wzmacniając nasze ograniczone mózgi i wprowadzając osobliwość. Jednak te przełomowe dokonania mogą również narazić nas na niebezpieczeństwo. Nowe rewolucyjne systemy w biotechnologii, nanotechnologii lub sztucznej inteligencji są też w stanie doprowadzić do katastrofy egzystencjalnej, takiej jak niszczycielska pandemia lub reakcja łańcuchowa samoreplikujących się maszyn. Zakończymy oceną tych zagrożeń, które wymagają starannego planowania, ale jak wyjaśnię, istnieją bardzo obiecujące sposoby ich złagodzenia.
To najbardziej fascynujące i doniosłe lata w całej historii rodzaju ludzkiego. Nie możemy z całą pewnością powiedzieć, jakie będzie życie po osobliwości. Jednak rozumiejąc i przewidując przejścia prowadzące do niej, możemy postarać się zapewnić, że ten ostatni etap rozwoju ludzkości będzie bezpieczny i udany.
ROZDZIAŁ 1
GDZIE JESTEŚMY W SZEŚCIU ETAPACH?
Wksiążce Nadchodzi osobliwość opisałem informację jako podstawę świadomości. Wymieniłem sześć etapów, lub epok, trwających od początku naszego wszechświata, przy czym każdy etap tworzy kolejny na podstawie przetwarzania informacji pochodzących z poprzedniego. Zatem ewolucja inteligencji przebiega poprzez pośrednią sekwencję innych procesów.
Pierwsza epoka to narodziny praw fizyki i możliwej dzięki nim chemii. Kilkaset tysięcy lat po Wielkim Wybuchu atomy uformowały się z elektronów krążących wokół jądra złożonego z protonów i neutronów. Protony w jądrze pozornie nie powinny znajdować się tak blisko siebie, ponieważ siła elektromagnetyczna próbuje gwałtownie je rozdzielić. Tak się jednak składa, że istnieje odrębna siła zwana silnym oddziaływaniem jądrowym, która utrzymuje protony razem. „Ktokolwiek” zaprojektował zasady wszechświata, musiał zapewnić tę dodatkową siłę, gdyż w przeciwnym razie ewolucja za pośrednictwem atomów byłaby niemożliwa.
Miliardy lat później atomy uformowały cząsteczki, które mogły stanowić nośnik złożonych informacji. Węgiel był najbardziej użytecznym budulcem, ponieważ mógł tworzyć cztery wiązania, w przeciwieństwie do jednego, dwóch lub trzech w przypadku wielu innych jąder. To, że żyjemy w świecie, który umożliwia istnienie skomplikowanej chemii, jest niezwykle mało prawdopodobne. Gdyby na przykład siła grawitacji była odrobinę słabsza, nie powstałyby supernowe wytwarzające pierwiastki chemiczne, z których zbudowane jest życie. Gdyby była nieco silniejsza, gwiazdy wypaliłyby się i przestały istnieć, zanim mogłoby powstać inteligentne życie. Tylko ta jedna stała fizyczna musiała mieścić się w bardzo wąskim zakresie, inaczej nie byłoby nas tutaj. Żyjemy we wszechświecie, który jest bardzo precyzyjnie zrównoważony, aby zapewnić poziom porządku, który umożliwił rozwój ewolucji.
Kilka miliardów lat temu rozpoczęła się druga epoka: życie. Cząsteczki stały się na tyle złożone, że można było zdefiniować cały organizm w jednej cząsteczce. W ten sposób żywe istoty, każda z własnym DNA, mogły ewoluować i rozprzestrzeniać się.
W trzeciej epoce zwierzęta opisane za pomocą DNA wytworzyły mózgi, które same przechowywały i przetwarzały informacje. Mózgi te stanowiły źródło korzyści ewolucyjnych, które pomogły im rozwinąć się w większą złożoność na przestrzeni milionów lat.
W czwartej epoce zwierzęta wykorzystały swoje wyższe zdolności poznawcze, a także kciuki, do przekładania myśli na złożone działania. Byli to ludzie. Nasz gatunek użył tych zdolności do stworzenia technologii umożliwiającej przechowywanie informacji i manipulowanie nimi – od papirusów po dyski twarde. Technologie te zwiększyły możliwości naszych mózgów w zakresie postrzegania, zapamiętywania i oceniania wzorców informacji. Jest to kolejne źródło ewolucji, które samo w sobie jest znacznie większe niż poziom wcześniejszego postępu. W przypadku mózgów przyrost wynosił mniej więcej 16 centymetrów sześciennych materii mózgowej co 100 tysięcy lat, podczas gdy w przypadku obliczeń cyfrowych podwajamy stosunek wydajności do ceny co jakieś szesnaście miesięcy.
W piątej epoce bezpośrednio połączymy biologiczne ludzkie zdolności poznawcze z szybkością i mocą naszej technologii cyfrowej. To interfejsy mózg–komputer. Przetwarzanie neuronowe u człowieka odbywa się z szybkością kilkuset cykli w ciągu sekundy, w porównaniu z kilkoma miliardami na sekundę w przypadku technologii cyfrowej. Oprócz szybkości i wielkości pamięci wzmocnienie naszych mózgów za pomocą komputerów niebiologicznych pozwoli nam dodać o wiele więcej warstw do kory nowej – odblokowując znacznie bardziej złożone i abstrakcyjne myślenie, niż możemy sobie obecnie wyobrazić.
W szóstej epoce nasza inteligencja rozprzestrzeni się po całym wszechświecie, zamieniając zwykłą materię w komputronium, czyli materię zorganizowaną w sposób umożliwiający maksymalną gęstość obliczeniową.
W mojej książce z 1999 roku The Age of Spiritual Machines przewidywałem, że test Turinga – w którym sztuczna inteligencja potrafi komunikować się za pomocą tekstu w sposób nieodróżnialny od człowieka – zostanie zaliczony do roku 2029. Powtórzyłem to przypuszczenie w książce Nadchodzi osobliwość z 2005 roku. Pozytywne zaliczenie testu Turinga oznacza, że sztuczna inteligencja opanowała język i zdroworozsądkowe rozumowanie na poziomie ludzkim. Turing opisał swoją koncepcję w 1950 roku, ale nie określił, w jaki sposób należy przeprowadzić ten test4. W zakładzie, jaki zawarłem z Mitchem Kaporem, zdefiniowaliśmy własne reguły, które są znacznie bardziej wymagające niż inne interpretacje.
Oczekiwałem, że aby zdać ważny test Turinga do 2029 roku, będziemy musieli do 2020 roku osiągnąć szeroki zakres możliwości intelektualnych dzięki sztucznej inteligencji. I rzeczywiście, od czasu tej prognozy sztuczna inteligencja opanowała wiele najtrudniejszych intelektualnych wyzwań ludzkości – od gier takich jak Jeopardy!5 i go po poważne zastosowania, takie jak radiologia i odkrywanie leków. Kiedy piszę te słowa, czołowe systemy sztucznej inteligencji, takie jak Gemini i GPT-4, rozszerzają swoje możliwości na wiele różnych dziedzin – zachęcając do podjęcia kroków na drodze do stworzenia ogólnej inteligencji.
Ostatecznie, gdy program przejdzie test Turinga, będzie musiał sprawiać wrażenie znacznie mniej inteligentnego w wielu obszarach, ponieważ w przeciwnym razie byłoby jasne, że jest to sztuczna inteligencja. Gdyby na przykład mógł natychmiast poprawnie rozwiązać dowolny problem matematyczny, nie zdałby tego testu. Zatem na poziomie testu Turinga sztuczna inteligencja będzie posiadać zdolności, które w rzeczywistości wykraczają daleko poza możliwości najlepszych ludzi w większości dziedzin.
Ludzie żyją obecnie w czwartej epoce, a nasza technologia już teraz przynosi rezultaty, które w przypadku pewnych zadań przekraczają nasze możliwości zrozumienia. Jeśli chodzi o aspekty testu Turinga, których sztuczna inteligencja jeszcze nie opanowała, postęp jest szybki i nieustannie przyspiesza. Zdanie testu Turinga, które przewiduję na rok 2029, wprowadzi nas w piątą epokę.
Kluczową zdolnością w latach trzydziestych XXI wieku będzie połączenie wyższych partii ludzkiej kory nowej z chmurą, co bezpośrednio rozszerzy nasze myślenie. W ten sposób sztuczna inteligencja, zamiast być konkurentem, stanie się przedłużeniem nas samych. Zanim to nastąpi, niebiologiczne części naszego umysłu zapewnią tysiące razy większe możliwości poznawcze niż części biologiczne.
W miarę wykładniczego postępu tego procesu do roku 2045 nasze umysły poszerzą się miliony razy. To właśnie ta niewyobrażalna prędkość i skala transformacji pozwalają nam zapożyczyć metaforę osobliwości z fizyki do opisu naszej przyszłości.
ROZDZIAŁ 2
PRZEOBRAŻENIE INTELIGENCJI
CO OZNACZA PRZEOBRAŻENIE INTELIGENCJI?
Jeśli cała historia wszechświata składa się z ewoluujących paradygmatów przetwarzania informacji, to historia ludzkości rozpoczyna się sporo za połową tej opowieści. Nasz rozdział w tym szerszym scenariuszu ostatecznie dotyczy metamorfozy z poziomu zwierząt z biologicznymi mózgami w istoty transcendentne, których myśli i tożsamość nie są już dłużej ograniczone przez to, co zapewnia nam genetyka. W latach dwudziestych XXI wieku wkraczamy w ostatnią fazę tej transformacji – przeobrażenie inteligencji, którą dała nam natura, na potężniejszym cyfrowym podłożu, a następnie połączenie się z nią. W ten sposób czwarta epoka wszechświata da początek piątej.
Ale jak się to konkretnie dokona? Żeby zrozumieć, co oznacza przeobrażenie inteligencji, najpierw przyjrzymy się narodzinom sztucznej inteligencji i dwóm szerokim szkołom myślenia, które z niej wyrosły. Aby przekonać się, dlaczego jedna z nich zwyciężyła nad drugą, odniesiemy się do tego, co neuronauka mówi nam o tym, jak móżdżek i kora nowa dały początek ludzkiej inteligencji. Po zbadaniu, w jaki sposób głębokie uczenie obecnie odtwarza zdolności kory nowej, możemy ocenić, co sztuczna inteligencja musi jeszcze osiągnąć, aby dorównać poziomowi ludzkiemu, i skąd będziemy wiedzieć, kiedy to nastąpi. Na koniec zajmiemy się tym, jak przy pomocy nadludzkiej sztucznej inteligencji zaprojektujemy interfejsy mózg–komputer, które znacznie poszerzą naszą korę nową o warstwy wirtualnych neuronów. Ten proces odblokuje całkowicie nowe sposoby myślenia i ostatecznie powiększy naszą inteligencję miliony razy: to jest właśnie osobliwość.
NARODZINY SZTUCZNEJ INTELIGENCJI
W 1950 roku brytyjski matematyk Alan Turing (1912–1954) opublikował artykuł w czasopiśmie „Mind” zatytułowany „Computing Machinery and Intelligence” (Maszyny obliczeniowe i inteligencja)6. Turing zadał w nim jedno z najgłębszych pytań w historii nauki: „Czy maszyny mogą myśleć?”. Chociaż koncepcja myślących maszyn sięga co najmniej automatu z brązu o imieniu Talos z mitologii greckiej7, rewolucyjny pomysł Turinga polegał na sprowadzeniu tej koncepcji do czegoś, co można sprawdzić empirycznie. Zaproponował on wykorzystanie „gry w naśladownictwo” – znanej dziś jako test Turinga – aby ustalić, czy obliczenia maszyny są w stanie wykonywać te same zadania poznawcze co nasze mózgi. W tym teście sędziowie przeprowadzają wywiad zarówno ze sztuczną inteligencją, jak i z ludzkimi uczestnikami za pomocą komunikatora internetowego, nie widząc, z kim rozmawiają. Następnie zadają pytania dotyczące dowolnego tematu lub sytuacji. Jeśli po upływie określonego czasu arbitrzy nie będą w stanie odróżnić, które odpowiedzi pochodziły od sztucznej inteligencji, a które od człowieka, wówczas uznaje się, że sztuczna inteligencja zdała test.
Przekuwając tę filozoficzną ideę w myśl naukową, Turing wzbudził ogromny entuzjazm wśród badaczy. W 1956 roku profesor matematyki John McCarthy (1927–2011) zaproponował przeprowadzenie dwumiesięcznych, dziesięcioosobowych badań w Dartmouth College w Hanowerze w stanie New Hampshire8. Cel był następujący:
Badanie ma opierać się na przypuszczeniu, że każdy aspekt uczenia się lub jakiejkolwiek innej cechy inteligencji można w zasadzie opisać tak precyzyjnie, że da się go zasymulować za pomocą maszyny. Podjęta zostanie próba znalezienia sposobów sprawienia, by maszyny używały języka, tworzyły abstrakcje i koncepcje, rozwiązywały różne rodzaje problemów obecnie zarezerwowane dla ludzi oraz ulepszały same siebie9.
Przygotowując się do tego eksperymentu, McCarthy zaproponował, aby tę dziedzinę, która ostatecznie zautomatyzuje każdą inną, nazwać „sztuczną inteligencją”10. Nie podoba mi się to określenie ze względu na to, że przymiotnik „sztuczna” sprawia, iż ta forma inteligencji wydaje się „nieprawdziwa”, ale akurat ten termin się przyjął.
Badanie zostało przeprowadzone, ale jego cel – w szczególności nauczenie maszyn zrozumienia problemów opisanych w języku naturalnym – nie został osiągnięty w ciągu dwóch miesięcy. Wciąż nad tym pracujemy – oczywiście teraz z udziałem znacznie więcej niż dziesięciu osób. Według chińskiego giganta technologicznego Tencent w 2017 roku na całym świecie było już około 300 tysięcy „badaczy i specjalistów zajmujących się sztuczną inteligencją”11, a w raporcie Global AI Talent Report z 2019 roku autorstwa Jeana-François Gagné, Grace Kiser i Yoana Manthy wskazano, że około 22 400 ekspertów w dziedzinie sztucznej inteligencji publikuje oryginalne badania – z których około 4000 uznano za bardzo wpływowych12. Według Instytutu Sztucznej Inteligencji Skoncentrowanej na Człowieku Uniwersytetu Stanforda badacze sztucznej inteligencji w 2021 roku wygenerowali ponad 496 tysięcy publikacji i ponad 141 tysięcy zgłoszeń patentowych13. W 2022 roku globalne inwestycje przedsiębiorstw w sztuczną inteligencję wyniosły 189 miliardów dolarów, co oznacza trzynastokrotny wzrost w ciągu ostatniej dekady14. Liczby te będą jeszcze wyższe w momencie, gdy będziecie czytać te słowa.
Trudno było to wszystko sobie wyobrazić w 1956 roku. Jednak cel warsztatów w Dartmouth był mniej więcej równoważny ze stworzeniem sztucznej inteligencji, która mogłaby przejść test Turinga. Moja prognoza, że uda nam się osiągnąć ten cel do 2029 roku, jest stale aktualna od czasu wydania mojej książki z 1999 roku The Age of Spiritual Machines, opublikowanej w momencie, gdy wielu obserwatorów uważało, że ten kamień milowy nigdy nie zostanie osiągnięty15. Jeszcze do niedawna przewidywanie to uważano w tej dziedzinie za niezwykle optymistyczne. Na przykład badanie przeprowadzone w 2018 roku wykazało zbiorczą prognozę ekspertów od sztucznej inteligencji, że inteligencja maszynowa na poziomie ludzkim pojawi się dopiero około 2060 roku16. Jednak najnowsze postępy w zakresie dużych modeli językowych szybko zmieniły oczekiwania. Kiedy pisałem wczesne wersje tej książki, konsensus na Metaculusie, najpopularniejszej na świecie witrynie prognostycznej, oscylował między latami czterdziestymi a pięćdziesiątymi obecnego stulecia. Jednak zaskakujące postępy sztucznej inteligencji w ciągu ostatnich dwóch lat zmieniły te oczekiwania i do maja 2022 roku konsensus na Metaculusie dokładnie zgadzał się z moimi przewidywaniami co do daty 2029 roku17. Od tego czasu prognozy prowadzą nawet do roku 2026, co z technicznego punktu widzenia lokuje mnie w obozie spóźnionych futurologów18!
Wiele ostatnich przełomowych osiągnięć w sztucznej inteligencji zaskoczyło nawet ekspertów w tej dziedzinie. Nie tylko dzieją się one wcześniej, niż większość się spodziewała, ale także wydają się pojawiać nagle i bez ostrzeżenia, że wielki krok naprzód jest tuż za rogiem. Na przykład w październiku 2014 roku Tomaso Poggio, ekspert z MIT w dziedzinie sztucznej inteligencji i nauk kognitywnych, oznajmił: „Umiejętność opisania zawartości obrazu stanowi jedno z najtrudniejszych intelektualnie wyzwań dla maszyny. Będziemy potrzebować kolejnego cyklu badań podstawowych, aby rozwiązać tego rodzaju problemy”19. Poggio oszacował, że rewolucja ta nastąpi co najmniej za dwie dekady. Tymczasem już w następnym miesiącu firma Google zaprezentowała sztuczną inteligencję do rozpoznawania obiektów, która potrafiła spełnić te kryteria. Kiedy Raffi Khatchadourian z „The New Yorkera” zapytał go o tę sprawę, Poggio wycofał się ku bardziej filozoficznemu sceptycyzmowi, wyrażając wątpliwość, czy ta zdolność reprezentuje prawdziwą inteligencję. Zwracam na to uwagę nie jako krytykę Poggio, ale raczej jako obserwację tendencji, której wszyscy ulegamy. Chodzi o to, że zanim sztuczna inteligencja osiągnie jakiś cel, wydaje się on niezwykle skomplikowany i wyjątkowo ludzki. Jednak gdy tylko sztuczna inteligencja dotrze do tego miejsca, osiągnięcie to w naszych ludzkich oczach traci na znaczeniu. Innymi słowy, nasz prawdziwy postęp jest w rzeczywistości bardziej znaczący, niż wydaje się z perspektywy czasu. To jeden z powodów, dla których podchodzę optymistycznie do moich prognoz na 2029 rok.
Dlaczego więc te nagłe przełomowe dokonania miały miejsce? Odpowiedź leży w teoretycznym problemie sięgającym początków tej dziedziny. W 1964 roku, będąc w liceum, spotkałem dwóch pionierów sztucznej inteligencji: Marvina Minsky’ego (1927–2016), który był współorganizatorem warsztatów na temat sztucznej inteligencji w Dartmouth College, oraz Franka Rosenblatta (1928–1971). W 1965 roku zapisałem się na MIT i rozpocząłem studia u Minsky’ego, który prowadził fundamentalne prace leżące u podstaw spektakularnych kamieni milowych w dziedzinie sztucznej inteligencji, jakie dziś obserwujemy. Minsky nauczył mnie, że istnieją dwie techniki tworzenia zautomatyzowanych rozwiązań problemów: podejście symboliczne i koneksjonistyczne.
Podejście symboliczne opisuje w kategoriach opartych na regułach, w jaki sposób ekspert ludzki rozwiązałby dany problem. W niektórych przypadkach systemy oparte na tym schemacie mogą być skuteczne. Na przykład w 1959 roku firma RAND Corporation wprowadziła „General Problem Solver” (GPS) – program komputerowy, który potrafił łączyć proste aksjomaty matematyczne w celu rozwiązywania problemów logicznych20. Herbert A. Simon, J.C. Shaw i Allen Newell opracowali General Problem Solver z myślą o tym, aby posiadał teoretyczną zdolność rozwiązywania dowolnego problemu, który można wyrazić w postaci zestawu dobrze zdefiniowanych wzorów (WFF, ang. well-formed formulas). Aby GPS działał, musiałby używać jednego WFF (w zasadzie jako aksjomatu) na każdym etapie procesu, metodycznie budując je w matematyczny dowód odpowiedzi.
Nawet jeśli nie macie doświadczenia z logiką formalną lub matematyką opartą na dowodach, koncepcja ta jest w zasadzie taka sama jak w algebrze. Jeśli wiemy, że 2 + 7 = 9 i że nieznana liczba x dodana do 7 daje 10, możemy udowodnić, że x = 3. Jednak tego rodzaju logika ma znacznie szersze zastosowania niż tylko rozwiązywanie równań. Używamy jej także (nawet o tym nie myśląc), gdy zadajemy sobie pytanie, czy coś spełnia określoną definicję. Jeśli wiemy, że liczba pierwsza nie może mieć żadnych dzielników innych niż 1 i ona sama oraz że 11 jest dzielnikiem 22, a 1 nie jest równe 11, możemy wywnioskować, że 22 nie jest liczbą pierwszą. Zaczynając od możliwie najbardziej podstawowych i fundamentalnych aksjomatów, GPS mógł wykonywać tego rodzaju obliczenia w przypadku znacznie trudniejszych pytań. Ostatecznie to właśnie robią matematycy z krwi i kości – różnica polega na tym, że maszyna może (przynajmniej w teorii) przeszukać każdy możliwy sposób łączenia podstawowych aksjomatów w poszukiwaniu prawdy.
Celem ilustracji, jeśli na każdym etapie dostępnych byłoby dziesięć takich aksjomatów do wyboru, a do osiągnięcia rozwiązania potrzebnych byłoby na przykład dwadzieścia aksjomatów, oznaczałoby to, że istnieje 10²⁰, czyli 100 miliardów miliardów możliwych rozwiązań. Za pomocą nowoczesnych komputerów możemy dziś sobie poradzić z tak dużymi liczbami, ale leżało to zdecydowanie poza zasięgiem prędkości obliczeniowych w 1959 roku. Wtedy komputer DEC PDP-1 potrafił wykonywać około 100 tysięcy operacji na sekundę21. W 2023 roku wirtualna maszyna Google Cloud A3 mogła wykonać około 26 000 000 000 000 000 000 operacji na sekundę22. Za jednego dolara można obecnie kupić około 1,6 biliona razy więcej mocy obliczeniowej niż wtedy, gdy opracowano GPS23. Problemy, które w przypadku technologii z 1959 roku zajęłyby dziesiątki tysięcy lat, obecnie trwają tylko kilka minut na sprzęcie komputerowym dostępnym w sprzedaży detalicznej. Aby zrekompensować swoje ograniczenia, GPS miał zaprogramowane heurystyki, które próbowały ustalić priorytet możliwych rozwiązań. Heurystyki przynosiły rezultaty przez pewien czas, a ich sukcesy potwierdziły pogląd, że skomputeryzowane rozwiązanie ostatecznie może rozwiązać każdy ściśle zdefiniowany problem.
Innym przykładem był system o nazwie MYCIN, który został opracowany w latach siedemdziesiątych XX wieku do diagnozowania i zalecania leczenia chorób zakaźnych. W 1979 roku zespół ekspertów porównał jego działanie z wynikami lekarzy i stwierdził, że MYCIN radził sobie równie dobrze lub nawet lepiej niż którykolwiek z medyków24.
Typowa „reguła” MYCIN wygląda w następujący sposób:
JEŚLI: 1) Infekcją wymagającą leczenia jest zapalenie opon mózgowo-rdzeniowych, i
2) Rodzaj infekcji jest grzybiczy, i
3) Organizmów nie zaobserwowano w barwieniu hodowli, i
4) Pacjent nie jest gospodarzem zagrożonym, i
5) Pacjent przebywał w rejonie endemicznym dla kokcydioidomykozy, i
6) Pacjent należy do jednej z ras: [C]zarny [A]zjata [H]indus, i
7) Antygen kryptokokowy w płynie mózgowo-rdzeniowym nie dał wyniku pozytywnego,
TO: Istnieją sugestywne dowody (50%), że kryptokoki nie są jednym z organizmów (poza widocznymi w posiewach lub wymazach), które mogą powodować infekcję25.
Pod koniec lat osiemdziesiątych XX wieku te „systemy eksperckie” wykorzystywały modele probabilistyczne i mogły łączyć wiele źródeł dowodów w celu podjęcia decyzji26. Choć pojedyncza reguła „jeśli–to” sama w sobie nie byłaby wystarczająca, przez połączenie wielu tysięcy takich reguł całościowy system mógł podejmować wiarygodne decyzje dotyczące ograniczonego problemu.
Mimo że podejście symboliczne jest stosowane od ponad pół wieku, jego głównym ograniczeniem jest „pułap złożoności”27. Gdy MYCIN i inne tego rodzaju systemy popełniały błąd, poprawienie go potrafiło rozwiązać ten konkretny problem, ale to z kolei mogło spowodować pojawienie się trzech innych błędów, które dałyby o sobie znać w innych sytuacjach. Wydawało się, że istnieje granica złożoności, która znacząco zawężała zakres rzeczywistych problemów możliwych do rozwiązania.
Jednym ze sposobów patrzenia na złożoność systemów opartych na regułach jest traktowanie ich jako zestawu możliwych punktów awarii. Matematycznie rzecz biorąc, zbiór n elementów ma 2ⁿ–1 podzbiorów (nie licząc zbioru pustego). Zatem jeśli sztuczna inteligencja używa zbioru reguł zawierającego tylko jedną regułę, istnieje tylko jeden punkt awarii: czy ta reguła działa poprawnie samodzielnie, czy nie? Jeśli wykorzystuje się dwie reguły, istnieją trzy punkty awarii: każda reguła z osobna oraz sytuacje, w których te dwie reguły nie działają jednocześnie. To rośnie wykładniczo. Pięć reguł oznacza 31 potencjalnych punktów awarii, 10 reguł daje 1023 takie punkty, 100 reguł prowadzi do więcej niż tysiąca miliardów miliardów miliardów, a 1000 reguł oznacza ponad googol googoli googoli28! Zatem im więcej reguł już mamy, tym bardziej każda nowa reguła zwiększa liczbę możliwych podzbiorów. Nawet jeśli tylko bardzo niewielki ułamek możliwych kombinacji reguł wprowadza nowy problem, przychodzi taki moment (który różni się w zależności od sytuacji), w którym dodanie jednej nowej reguły w celu rozwiązania problemu prawdopodobnie spowoduje pojawienie się więcej niż jednego dodatkowego problemu. To jest właśnie pułap złożoności.
Prawdopodobnie najdłużej trwającym projektem systemu eksperckiego jest Cyc (nazwa pochodzi od angielskiego słowa „encyclopedic”, czyli encyklopedyczny), stworzony przez Douglasa Lenata i jego współpracowników z Cycorp29. Zainicjowany w 1984 roku projekt Cyc ma na celu zakodowanie całej „zdroworozsądkowej wiedzy” – powszechnie znanych faktów, takich jak „Upuszczone jajko się rozbije” czy „Dziecko biegnące przez kuchnię w zabłoconych butach rozsierdzi swoich rodziców”. Te miliony drobnych idei nie są jawnie spisane w jednym miejscu. Są to niewypowiedziane założenia leżące u podstaw ludzkiego zachowania i rozumowania, niezbędne do zrozumienia wiedzy przeciętnej osoby w różnych dziedzinach. Ponieważ jednak system Cyc reprezentuje również tę wiedzę za pomocą reguł symbolicznych, on również musi stawić czoła pułapowi złożoności.
W latach sześćdziesiątych, gdy Minsky doradzał mi w sprawie zalet i wad podejścia symbolicznego, zacząłem dostrzegać dodatkowe korzyści podejścia koneksjonistycznego. Obejmuje ono sieci węzłów, które tworzą inteligencję dzięki swej strukturze, a nie poprzez swoją zawartość. Zamiast korzystać z inteligentnych reguł, używają prostych węzłów ułożonych w sposób umożliwiający wydobycie informacji z samych danych. W rezultacie mają one potencjał do odkrywania subtelnych wzorców, które nigdy nie przyszłyby do głowy programistom próbującym opracować reguły symboliczne. Jedną z kluczowych zalet podejścia koneksjonistycznego jest to, że pozwala ono rozwiązywać problemy bez ich zrozumienia. Nawet gdybyśmy mieli doskonałą zdolność do formułowania i wdrażania bezbłędnych reguł rozstrzygania problemów za pomocą symbolicznej sztucznej inteligencji (czego niestety nie posiadamy), bylibyśmy ograniczeni naszym niedoskonałym zrozumieniem tego, które reguły byłyby w pierwszej kolejności optymalne.
Jest to skuteczny sposób rozwiązywania złożonych problemów, ale ma swoją ciemną stronę. Koneksjonistyczna sztuczna inteligencja ma skłonność do stawania się „czarną skrzynką” – zdolną do podania poprawnej odpowiedzi, ale niepotrafiącą wyjaśnić, w jaki sposób ją znalazła30. Może to stać się poważnym problemem, ponieważ ludzie będą chcieli poznać uzasadnienie stojące za decyzjami o istotnym znaczeniu, takimi jak leczenie, egzekwowanie prawa, epidemiologia czy zarządzanie ryzykiem. Właśnie dlatego wielu ekspertów w dziedzinie sztucznej inteligencji pracuje obecnie nad opracowaniem lepszych form „przejrzystości” (lub „możliwości interpretacji mechanicznej”) przy decyzjach opartych na uczeniu maszynowym31. Czas pokaże, jak skuteczna będzie przejrzystość, w miarę jak uczenie głębokie stanie się bardziej złożone i potężniejsze.
Kiedy jednak zaczynałem zajmować się koneksjonizmem, systemy były znacznie prostsze. Podstawową ideą było stworzenie skomputeryzowanego modelu inspirowanego działaniem ludzkich sieci neuronowych. Początkowo było to bardzo abstrakcyjne zadanie, ponieważ metodę tę opracowano, zanim uzyskaliśmy szczegółowe zrozumienie rzeczywistej organizacji biologicznych sieci neuronowych.
SCHEMAT PROSTEJ SIECI NEURONOWEJ
Oto podstawowy schemat algorytmu sieci neuronowej. Możliwych jest wiele wariantów, a projektant systemu musi zapewnić pewne kluczowe parametry i metody (opisane szczegółowo poniżej). Tworzenie rozwiązania problemu za pomocą sieci neuronowej obejmuje następujące kroki:
Określ dane wejściowe.
Określ topologię sieci neuronowej (czyli warstwy neuronów i połączenia między neuronami).
Przeprowadź proces uczenia sieci neuronowej na dostępnych przykładach danego problemu.
Uruchom wytrenowaną sieć neuronową, aby rozwiązywała nowe przykłady problemu.
Wprowadź swoją firmę zajmującą się sieciami neuronowymi na giełdę.
Te wszystkie kroki (z wyjątkiem ostatniego) są szczegółowo opisane poniżej:
DANE WEJŚCIOWE PROBLEMU
Dane wejściowe do sieci neuronowej składają się z szeregu liczb. Dane te mogą znajdować się:
w systemie rozpoznawania wzorców wizualnych – dwuwymiarowa tablica liczb reprezentujących piksele obrazu; lub
w systemie rozpoznawania dźwięku (np. mowy) – dwuwymiarowa tablica liczb reprezentujących dźwięk, gdzie pierwszy wymiar odpowiada parametrom dźwięku (np. składowym częstotliwościowym), a drugi wymiar oznacza różne punkty w czasie; lub
w dowolnym systemie rozpoznawania wzorców – n-wymiarowa tablica liczb reprezentujących wzorzec wejściowy.
OKREŚLENIE TOPOLOGII
Aby skonfigurować sieć neuronową, architektura każdego neuronu składa się z:
wielu wejść, z których każde jest „połączone” z wyjściem innego neuronu lub jedną z liczb wejściowych; oraz
zazwyczaj pojedynczego wyjścia, które jest połączone z wejściem innego neuronu (zwykle znajdującego się w wyższej warstwie) lub z wyjściem końcowym.
UTWORZENIE PIERWSZEJ WARSTWY NEURONÓW
Utwórz N0 neuronów w pierwszej warstwie. Dla każdego z tych neuronów „połącz” każde z wielu wejść neuronu z „punktami” (czyli liczbami) w danych wejściowych problemu. Połączenia te można określić losowo lub za pomocą algorytmu ewolucyjnego (patrz poniżej).
Przypisz początkową „siłę synaptyczną” do każdego utworzonego połączenia. Wagi te mogą początkowo być takie same, mogą być przypisane losowo lub mogą być określone w inny sposób (patrz poniżej).
UTWORZENIE DODATKOWYCH WARSTW NEURONÓW
Utwórz łącznie M warstw neuronów. Dla każdej warstwy skonfiguruj neurony w tej warstwie. Dla warstwy i:
Utwórz Ni neuronów w warstwiei. Dla każdego z tych neuronów „połącz” każde z wielu wejść neuronu z wyjściami neuronów w warstwiei–1 (patrz warianty poniżej).
Przypisz początkową „siłę synaptyczną” do każdego utworzonego połączenia. Wagi te mogą początkowo być takie same, mogą być przypisane losowo lub mogą być określone w inny sposób (patrz poniżej).
Wyjścia neuronów w warstwieM są wyjściami sieci neuronowej (patrz warianty poniżej).
PRÓBY ROZPOZNAWANIA
DZIAŁANIE KAŻDEGO NEURONU
Po skonfigurowaniu neuron wykonuje następujące czynności w przypadku każdej próby rozpoznawania:
Każdy ważony sygnał wejściowy docierający do neuronu jest obliczany przez pomnożenie sygnału wyjściowego innego neuronu (lub początkowego sygnału wejściowego), z którym połączone jest wejście tego neuronu, przez siłę synaptyczną tego połączenia.
Wszystkie ważone sygnały wejściowe docierające do neuronu są sumowane.
Jeśli suma ta jest większa niż próg wyzwalania tego neuronu, wówczas neuron uznaje się za aktywny i jego sygnał wyjściowy wynosi 1. W przeciwnym razie jego sygnał wyjściowy wynosi 0 (patrz warianty poniżej).
DLA KAŻDEJ PRÓBY ROZPOZNAWANIA WYKONAJ NASTĘPUJĄCE CZYNNOŚCI
Dla każdej warstwy, od warstwy0 do warstwyM, oraz dla każdego neuronu w tej warstwie:
Zsumuj ważone sygnały wejściowe. (Każdy ważony sygnał wejściowy = sygnał wyjściowy innego neuronu [lub początkowy sygnał wejściowy], z którym wejście danego neuronu jest połączone, pomnożone przez siłę synaptyczną tego połączenia).
Jeśli suma ważonych sygnałów wejściowych jest większa niż próg wyzwalania danego neuronu, ustaw sygnał wyjściowy tego neuronu na 1, w przeciwnym razie ustaw go na 0.
UCZENIE SIECI NEURONOWEJ
Przeprowadź wielokrotne próby rozpoznawania przykładowych problemów.
Po każdej próbie dostosuj siłę synaptyczną wszystkich połączeń międzyneuronowych, aby poprawić wydajność sieci neuronowej w tej próbie (zobacz dyskusję poniżej na temat sposobu wykonania tego procesu).
Kontynuuj uczenie, dopóki wskaźnik dokładności sieci neuronowej przestanie się poprawiać (to znaczy osiągnie asymptotę).
KLUCZOWE DECYZJE PROJEKTOWE
W prostym schemacie przedstawionym powyżej projektant algorytmu sieci neuronowej musi na początku określić:
Co reprezentują liczby wejściowe.
Liczbę warstw neuronów.
Liczbę neuronów w każdej warstwie. (Każda warstwa niekoniecznie musi mieć tę samą liczbę neuronów).
Liczbę wejść dla każdego neuronu w każdej warstwie. Liczba wejść (czyli połączeń międzyneuronowych) może się różnić między neuronami i warstwami.
Faktyczne „okablowanie” (czyli połączenia). Dla każdego neuronu w każdej warstwie składa się ono z listy innych neuronów, których wyjścia stanowią wejścia do tego neuronu. Stanowi to kluczowy obszar projektowy. Można to zrobić na kilka sposobów:
(i) Połączyć losowo sieć neuronową; lub
(ii) Użyć algorytmu ewolucyjnego (patrz poniżej), aby określić optymalny wariant okablowania; lub
(iii) Użyć najlepszej oceny projektanta systemu przy wyznaczaniu sposobu okablowania.
Początkowe siły synaptyczne (czyli wagi) każdego połączenia. Można tego dokonać na kilka sposobów: (i) Ustawić siły synaptyczne na tę samą wartość; lub
(ii) Ustawić siły synaptyczne na różne losowe wartości; lub
(iii) Użyć algorytmu ewolucyjnego, aby określić optymalny zestaw wartości początkowych; lub
(iv) Zastosować najlepszą ocenę projektanta systemu w celu określenia wartości początkowych.
Próg wyzwalania każdego neuronu.
Sygnał wyjściowy, który może być:
(i) sygnałami wyjściowymi warstwyM neuronów; lub
(ii) sygnałem wyjściowym pojedynczego neuronu wyjściowego, którego sygnały wejściowe są sygnałami wyjściowymi neuronów w warstwieM; lub
(iii) funkcją (na przykład sumą) sygnałów wyjściowych neuronów w warstwieM; lub
(iv) inną funkcją sygnałów wyjściowych neuronów w wielu warstwach.
Siły synaptyczne wszystkich połączeń, które należy dostosować podczas uczenia tej sieci neuronowej. Jest to kluczowa decyzja projektowa i stanowi przedmiot wielu badań i dyskusji. Można to zrobić na kilka sposobów:
(i) Dla każdej próby rozpoznawania zwiększ lub zmniejsz każdą siłę synaptyczną o (zazwyczaj małą) stałą wartość, tak aby sygnał wyjściowy sieci neuronowej bardziej odpowiadał prawidłowej odpowiedzi. Jednym ze sposobów realizacji tego zadania jest wypróbowanie zarówno zwiększania, jak i zmniejszania i sprawdzenie, które z nich daje bardziej pożądany efekt. Może to być czasochłonne, dlatego istnieją inne metody podejmowania lokalnych decyzji o zwiększeniu lub zmniejszeniu każdej siły synaptycznej.
(ii) Istnieją inne metody statystyczne umożliwiające modyfikowanie siły synaptycznej po każdej próbie rozpoznawania, tak aby działanie sieci neuronowej w tej próbie bardziej odpowiadało prawidłowej odpowiedzi.
(iii) Należy pamiętać, że uczenie sieci neuronowych będzie mieć miejsce, nawet jeśli nie wszystkie odpowiedzi w próbach uczących będą poprawne. Pozwala to na wykorzystanie rzeczywistych danych szkoleniowych, które mogą mieć nieodłączny poziom błędów. Kluczem do sukcesu systemu rozpoznawania opartego na sieci neuronowej jest ilość danych wykorzystywanych do uczenia. Zwykle do uzyskania zadowalających rezultatów potrzeba bardzo dużego zbioru danych. Podobnie jak w przypadku ludzkich uczniów, ilość czasu, jaką sieć neuronowa poświęca na trening, jest kluczowym czynnikiem wpływającym na jej działanie.
WARIANTY
Możliwych jest wiele wariantów powyższego schematu:
Istnieją różne sposoby określania topologii. W szczególności połączenia międzyneuronowe można ustawić losowo lub przy użyciu algorytmu ewolucyjnego, który naśladuje wpływ mutacji i doboru naturalnego na projekt sieci.
Istnieją różne sposoby ustalania początkowych sił synaptycznych.
Sygnały wejściowe do neuronów w warstwiei niekoniecznie muszą pochodzić z sygnałów wyjściowych neuronów w warstwiei−1. Sygnały wejściowe do neuronów w każdej warstwie mogą również pochodzić z dowolnej niższej lub wyższej warstwy.
Istnieją różne sposoby określania końcowego sygnału wyjściowego.
Metoda opisana powyżej skutkuje wyzwalaniem typu „wszystko albo nic” (1 lub 0), zwanym nieliniowością. Można zastosować inne funkcje nieliniowe. Zwykle używana jest funkcja, która przechodzi od 0 do 1 w szybki, ale nieco bardziej stopniowy sposób. Również wyjścia mogą mieć wartości inne niż 0 i 1.
Różne metody dostosowywania sił synaptycznych podczas uczenia stanowią kluczowe decyzje projektowe.
Powyższy schemat opisuje „synchroniczną” sieć neuronową, w której każda próba rozpoznawania odbywa się przez obliczenie sygnałów wyjściowych każdej warstwy, począwszy od warstwy0 do warstwyM. W prawdziwym systemie równoległym, w którym każdy neuron działa niezależnie od innych, neurony mogą działać „asynchronicznie” (czyli niezależnie). W podejściu asynchronicznym każdy neuron stale dokonuje analizy swoich sygnałów wejściowych i ulega wyzwoleniu, gdy suma jego ważonych sygnałów wejściowych przekracza próg (lub cokolwiek innego, co określa jego funkcja wyjściowa).
Celem jest następnie znalezienie rzeczywistych przykładów, na podstawie których system może nauczyć się rozwiązywać dany problem. Typowym punktem wyjścia jest losowe ustawienie połączeń neuronowych i wag synaptycznych, tak aby odpowiedzi generowane przez tę nieprzeszkoloną sieć neuronową również były losowe. Kluczową funkcją sieci neuronowej jest to, że musi ona uczyć się swojego przedmiotu, podobnie jak mózgi ssaków, na których jest (przynajmniej w przybliżeniu) wzorowana. Sieć neuronowa zaczyna od niewiedzy, ale jest zaprogramowana tak, aby maksymalizować funkcję „nagrody”. Następnie jest ona karmiona danymi uczącymi (na przykład zdjęciami zawierającymi i niezawierającymi psy rasy corgi, oznaczonymi wcześniej przez ludzi). Gdy sieć neuronowa generuje prawidłowy sygnał wyjściowy (na przykład poprawnie określi, że na zdjęciu jest corgi), otrzymuje informację zwrotną o nagrodzie. Tę informację zwrotną można następnie wykorzystać do dostosowania siły każdego połączenia międzyneuronalnego. Połączenia zgodne z poprawną odpowiedzią zostają wzmocnione, podczas gdy te, które dają błędną odpowiedź, są osłabiane.
Z biegiem czasu sieć neuronowa organizuje się w taki sposób, aby móc udzielać poprawnych odpowiedzi bez dodatkowego szkolenia. Eksperymenty wykazały, że sieci neuronowe potrafią nauczyć się swojego przedmiotu nawet przy nierzetelnych nauczycielach. Jeśli dane uczące są poprawnie oznaczone tylko w 60 procentach przypadków, sieć neuronowa może nadal uczyć się z dokładnością znacznie przekraczającą 90 procent. W pewnych warunkach można skutecznie używać nawet mniejszego odsetka poprawnych oznaczeń32.
Nie jest wcale czymś intuicyjnie oczywistym, że nauczyciel może wyszkolić ucznia tak, aby przekraczał jego własne umiejętności, podobnie jak może być zaskakujące, że nierzetelne dane uczące mogą prowadzić do doskonałych wyników. Krótka odpowiedź jest taka, że błędy mogą się wzajemnie znosić. Załóżmy, że uczymy sieć neuronową rozpoznawania cyfry 8 na podstawie odręcznie zapisanych próbek cyfr od 0 do 9. I przyjmijmy też, że jedna trzecia oznaczeń jest niedokładna – losowa mieszanka cyfr 8 oznaczonych jako 4, cyfr 5 oznaczonych jako 8 i tak dalej. Jeśli zbiór danych jest wystarczająco duży, niedokładności te będą się wzajemnie kompensować i nie wypaczą zbytnio procesu uczenia w żadnym konkretnym kierunku. Pozwala to zachować większość przydatnych informacji w zbiorze danych na temat wyglądu ósemek i nadal uczyć sieć neuronową na wysokim poziomie.
Pomimo tych zalet wczesne systemy koneksjonistyczne miały pewne fundamentalne ograniczenie. Jednowarstwowe sieci neuronowe były matematycznie niezdolne do rozwiązywania niektórych rodzajów problemów33. Kiedy odwiedziłem profesora Franka Rosenblatta na Uniwersytecie Cornella w 1964 roku, pokazał mi jednowarstwową sieć neuronową zwaną Perceptronem, która potrafiła rozpoznawać drukowane litery. Próbowałem prostych modyfikacji sygnałów wejściowych. System całkiem nieźle radził sobie z automatycznym kojarzeniem (to znaczy potrafił rozpoznać litery, nawet jeśli zakryłem ich części), ale gorzej dawał sobie radę z niezmienniczością (to znaczy nie potrafił rozpoznać liter po zmianach rozmiaru i czcionki).
W 1969 roku Minsky skrytykował wzrost zainteresowania tą dziedziną, mimo że w 1953 roku sam był autorem pionierskich prac nad sieciami neuronowymi. On i Seymour Papert, dwaj współzałożyciele Laboratorium Sztucznej Inteligencji MIT, napisali książkę zatytułowaną Perceptrons (Perceptrony), która formalnie wykazała, dlaczego perceptron z natury nie jest w stanie określić, czy wydrukowany obraz jest połączony, czy nie. Dwa obrazy na stronie 39 pochodzą z okładki tej książki. Górny obraz nie jest połączony (czarne linie nie tworzą pojedynczego ciągłego kształtu), podczas gdy dolny obraz jest połączony (czarne linie stanowią pojedynczą ciągłą figurę). Człowiek może to stwierdzić, podobnie jak prosty program komputerowy. Perceptron jednokierunkowy (w którym połączenia między węzłami nie tworzą żadnych pętli), taki jak perceptron Rosenblatta typu 1, nie potrafi tego określić.
Krótko mówiąc, powodem, dla którego perceptrony jednokierunkowe nie mogą rozwiązać tego problemu, jest fakt, że wymaga on zastosowania funkcji logicznej XOR (exclusive or), która określa, czy fragment linii jest częścią jednej ciągłej figury na obrazie, ale nie jest częścią innej. Jednak pojedyncza warstwa węzłów bez sprzężenia zwrotnego nie jest w stanie matematycznie zaimplementować funkcji XOR, ponieważ zasadniczo musi sklasyfikować wszystkie dane jednocześnie za pomocą reguły liniowej (na przykład „Jeśli oba te węzły ulegną wyzwoleniu, sygnał wyjściowy funkcji będzie prawdziwy”), a funkcja XOR wymaga kroku sprzężenia zwrotnego („Jeśli którykolwiek z tych węzłów ulegnie wyzwoleniu, ale nie oba jednocześnie, sygnał wyjściowy funkcji jest prawdziwy”).
Kiedy Minsky i Papert doszli do tego wniosku, skutecznie pozbawiło to dziedzinę koneksjonizmu większości finansowania i musiały minąć dekady, zanim ponownie się odrodziła. Ale tak naprawdę już w 1964 roku Rosenblatt wyjaśnił mi, że niezdolność Perceptronu do radzenia sobie z niezmienniczością wynikała z braku warstw. Gdyby sygnał wyjściowy z Perceptronu przekazać z powrotem do kolejnej warstwy identycznej z poprzednią, wynik byłby bardziej ogólny i przy powtarzających się iteracjach tego procesu w coraz większym stopniu byłby w stanie poradzić sobie z niezmiennoczością. Gdybyśmy mieli wystarczającą liczbę warstw i odpowiednią ilość danych uczących, moglibyśmy dać sobie radę z niesamowitym poziomem złożoności. Zapytałem go, czy faktycznie tego próbował, na co on odparł, że nie, ale stanowi to ważny punkt jego programu badawczego. To było niesamowite odkrycie, lecz Rosenblatt zmarł zaledwie siedem lat później, w 1971 roku, i nie miał szansy zweryfikować swojej hipotezy. Minęła kolejna dekada, zanim warstwy wielokrotne weszły do powszechnego użytku, a nawet wtedy sieci wielowarstwowe wymagały większej mocy obliczeniowej i danych uczących, niż było to możliwe do zastosowania w praktyce. Ogromny postęp w dziedzinie sztucznej inteligencji w ostatnich latach wynika z zastosowania wielu warstw neuronowych ponad pół wieku po rozważaniu tego pomysłu przez Rosenblatta.
Tak więc podejścia koneksjonistyczne do sztucznej inteligencji było w dużej mierze ignorowane aż do połowy drugiej dekady XXI wieku, kiedy postęp sprzętowy w końcu uwolnił ich ukryty potencjał. Wreszcie ceny stały się na tyle niskie, że można było zgromadzić wystarczającą moc obliczeniową i przykłady szkoleniowe, aby ta metoda mogła się doskonale sprawdzić. Między publikacją książki Perceptrons w 1969 roku a śmiercią Minsky’ego w 2016 roku obliczeniowa wydajność cenowa (po uwzględnieniu inflacji) wzrosła około 2,8 miliarda razy34. Zmieniło to krajobraz możliwych podejść do sztucznej inteligencji. Kiedy rozmawiałem z Minskym pod koniec jego życia, wyraził żal, że Perceptrons miało tak duży wpływ, ponieważ do tego czasu koneksjonizm odniósł już duży sukces w tej dziedzinie.
Koneksjonizm przypomina więc w pewnym stopniu wynalazki maszyn latających Leonarda da Vinci – były to prorocze wizje, ale niewykonalne, dopóki nie opracowano lżejszych i mocniejszych materiałów35. Kiedy sprzęt nadrobił zaległości, rozległe sieci koneksjonistyczne nawet o stu warstwach stały się wykonalne. W rezultacie takie systemy były w stanie rozstrzygnąć problemy, których nigdy wcześniej nie rozwiązywano. Jest to paradygmat będący motorem napędowym wszystkich najbardziej spektakularnych postępów ostatnich kilku lat.
MÓŻDŻEK: STRUKTURA MODUŁOWA
Aby zrozumieć sieci neuronowe w kontekście ludzkiej inteligencji, proponuję małą dygresję: wróćmy do początków wszechświata. Pierwotne dążenie materii w kierunku coraz większej organizacji postępowało bardzo powoli, bez mózgów, które mogłyby nim kierować. (Zobacz podrozdział „Niesamowite nieprawdopodobieństwo bytu” w rozdziale 3, dotyczący prawdopodobieństwa, że wszechświat w ogóle ma zdolność zapisu użytecznych informacji). Czas potrzebny do stworzenia nowego poziomu szczegółowości wynosił setki milionów, a nawet miliardy lat36.
W istocie minęły miliardy lat, zanim cząsteczka mogła zacząć tworzyć zakodowane instrukcje umożliwiające stworzenie żywej istoty. Istnieją pewne niepewności w kwestii obecnie dostępnych dowodów, ale większość naukowców sytuuje początek życia na Ziemi gdzieś pomiędzy 3,5 a 4 miliardami lat temu37. Szacuje się, że wiek wszechświata wynosi około 13,8 miliarda lat (a ściśle rzecz biorąc, tyle czasu minęło od Wielkiego Wybuchu), a Ziemia prawdopodobnie uformowała się około 4,5 miliarda lat temu38. Tak więc minęło około 10 miliardów lat między powstaniem pierwszych atomów a pojawieniem się pierwszych cząsteczek (na Ziemi) zdolnych do samoreplikacji. Część tego opóźnienia można wytłumaczyć przypadkiem – nie wiemy dokładnie, jak mało prawdopodobne było, aby cząsteczki przypadkowo zderzające się w „zupie pierwotnej” wczesnej Ziemi połączyły się w odpowiedni sposób. Być może życie mogło zacząć się nieco wcześniej, a może bardziej prawdopodobne było, że rozpocznie się dużo później. Ale zanim którykolwiek z tych warunków koniecznych stał się możliwy, musiały przeminąć całe cykle życia gwiazd, w których te ciała niebieskie przekształcały wodór w cięższe pierwiastki potrzebne do podtrzymania złożonego życia.
Według najlepszych szacunków naukowców między pojawieniem się pierwszego życia na Ziemi a pierwszym życiem wielokomórkowym upłynęło około 2,9 miliarda lat39. Minęło kolejne 500 milionów lat, zanim zwierzęta zaczęły zamieszkiwać ląd, i jeszcze kolejne 200 milionów lat, zanim pojawiły się pierwsze ssaki40. Koncentrując się na mózgu, czas pomiędzy pierwszym rozwojem prymitywnych sieci nerwowych a wyłonieniem się najwcześniejszego scentralizowanego, trójdzielnego mózgu wynosił nieco ponad 100 milionów lat41. Pierwsza podstawowa kora nowa pojawiła się dopiero po kolejnych 350–400 milionach lat, a ewolucja współczesnego ludzkiego mózgu trwała następne 200 milionów lat42.
Przez całą tę historię bardziej zaawansowane mózgi zapewniały wyraźną przewagę ewolucyjną. Kiedy zwierzęta rywalizowały o zasoby, często zwyciężały te mądrzejsze43. Inteligencja ewoluowała w znacznie krótszym czasie niż wcześniejsze etapy: proces ten trwał kilka milionów lat, co stanowi wyraźne przyspieszenie. Najbardziej znaczącą zmianą w mózgach prassaków był obszar zwany móżdżkiem. Mózg człowieka ma obecnie więcej neuronów w móżdżku niż w korze nowej, która odgrywa najistotniejszą rolę w funkcjach wyższego rzędu44. Móżdżek jest w stanie przechowywać i aktywować dużą liczbę instrukcji kontrolujących zadania motoryczne, takie jak podpisywanie się. (Te instrukcje są często nieformalnie nazywane „pamięcią mięśniową”. W rzeczywistości nie jest to zjawisko angażujące same mięśnie, lecz raczej móżdżek. Gdy jakaś czynność jest powtarzana wielokrotnie, mózg dostosowuje się, aby ułatwić jej wykonanie i uczynić ją bardziej podświadomą – przypomina to przejazd wielu pojazdów kołowych, które stopniowo tworzą koleiny na drodze)45.
Jednym ze sposobów złapania piłki lecącej w powietrzu jest rozwiązanie wszystkich równań różniczkowych, które opisują jej trajektorię, a także naszych własnych ruchów, i jednoczesna zmiana pozycji ciała w oparciu o te wyniki. Niestety, nie mamy w mózgu modułu do obliczania równań różniczkowych, więc zamiast tego rozwiązujemy prostszy problem: jak najskuteczniej umieścić rękawicę między piłką a ciałem. Móżdżek zakłada, że ręka i piłka powinny znajdować się w podobnych położeniach względem siebie przy każdym złapaniu, więc jeśli piłka opada zbyt szybko, a nasza ręka wydaje się poruszać zbyt wolno, to pokieruje naszą ręką w taki sposób, aby poruszała się szybciej i dopasowała się do znanej względnej pozycji.
Te proste działania móżdżku mające na celu odwzorowanie bodźców zmysłowych na ruchy mięśni odpowiadają matematycznej koncepcji „funkcji bazowych” i umożliwiają nam złapanie piłki bez rozwiązywania równań różniczkowych46. Za pomocą móżdżku możemy także przewidzieć, jakie byłyby nasze działania, nawet jeśli ich faktycznie nie podejmujemy. Móżdżek może nam podpowiedzieć, że możemy złapać piłkę, ale prawdopodobnie zderzymy się z innym graczem, więc może lepiej tego nie robić. Wszystko to dzieje się instynktownie.
Podobnie gdy tańczymy, móżdżek często kieruje naszymi ruchami bez angażowania świadomej uwagi. Osoby, którym na skutek urazu lub choroby brakuje w pełni funkcjonalnego móżdżku, nadal mogą wykonywać spontaniczne działania za pośrednictwem kory nowej, ale wymaga to skoncentrowanego wysiłku i mogą cierpieć na problemy z koordynacją, znane jako ataksja47.
Kluczowym elementem doskonalenia umiejętności fizycznych jest wykonywanie składających się na nie czynności z taką częstotliwością, aby utrwalić je w pamięci mięśniowej. Ruchy, które kiedyś wymagały świadomego myślenia i skupienia, zaczynają wydawać się automatyczne. Zasadniczo oznacza to przesunięcie kontroli z kory ruchowej do móżdżku. Niezależnie od tego, czy rzucamy piłkę, układamy kostkę Rubika, czy gramy na pianinie, im mniej świadomego wysiłku umysłowego musimy skierować na wykonanie zadania, tym prawdopodobnie lepiej będziemy je wykonywać. Nasze działania będą szybsze i płynniejsze, a my będziemy mogli poświęcić uwagę innym aspektom sukcesu. Kiedy muzycy opanują grę na instrumencie, będą mogli wydobyć dany dźwięk równie łatwo i intuicyjnie, jak zwykli ludzie za pomocą głosu, śpiewając „Sto lat”. Gdybym zapytał was, jak sprawiacie, że wasze struny głosowe wydają właściwy dźwięk zamiast niewłaściwego, prawdopodobnie nie bylibyście w stanie opisać tego procesu słowami. Psychologowie i trenerzy nazywają to „nieświadomą kompetencją”, ponieważ ta umiejętność funkcjonuje w dużej mierze na poziomie poniżej naszej świadomej uwagi48.
Jednak zdolności móżdżku nie wynikają z jakiejś niezwykle złożonej architektury. Mimo że zawiera on większość neuronów w mózgu dorosłego człowieka (lub innego gatunku), to w genomie nie ma zbyt wielu informacji o jego ogólnym wzorcu – składa się on głównie z małych i prostych modułów49. Chociaż neuronauka nadal stara się zrozumieć szczegóły funkcjonowania móżdżku, wiemy, że jest on zbudowany z tysięcy małych modułów przetwarzających ułożonych w jednokierunkową strukturę50. Pomaga to w kształtowaniu naszego zrozumienia, jakie architektury neuronowe są potrzebne do realizacji funkcji móżdżku, a nowe odkrycia dotyczące tej struktury mogą zatem dostarczyć dalszych spostrzeżeń przydatnych w dziedzinie sztucznej inteligencji.
Większość modułów móżdżku ma wąsko określone funkcje – na przykład te, które kierują ruchami palców podczas gry na pianinie, nie mają zastosowania do ruchu nóg podczas chodzenia. Mimo że móżdżek był kluczowym obszarem mózgu przez setki milionów lat, ludzie w coraz mniejszym stopniu polegają na nim w kontekście przetrwania, ponieważ nasza bardziej elastyczna kora nowa przejęła wiodącą rolę w kierowaniu współczesnym społeczeństwem51.
Tymczasem zwierzęta inne niż ssaki nie posiadają zalet kory nowej. Natomiast ich móżdżki bardzo precyzyjnie zapisały kluczowe zachowania niezbędne do przetrwania. Te kierowane przez móżdżek zachowania zwierząt noszą nazwę utrwalonych wzorców zachowania. Są one na stałe wbudowane w przedstawicieli danego gatunku, w przeciwieństwie do zachowań nabytych poprzez obserwację i naśladownictwo. Nawet u ssaków pewne dość złożone zachowania są wrodzone. Na przykład myszaki leśne kopią krótkie nory, a myszaki plażowe dłuższe z tunelem ucieczkowym52. Gdy hodowane w laboratorium zwierzęta, które nie miały wcześniejszego doświadczenia z norami, umieszczono na piasku, każdy z nich kopał rodzaj nory charakterystyczny dla swojego gatunku na wolności.
W większości przypadków dane zachowanie kontrolowane przez móżdżek – jak zdolność żaby do precyzyjnego łapania muchy językiem – utrzymuje się w gatunku do czasu, aż populacja o ulepszonym zachowaniu nie wyprze go w drodze doboru naturalnego. Kiedy zachowania wynikają z genów, a nie z uczenia się, adaptacja jest o rząd wielkości wolniejsza. Podczas gdy nauka pozwala stworzeniom na znaczącą modyfikację zachowania w ciągu trwania ich życia, zachowania wrodzone ograniczają się do stopniowych zmian na przestrzeni wielu pokoleń. Jednak, co ciekawe, obecnie informatycy używają czasem podejścia „ewolucyjnego”, które odzwierciedlają zachowania uwarunkowane genetycznie53. Polega to na tworzeniu zestawu programów z pewnymi losowymi cechami i sprawdzaniu, jak dobrze radzą sobie z określonym zadaniem. Te, które osiągają dobre wyniki, mogą połączyć swoje cechy, podobnie jak w przypadku genetycznego mieszania się podczas rozmnażania zwierząt. Następnie można wprowadzić losowe „mutacje”, aby sprawdzić, które z nich poprawiają wydajność. Na przestrzeni wielu pokoleń może to zoptymalizować rozwiązywanie problemów w sposób, o jakim ludzcy programiści nigdy by nie pomyśleli.