ChatGPT與圖靈測試

ChatGPT已成功通過圖靈測試,7月25日,《Nature》雜誌在一篇文章中宣布(bù),這標誌著人工智能評估領域即將迎來(lái)新的變革。自2022年底OpenAI推出ChatGPT以來,人工(gōng)智能技術便在全(quán)球範圍內掀(xiān)起了一場革命性的風潮。這場風潮的強勁勢頭(tóu),一方麵源於ChatGPT在技術層麵的重(chóng)大突破,另一方麵則得益於其在應(yīng)用端為普通人所帶來的(de)直觀體驗。正因如此,蜜桃成人网站人口與埃隆·馬(mǎ)斯克產生了相同(tóng)的感慨:ChatGPT的強大能力,令人驚歎。

◉ 圖靈測試的曆史背景

圖(tú)靈測試(shì)作為衡(héng)量AI智能的標準在ChatGPT出現前倍受關注。圖(tú)靈測試,這個在1950年被提出的概念,逐漸成為了衡量AI智能程度的(de)重要標準,甚至被視為唯一標(biāo)準,吸引了眾多追隨者。然而,隨著人工智能領域的不斷發(fā)展,尤其是對話機器人技術的突飛猛進(jìn),圖靈測試的局限性也逐(zhú)漸顯現。每當人工智能(néng)領域取得新的進展時,都會麵(miàn)臨圖靈(líng)測試的嚴峻挑戰,甚至在某些情況下,新(xīn)的技術進展反而因為無法通過圖(tú)靈測試而黯然失色。這使得“圖靈測試”在一定程度(dù)上成為了一個神話,甚至被視(shì)為束縛AI發(fā)展的魔(mó)咒。

◉ ChatGPT引(yǐn)領的變革

ChatGPT通過圖靈(líng)測試標誌(zhì)AI新時代的到來。然而,智能的(de)定義並非一成不變。在ChatGPT引領的新時代下,蜜桃成人网站人口(men)有(yǒu)必要重新審視智能的概念。盡管圖靈測試在曆史上(shàng)曾發揮(huī)過(guò)重要作用,但如今它已經無法適應人工(gōng)智能(néng)領域的發展需求。因此,蜜桃成人网站人口需要尋找新的評估標準和(hé)方法來(lái)更全麵地衡量AI的(de)智能水平。


GPT-4的突破與評估

2023年3月14日,GPT-4驚豔亮相,這款具備多模(mó)態能力的新一代AI模型,在發布後便引起了廣(guǎng)泛關注。GPT-4不僅在多項人類專業測試中表現出色,甚至通過了律師考試。

◉ GPT-4的能力展示

GPT-4展現卓越的多領域能力。據(jù)報道,GPT-4不僅在多項人類專業測試中表現出色(sè),甚至通過了律師考試(shì),更令人矚目的是,它還成功通過了一些經典心理學測驗,展現出了相(xiàng)當於9歲兒童的心智(zhì)水平。這一係列的成就,使得人們開始期待:ChatGPT何(hé)時(shí)能迎來圖靈(líng)測試的突破?

◉ 基準測(cè)試的局限性

盡管GPT-4在考試中表現優(yōu)異,但這些測試未能(néng)反映其(qí)真實智能(néng)。值得注意的是,LLMs在考試題上(shàng)的成功可(kě)能並不穩固,可(kě)能無法(fǎ)轉化為(wéi)解決現實世界問題的強大能(néng)力。Mitchell表示,通過稍微修改考試題目,就有可能讓LLM不及格。她以工商管理碩士(shì)研究生的考試問題為例,稍作修改後(hòu),ChatGPT便無法正(zhèng)確回答。因此,能(néng)夠回答原始問題的人,同樣能夠應對重新措辭的問題。但ChatGPT卻未能通過這一(yī)挑戰。

對於人類來說,在這些標準(zhǔn)化考試中取得優異(yì)成績確實是(shì)一個可靠指標,表明其具備(bèi)一定的(de)通用智力。然而,對於大型語言模型(LLMs)而言,情況卻大相徑庭。米切爾指出,LLMs的(de)工作方式(shì)與人類截然不同,因此,我(wǒ)們對人(rén)類的推理方式的推斷並(bìng)不總(zǒng)是適用於這些人工(gōng)智能係統。