ChatGPT, superstar kecerdasan buatan, dihadapkan pada pertanyaan seiring kemajuannya: Apakah ia memenuhi standar uji Turing untuk menghasilkan keluaran yang tidak dapat dibedakan dari respons manusia? Penelitian terbaru menunjukkan bahwa ChatGPT, meskipun kinerjanya luar biasa, tampaknya belum sepenuhnya melampaui ambang batas tersebut.
Dua peneliti di Universitas California, San Diego, Cameron Jones, pakar bahasa, semantik, dan pembelajaran mesin, serta Benjamin Bergen, profesor ilmu kognitif, menanyakan pertanyaan ini dengan merujuk pada karya Turing 70 tahun lalu. Turing mengusulkan suatu proses untuk menentukan apakah suatu mesin dapat mencapai tingkat kecerdasan dan kemampuan percakapan yang cukup untuk membodohi orang lain dengan mengira bahwa mesin tersebut adalah manusia.
Laporan mereka berjudul "Apakah GPT-4 Lulus Uji Turing?" Itu dapat ditemukan di server pracetak arXiv. Untuk penelitian tersebut, mereka mengumpulkan 650 peserta untuk memainkan 1.400 “permainan” di mana peserta melakukan percakapan singkat dengan manusia lain atau model GPT dan diminta menentukan dengan siapa mereka berbicara.
Apa yang ditemukan para peneliti sungguh luar biasa. Model GPT-4 menipu peserta sebanyak 41 persen, sedangkan GPT-3.5 hanya menipu peserta sebanyak 5 hingga 14 persen. Menariknya, manusia hanya berhasil meyakinkan peserta bahwa mereka bukanlah mesin dalam 63 persen uji coba.
"Kami tidak menemukan bukti bahwa GPT-4 lolos uji Turing," para peneliti menyimpulkan. Namun, mereka mencatat bahwa Tes Turing masih memiliki nilai dalam menilai dampak percakapan mesin, sebagai kerangka kerja untuk mengukur kelancaran interaksi sosial dan penipuan, dan dalam memahami strategi manusia untuk beradaptasi dengan perangkat ini.
Namun, mereka juga memperingatkan bahwa dalam banyak kasus, chatbots masih dapat berkomunikasi dengan cara yang meyakinkan. “Tingkat keberhasilan sebesar 41 persen menunjukkan bahwa model AI mungkin sudah memiliki kemampuan untuk menipu, terutama dalam situasi di mana manusia kurang waspada terhadap kemungkinan bahwa mereka tidak sedang berbicara dengan manusia,” catat para peneliti. Model AI yang sangat mirip dengan manusia dapat mempunyai implikasi sosial dan ekonomi yang luas.”
Para peneliti mengamati bahwa peserta yang mengidentifikasi AI dengan manusia dengan benar berfokus pada beberapa faktor. Model yang terlalu formal atau terlalu informal menimbulkan kecurigaan. Jika ekspresi mereka terlalu bertele-tele atau terlalu ringkas, jika tata bahasa atau tanda baca mereka sangat baik atau “tidak meyakinkan” buruk, hal ini juga akan menjadi faktor kunci dalam menentukan apakah peserta berinteraksi dengan manusia atau mesin. Selain itu, peserta sensitif terhadap tanggapan yang terdengar terlalu umum.
Para peneliti berpendapat bahwa pelacakan model AI akan menjadi semakin penting karena model tersebut menjadi lebih cair dan menyerap lebih banyak keunikan yang mirip dengan manusia. “Mengidentifikasi faktor-faktor yang menyebabkan penipuan dan strategi untuk memitigasinya akan menjadi semakin penting,” kata mereka. Studi ini mengungkapkan bahwa bidang percakapan cerdas masih menghadapi tantangan, namun juga memberikan wawasan berguna tentang bagaimana model AI dapat ditingkatkan.
