Startup AI Perplexity dilaporkan terus mengambil data dari website yang sudah secara eksplisit melarang aktivitas AI scraping, menurut penyedia infrastruktur internet Cloudflare.
Cloudflare Bongkar Praktik Stealth Scraping Perplexity
Baru-baru ini, Cloudflare menerbitkan riset yang mengungkap bahwa startup AI Perplexity ternyata mengabaikan blokir dan menyembunyikan aktivitas crawling serta scraping mereka. Raksasa infrastruktur jaringan ini menuduh Perplexity menyamarkan identitasnya ketika mencoba melakukan scraping halaman web dalam upaya untuk mengelabui preferensi website tersebut.
Seperti yang kita tahu, produk-produk AI seperti yang ditawarkan Perplexity sangat bergantung pada konsumsi data dalam jumlah besar dari internet. Startup AI sudah lama melakukan scraping teks, gambar, dan video dari internet berkali-kali tanpa izin untuk membuat produk mereka berfungsi. Belakangan ini, website-website mulai melawan dengan menggunakan standar web file Robots.txt, yang memberitahu mesin pencari dan perusahaan AI halaman mana yang bisa diindeks dan mana yang tidak boleh – meski upaya ini menunjukkan hasil yang beragam.
Cara Perplexity Mengelabui Sistem Blokir
Menurut Cloudflare, Perplexity tampaknya dengan sengaja mengelabui blokir ini dengan mengubah “user agent” bot mereka. User agent adalah sinyal yang mengidentifikasi pengunjung website berdasarkan perangkat dan jenis versi mereka. Mereka juga mengubah autonomous system networks (ASN), yang pada dasarnya adalah nomor yang mengidentifikasi jaringan besar di internet.
“Aktivitas ini diamati di puluhan ribu domain dan jutaan permintaan per hari. Kami bisa melacak crawler ini menggunakan kombinasi machine learning dan sinyal jaringan,” tulis Cloudflare dalam postingan blog mereka.
Respons Perplexity: Menolak Tuduhan
Juru bicara Perplexity, Jesse Dwyer, menolak postingan blog Cloudflare dan menyebutnya sebagai “sales pitch” alias promosi penjualan. Dalam email ke TechCrunch, Dwyer menambahkan bahwa screenshot dalam postingan tersebut “menunjukkan bahwa tidak ada konten yang diakses.” Dalam email lanjutan, Dwyer bahkan mengklaim bot yang disebutkan dalam blog Cloudflare “bahkan bukan milik kami.”
Latar Belakang Investigasi Cloudflare
Cloudflare mengaku pertama kali memperhatikan perilaku ini setelah pelanggan mereka mengeluh bahwa Perplexity melakukan crawling dan scraping situs mereka, bahkan setelah mereka menambahkan aturan di file Robots dan secara khusus memblokir bot Perplexity yang dikenal. Cloudflare kemudian melakukan tes untuk memeriksa dan mengkonfirmasi bahwa Perplexity memang mengelabui blokir tersebut.
“Kami mengamati bahwa Perplexity tidak hanya menggunakan user-agent yang mereka deklarasikan, tetapi juga browser generik yang dimaksudkan untuk menyamar sebagai Google Chrome di macOS ketika crawler yang mereka deklarasikan diblokir,” menurut Cloudflare.
Perusahaan juga mengatakan telah menghapus bot Perplexity dari daftar terverifikasi mereka dan menambahkan teknik baru untuk memblokir mereka.
Cloudflare vs AI Crawlers: Perang Data Internet
Cloudflare baru-baru ini mengambil sikap publik melawan AI crawlers. Bulan lalu, Cloudflare mengumumkan peluncuran marketplace yang memungkinkan pemilik website dan penerbit mengenakan biaya kepada AI scraper yang mengunjungi situs mereka. CEO Cloudflare Matthew Prince membunyikan alarm pada saat itu, mengatakan AI sedang merusak model bisnis internet, terutama untuk para publisher. Tahun lalu, Cloudflare juga meluncurkan tool gratis untuk mencegah bot melakukan scraping website untuk melatih AI.
Ini Bukan Pertama Kalinya Perplexity Dituduh Scraping Ilegal
Tuduhan terhadap Perplexity untuk scraping tanpa otorisasi bukan yang pertama kali. Tahun lalu, outlet berita seperti Wired menuduh Perplexity melakukan plagiarisme konten mereka. Beberapa minggu kemudian, CEO Perplexity Aravind Srinivas tidak dapat langsung menjawab ketika diminta memberikan definisi perusahaan tentang plagiarisme selama wawancara dengan Devin Coldewey dari TechCrunch di konferensi Disrupt 2024.
Implikasi untuk Industri AI dan Web Scraping
Kasus ini menyoroti perdebatan yang sedang berlangsung tentang etika AI scraping, data training, dan hak website untuk mengontrol bagaimana konten mereka digunakan. Dengan semakin banyaknya perusahaan AI yang membutuhkan data training berkualitas tinggi, pertanyaan tentang consent, fair use, dan kompensasi untuk content creator menjadi semakin penting.
Kontroversi Perplexity ini menunjukkan tantangan yang dihadapi industri AI dalam menyeimbangkan kebutuhan akan data training dengan menghormati hak dan preferensi pemilik website. Sementara teknologi AI terus berkembang pesat, framework legal dan etis untuk mengatur penggunaan data online masih terus berkembang.