banner 728x250

Elon Musk: Data untuk Latih AI Hampir Habis

banner 120x600
banner 468x60

/AI).

“Kita sedang menghadapi situasi di mana data yang relevan untuk melatih AI tingkat lanjut hampir habis. Dalam beberapa kasus, kita sudah berada di sana,” kata Musk dalam perdebatan yang disiarkan langsung dengan Mark, Ketua Stagwell, di X pada Rabu malam.

banner 325x300

Ilya Sutskever, salah satu pendiri dan kepala ilmuwan OpenAI, juga pernah mengeluarkan pendapat serupa. Ia menyebut fenomena ini sebagai “peak data”, di mana ketersediaan dari data berkualitas untuk melatih AI telah menjangkau puncaknya.

(volanya AI), di mana teknologi kecerdasan buatan mengalami peningkatan yang signifikan dan penggunaan yang begitu luas di berbagai sektor.

Gejala ini ditandai dengan, salah satu contoh inovasi teknologi yang sangat signifikan. Bukti dari hal ini bisa dilihat dari negara OpenAI yang terus meningkatkan model GPT miliknya, Google dengan Gemini, Microsoft dengan Phi, Meta dengan Llama, X dengan AI Grok, sertasudah banyak lagi.

Setiap teknologi AI ini membutuhkan pelatihan dengan data yang luas, variatif, dan melimpah untuk memahami pola, menjawab pertanyaan, atau menghasilkan respons yang tepat dan akurat.

Namun, sebagian besar data yang dapat diakses dari internet dipercaya sudah digunakan, sehingga industri mulai menghadapi kesulitan untuk mendapatkan data baru yang relevan dan berkualitas.

Menurut Musk, salah satu solusi potensial adalah menciptakan data khusus untuk kebutuhan pelatihan AI. Namun, proses ini memerlukan waktu, biaya, dan teknologi tambahan.

Orang kaya nomor satu di dunia ini juga menyoroti tantangan etis yang muncul dalam upaya mengakses atau menciptakan data baru, seperti masalah privasi dan hak cipta.

Sutskever yang mempunyai pandangan yang sama dengan Musk, bahkan menekankan bahwa untuk mengatasi fenomena “peak data” ini, industri memerlukan pengembangan teknologi baru seperti algoritma yang efisien dan data sintetis. Ini demi melanjutkan kemajuan AI.

Masa depan AI di tangan data sintetis?

Data sintesis merujuk pada data yang dihasilkan oleh sistem komputer, biasanya menggunakan model AI, untuk menyerupai data riil.

Data ini ditujukan untuk mengatasi kesulitan dalam memperoleh data asli yang cukup atau berkualitas. Dengan menggunakan data sintetis, pengembang AI dapat menciptakanτέběsal/set yang luas dan beragam.

Perusahaan besar seperti Microsoft, Meta, OpenAI, dan Anthropic telah menggunakan data sintetik untuk melatih model AI andalan mereka.

Lembaga riset pasar Gartner memperkirakan bahwa pada tahun 2024, sekitar 60 persen data yang digunakan untuk proyek AI dan analitik berasal dari sumber sintetis.

Contoh penerapan data sintetis mencakup model Phi-4 dari Microsoft, yang dilatih menggunakan gabungan data sintetis dan data nyata. Kemudian ada AI Gemma dari Google yang juga memanfaatkan data serupa.

Anthropic menggunakan data sintetis untuk mengembangkan Claude 3.5 Sonnet, sedangkan Meta mengoptimalkan model Llama terbarunya dengan data yang dihasilkan AI.

Pelatihan Model Pintar dengan Data Sintetis memiliki sejumlah keuntungan, termasuk penghematan biaya.

Contohnya, startup AI Writer mengklaim model Palmyra X 004-nya, yang hampir seluruhnya dikembangkan menggunakan sumber sintetis, hanya menghabiskan biaya pengembangan sekitar 700 ribu dollar Amerika (sekitar 11,4 miliar rupiah).

Dengan perbandingan, diperkirakan model OpenAI dengan ukuran serupa (tetapi bukan dengan data sintetis) membutuhkan biaya pengembangan senilai 4,6 juta dollar AS, sekitar Rp 75 miliar.

Di sisi lain, data sintetis juga memiliki kelemahan. Penelitian menunjukkan bahwa penggunaan data sintetis dapat menyebabkan “keruntuhan model” alias model

Hal ini dapat merujuk pada situasi di mana performa model kecerdasan buatan menurun secara signifikan, terutama dalam hal kreativitas, umumnya dapat digeneralisasi, atau akurasi output.

Hal ini sering kali terjadi ketika model dilatih menggunakan data yang dihasilkan oleh AI itu sendiri (data sintetis) dalam jumlah besar, tanpa pengawasan atau tanpa adanya campuran dengan data nyata dunia yang memadai.

Yang paling buruknya, data sintetik sering kali mengulang pola dari data asli pelatihan, yang dapat menyebabkan model belajar informasi yang terlalu terbatas atau berbasis bias.

Jika data sintesis mengandung bias tertentu, model tersebut akan memperkuat bias tersebut karena tidak ada koreksi dari data dunia nyata.

Jika model menggunakan keluaran sendiri atau model lain sebagai data pelatihan, kualitas data dapat menurun seiring waktu, menyebabkan efek “salin-tempel” yang merusak kemampuan model untuk memahami atau menciptakan sesuatu yang baru.

Senin (13/1/2025).

banner 325x300

Leave a Reply

Your email address will not be published. Required fields are marked *