Named-entity Recognition (NER) menurut wikipedia adalah bagian dari ekstraksi informasi yang berupaya menemukan dan mengklasifikasikan named-entity yang disebutkan dalam teks tidak terstruktur ke dalam kategori yang telah ditentukan sebelumnya seperti nama orang, organisasi, lokasi, kode medis, ekspresi waktu, jumlah, nilai moneter, persentase, dll. .

Named Entity adalah frasa benda (noun phrase) yang memiliki tipe spesifik. NER bertujuan untuk menemukan dan menentukan jenis named entity pada teks. NER dapat digunakan untuk mengetahui relasi antar named entity dan question answering system. Tugas utama NER adalah untuk mencari named entiy dan menentukan tipe named entity. Cara dasar untuk mengenali named entity adalah dengan mencari jenis dari setiap kata pada teks menggunakan kamus. Namun penggunaan kamus dalam menentukan named entity memiliki beberapa permasalahan, salah satunya yaitu ambiguitas.

Metode NER dapat dibagi menjadi beberapa kategori yaitu; Hand-made NER, Rule-based NER, Machine, Learningbased NER and Hybrid NER.

  1. Hand-made NER berfokus pada penggalian nama menggunakan set aturan buatan manusia. Sistem-sistem ini terdiri dari seperangkat pola menggunakan fitur tata bahasa, sintaksis dan ortografis dalam kombinasi dengan kamus.
  2. sistem Rule-based NER tidak memiliki kemampuan portabilitas dan ketahanan, dan lebih jauh biaya tinggi dari aturan mempertahankan peningkatan meskipun data sedikit diubah. Jenis pendekatan ini sering bersifat spesifik domain dan bahasa dan tidak dapat beradaptasi dengan baik dengan domain dan bahasa baru.
  3. Dalam sistem NER berbasis pembelajaran mesin, tujuan dari Named Entity Recognition approach adalah mengubah masalah identifikasi menjadi masalah klasifikasi dan menggunakan model statistik klasifikasi untuk menyelesaikannya. Dalam jenis pendekatan ini, sistem mencari pola dan hubungan ke dalam teks untuk membuat model menggunakan model statistik dan algoritma pembelajaran mesin. Sistem mengidentifikasi dan mengklasifikasikan kata benda ke dalam kelas-kelas tertentu seperti orang, lokasi, waktu, dll berdasarkan model ini, menggunakan algoritma pembelajaran mesin.

Ada dua jenis model pembelajaran mesin yang digunakan untuk NER yaitu Model unsupervised dan supervised learning .
supervised learning melibatkan penggunaan program yang dapat belajar untuk mengklasifikasikan serangkaian data berlabel yang diberikan dari sejumlah fitur. Setiap contoh dengan demikian diwakili sehubungan dengan ruang fitur yang berbeda. Pendekatan supervised learning memerlukan persiapan data pelatihan berlabel untuk membangun model statistik, tetapi pendekatan ini tidak dapat mencapai kinerja yang baik tanpa sejumlah besar data pelatihan. Dalam beberapa tahun terakhir beberapa metode statistik berdasarkan metode supervised learning diusulkan. Penandaan sistem nama tepat yang tidak diketahui dengan model Decision Tree diusulkan. Ini menyajikan sistem NER berdasarkan suport vector machine.
Metode unsupervised adalah jenis lain dari model pembelajaran mesin, di mana model tanpa pengawasan belajar tanpa umpan balik. Dalam
unsupervised learning, tujuan dari program ini adalah untuk membangun representasi dari data. Representasi ini kemudian dapat digunakan untuk kompresi data, klasifikasi, pengambilan keputusan, dan keperluan lainnya. Pembelajaran tanpa pengawasan bukanlah pendekatan yang sangat populer untuk NER dan sistem yang menggunakan pembelajaran tanpa pengawasan biasanya tidak sepenuhnya tanpa pengawasan.


4. Dalam sistem Hybrid NER, pendekatannya adalah menggabungkan metode berbasis aturan dan pembelajaran berbasis mesin, dan membuat metode baru menggunakan poin terkuat dari setiap metode. Meskipun jenis pendekatan ini bisa mendapatkan hasil yang lebih baik daripada beberapa pendekatan lain, tetapi kelemahan RER-basis kerajinan NER tetap sama yaitu ketika ada kebutuhan untuk mengubah domain data.

Named-entity recognition

Leave a Reply

Your email address will not be published. Required fields are marked *