Natural Language Processing With Python's

Natural Language Processing With Python-Dalam bab ini, kita akan belajar tentang pemrosesan bahasa menggunakan Python.

Fitur-fitur berikut membuat Python berbeda dari bahasa lain

Python diinterpretasikan Kita tidak perlu mengkompilasi program Python kita sebelum mengeksekusinya karena interpreter memproses Python saat runtime.

Interaktif Kita bisa langsung berinteraksi dengan interpreter untuk menulis program Python kita.

Python berorientasi objek berorientasi objek dan membuat bahasa ini lebih mudah untuk menulis program karena dengan bantuan teknik pemrograman ini merangkum kode di dalam objek.

Pemula dapat dengan mudah mempelajari Python disebut juga sebagai bahasa pemula karena sangat mudah dipahami, dan mendukung pengembangan berbagai aplikasi.

Prasyarat

Versi terbaru dari Python 3 yang dirilis adalah Python 3.7.1 tersedia untuk Windows, Mac OS dan sebagian besar rasa OS Linux.

Untuk windows, kita bisa menuju link www.python.org/downloads/windows/ untuk mendownload dan menginstall Python.

Untuk MAC OS, kita dapat menggunakan tautan www.python.org/downloads/mac-osx/ .

Dalam kasus Linux, rasa Linux yang berbeda menggunakan manajer paket yang berbeda untuk instalasi paket baru.

Natural Language Processing With Python's

Misalnya, untuk menginstal Python 3 di Ubuntu Linux, kita dapat menggunakan perintah berikut dari terminal:

$sudo apt-get install python3-minimal

Untuk mempelajari lebih lanjut tentang pemrograman Python, baca tutorial dasar Python 3 – Python 3

Memulai dengan NLTK

Kita akan menggunakan library Python NLTK (Natural Language Toolkit) untuk melakukan analisis teks dalam bahasa Inggris. Toolkit bahasa alami (NLTK) adalah kumpulan pustaka Python yang dirancang khusus untuk mengidentifikasi dan menandai bagian ucapan yang ditemukan dalam teks bahasa alami seperti bahasa Inggris.

Menginstal NLTK

Sebelum kita mulai menggunakan NLTK, kita perlu menginstalnya. Dengan bantuan perintah berikut, kita dapat menginstalnya di lingkungan Python kita

pip install nltk

Jika kita menggunakan Anaconda, maka paket Conda untuk NLTK dapat dibangun menggunakan perintah berikut:

conda install -c anaconda nltk

Mengunduh Data NLTK

Setelah menginstal NLTK, tugas penting lainnya adalah mengunduh repositori teks preset sehingga dapat digunakan dengan mudah. Namun, sebelum itu kita perlu mengimpor NLTK seperti kita mengimpor modul Python lainnya. Perintah berikut akan membantu kami dalam mengimpor NLTK

import nltk

Sekarang, unduh data NLTK dengan bantuan perintah berikut

nltk.download()

Ini akan memakan waktu untuk menginstal semua paket NLTK yang tersedia.

Paket Lain yang Diperlukan

Beberapa paket Python lainnya seperti gensim dan pola juga sangat diperlukan untuk analisis teks serta membangun aplikasi pemrosesan bahasa alami menggunakan NLTK. paket dapat diinstal seperti yang ditunjukkan di bawah ini

sebagai bangsa

gensim adalah perpustakaan pemodelan semantik yang kuat yang dapat digunakan untuk banyak aplikasi. Kita dapat menginstalnya dengan mengikuti perintah

pip install gensim

pola

Ini dapat digunakan untuk membuat paket gensim bekerja dengan baik. Perintah berikut membantu dalam menginstal pola

pip install pattern

Tokenisasi

Tokenisasi dapat didefinisikan sebagai Proses memecah teks yang diberikan, menjadi unit yang lebih kecil yang disebut token. Kata, angka, atau tanda baca bisa menjadi tanda. Bisa juga disebut segmentasi kata.

Contoh

Input Tempat tidur dan kursi adalah jenis furnitur.

Kami memiliki paket berbeda untuk tokenisasi yang disediakan oleh NLTK. Paket-paket ini dapat kita gunakan sesuai dengan kebutuhan kita. Rincian paket dan pemasangan adalah sebagai berikut:

paket kirim_tokenize

Paket ini dapat digunakan untuk membagi teks masukan menjadi kalimat. Kita dapat mengimpornya dengan menggunakan perintah berikut

from nltk.tokenize import sent_tokenize

paket word_tokenize

Paket ini dapat digunakan untuk membagi teks input menjadi kata-kata. Kita dapat mengimpornya dengan menggunakan perintah berikut

from nltk.tokenize import word_tokenize

Paket WordPuncTokenizer

Paket ini dapat digunakan untuk membagi teks input menjadi kata-kata dan tanda baca. Kita dapat mengimpornya dengan menggunakan perintah berikut

from nltk.tokenize import WordPuncttokenizer

Stemming

Untuk alasan gramatikal, bahasa mencakup banyak variasi. Variasi dalam arti bahwa bahasa, bahasa Inggris dan juga bahasa lainnya, memiliki bentuk kata yang berbeda. Misalnya kata-kata seperti demokrasi, demokrasi, dan demokratisasi. Untuk proyek pembelajaran mesin, sangat penting bagi mesin untuk memahami bahwa kata-kata yang berbeda ini, seperti di atas, memiliki bentuk dasar yang sama. Itulah mengapa sangat berguna untuk mengekstrak bentuk dasar dari kata-kata ketika menganalisis teks.

Stemming adalah proses heuristik yang membantu mengekstrak bentuk dasar sebuah kata dengan memotong ujungnya.

Paket-paket berbeda untuk stemming yang disediakan oleh modul NLTK adalah sebagai berikut:

Paket Stemmer Porter

Algoritma Porter digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar dari kata-kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini

from nltk.stem.porter import PorterStemmer

Misalnya, 'write' akan menjadi output dari kata 'write' yang diberikan sebagai input untuk stemmer ini.

Paket Stemmer Lancaster

Algoritma Lancaster digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini

from nltk.stem.lancaster import LancasterStemmer

Misalnya, 'post' akan menjadi output dari kata 'post' yang diberikan sebagai input untuk stemmer ini.

Paket Stemmer Bola Salju

Algoritma Snowball digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar dari kata-kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini

from nltk.stem.snowball import SnowballStemmer

Misalnya, 'write' akan menjadi output dari kata 'write' yang diberikan sebagai input untuk stemmer ini.

Lemmatisasi

Ini adalah cara lain untuk mengekstrak bentuk dasar kata, biasanya bertujuan untuk menghilangkan akhiran infleksional dengan menggunakan kosa kata dan analisis morfologis. Setelah lemmatisasi, bentuk dasar dari kata apapun disebut lemma.

Modul NLTK menyediakan paket-paket berikut untuk lemmatization:

Paket WordNetLemmatizer

Paket ini akan mengekstrak bentuk dasar sebuah kata tergantung pada apakah kata tersebut digunakan sebagai kata benda atau sebagai kata kerja. Perintah berikut dapat digunakan untuk mengimpor paket ini:

from nltk.stem import WordNetLemmatizer

Menghitung Tag POS–Chunking

Identifikasi part of speech (POS) dan frase pendek dapat dilakukan dengan bantuan chunking. Ini adalah salah satu proses penting dalam pemrosesan bahasa alami. Seperti yang kita ketahui tentang proses tokenisasi untuk pembuatan token, chunking sebenarnya memberi label pada token. Dengan kata lain, kita dapat mengatakan bahwa kita bisa mendapatkan struktur kalimat dengan bantuan proses chunking.

Contoh

Dalam contoh berikut, kita akan mengimplementasikan Noun-Phrase chunking, sebuah kategori chunking yang akan menemukan potongan frase kata benda dalam kalimat, menggunakan modul NLTK Python.

Pertimbangkan langkah-langkah berikut untuk menerapkan noun chunking:

Langkah 1: Definisi gramatikal dari Slice

Pada langkah ini, kita perlu mendefinisikan tata bahasa untuk chunking. Ini akan terdiri dari aturan, yang harus kita ikuti.

Langkah 2: Buat pengurai cuplikan

Selanjutnya, kita perlu membuat parser chunk. Itu akan mengurai tata bahasa dan memberikan output.

Langkah 3: Outputnya

Pada langkah ini, kita akan mendapatkan output dalam format pohon.

Menjalankan Skrip NLP

Mulailah dengan mengimpor paket NLTK

import nltk

Sekarang, kita perlu mendefinisikan kalimatnya.

Di Sini,

DT menentukan

VBP adalah kata kerja

JJ adalah kata sifat

IN adalah kata depan

NN adalah kata benda

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Selanjutnya, tata bahasa harus diberikan dalam bentuk ekspresi reguler.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Sekarang, kita perlu mendefinisikan parser untuk mengurai tata bahasa.

parser_chunking = nltk.RegexpParser(grammar)

Sekarang, parser akan mengurai kalimat sebagai berikut:

parser_chunking.parse(sentence)

Selanjutnya, output akan berada dalam variabel sebagai berikut: -

Output = parser_chunking.parse(sentence)

Sekarang, kode berikut akan membantu Anda menggambar output Anda dalam bentuk pohon.

output.draw()

Simak juga dibawah ini.

Aplikasi keyboard bahasa arab

Cara ganti akun domino island 100

Cara cheat higgs domino island mod

Akhir kata :

Terimakasih sudah membaca artikel Natural Language Processing With Python's semoga artikel yang kalian baca dapat bermanfaat buat kita semua, apabila ada yang ditanyakan silahkan komen saja dibawah kolom ya. Biar kita sharing-sharing tentang apa yang kita tahu, apabila ada kata atau bahasa yang salah tulis mohon dimaafkan. Jangan lupa juga kunjungi tutorial-tutorial lainnya di blog ini. Terimakasih sampai jumpa di artikel selanjutnya.

Masih Banyak sekali trik dan tips Untuk Apliaksi yang bisa kamu coba. Selengkapnya cek di Situs Lutfin.com di bagian Tips dan Trik masukan kata kunci yang kamu inginkan.

IKLAN ATAS ARTIKEL HOMEPAGE

Natural Language Processing With Python's

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel

IKLAN BAWAH HOMEPAGE