Text
mining merupakan salah satu metode analisis data teks untuk memperoleh
informasi yang relevan. Teks mining telah menarik banyak perhatian untuk
penelitian dalam beberapa tahun terakhir ini, karena peningkatan eksponensial
dalam data teks digital dari berbagai helaman web, seperti layanan yang
disediakan oleh google yakni google buku dan layanan sosial media seperti
twitter.
Data
twitter merupakan sumber data yang sangat banyak dan kaya dan beragam yang
dapat di gunakan untuk mengungkap informasi tentang topik yang kita inginkan. Data
ini dapat digunakan dalam penggunaan yang berbeda-beda seperti menemukan data atau kasus yang sedang
trenyang berhubungan dengan kata kunci tertentu, mengukur sentimen merek dan
maupun mengumpulkan umpan balik tentang produk layanan baru.
Dalam
materi postingan kali ini, kita akan menjelaskan tentang penggunaan data
twitter untuk membandingkan popularitas 3 bahasa pemrograman : Python, javascript, dan Ruby, dan
mengambil link ke tutorial pemrograman.
Pada
awal pembahasan kita akan menjelaskan sedikit tentang cara untuk terhubung ke
twitter streaming Api dan bagaimana
untuk mendapatkan data. Kemudian akan dijelaskan juga bagaimana struktur data
untuk di analisis, dan pada akhir postingan ini akan di jelaskan tentang
bagaimana untuk menyaring data kemudian mengekstrak link dari tweets.
Dengan
hanya menggunakan data twitter 2 hari, kita bisa mengambil 644 link tutorial
python, 413 untuk tutorial javascript dan 136 link tutorial ruby. Dengan begitu,
kita bisa menyimpulkan python 1,5 kali lebih populer daripada javascript dan
empat kali lebih populer dari ruby.
Data Mining Twitter Analisis |
1. Mendapatkan Data dari Twitter Streaming API
Apa itu API ? API merupakan
singkatan kata dari Application
Programing Interface yang merupakan sebuah alat yang berfungsi untuk
membuat intruksi dengan program aplikasi komputer dan layanan web dengan mudah.
Pada era sekarang sudah banyak sekali web yang menyediakan layanan API
untuk pengembang bisa berinteraksi dengan layanan merekan dan untuk mengakses
data dengan cara program. Data tersebut bisa diakses dengan menggunakan API dan
banyak sekali data yang sudah bersifat data terbuka atau open data sehingga
pengembang bisa dengan mudah mengakses data untuk dijadikan sebagai bahan untuk
melakukan pengembangan aplikasi maupun layanan web, seperti open data indonesia
yang sudah tersedia yang bisa di akses secara gratis menggunakan AIP pada web http://data.go.id maupun open data wilayah seperti
jakarta open data atau aceh open data goverment.
Untuk tutorial ini,
kita akan menggunakan Twitter Streaming API untuk men-download tweet yang
berkaitan dengan 3 kata kunci: "python", "javascript", dan
"ruby".
Langkah 1: Mendapatkan kunci API Twitter
Untuk mengakses Twitter Streaming
API, kita perlu mendapatkan 4 buah informasi dari Twitter: kunci API, API
rahasia, token akses dan token akses rahasia. Berikut
ini merupakan cara untuk mendapatkan atau mendaftar twitter API untuk
mendapatkan 4 fitur diatas:
- Buat akun twitter jika Anda tidak sudah memiliki satu.
- Pergi ke https://apps.twitter.com/ dan login dengan mandat twitter Anda.
- Klik "Create New App"
- Mengisi formulir, setuju dengan persyaratan, dan klik "Buat aplikasi Twitter Anda"
- Di halaman berikutnya, klik pada "kunci API" tab, dan copy "API key" dan "API rahasia".
- Gulir ke bawah dan klik "Buat saya token akses", dan copy Anda "Akses Token" dan "token akses rahasia".
Twitter API secret Key dan kode Akse token |
Langkah 2: Menghubungkan ke Twitter Streaming API dan men-download data
Kami akan menggunakan perpustakaan Python disebut
Tweepy
untuk
terhubung ke Twitter Streaming API dan men-download data. Jika Anda tidak memiliki Tweepy
dipasang
di mesin Anda, pergi ke Link, dan ikuti
petunjuk instalasi.
Berikutnya membuat, sebuah file bernama
twitter_streaming.py, dan salin ke
dalamnya kode di bawah ini.
Pastikan untuk memasukkan
kredensial Anda ke access_token, access_token_secret, consumer_key,
dan
consumer_secret.#Import the necessary methods from tweepy library from tweepy.streaming import StreamListener from tweepy import OAuthHandler from tweepy import Stream #Variables that contains the user credentials to access Twitter API access_token = "ENTER YOUR ACCESS TOKEN" access_token_secret = "ENTER YOUR ACCESS TOKEN SECRET" consumer_key = "ENTER YOUR API KEY" consumer_secret = "ENTER YOUR API SECRET" #This is a basic listener that just prints received tweets to stdout. class StdOutListener(StreamListener): def on_data(self, data): print data return True def on_error(self, status): print status if __name__ == '__main__': #This handles Twitter authetification and the connection to Twitter Streaming API l = StdOutListener() auth = OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) stream = Stream(auth, l) #This line filter Twitter Streams to capture data by the keywords: 'python', 'javascript', 'ruby' stream.filter(track=['python', 'javascript', 'ruby'])
Jika Anda menjalankan program dari
terminal Anda menggunakan perintah:
twitter_streaming.py
python,Anda akan melihat data yang
mengalir seperti gambar di bawah.Data Hasil Mining Menggunakan Twitter Streaming API |
Anda dapat menghentikan program dengan menekan Ctrl-C.
Kami ingin menangkap data ini
ke dalam sebuah file yang akan kita gunakan nanti untuk analisis. Anda dapat melakukannya dengan pipa
output ke file menggunakan perintah berikut:
python
twitter_streaming.py>
twitter_data.txt.
Saya menjalankan program selama
2 hari (dari 2014/07/15 sampai 2014/07/17) untuk mendapatkan sampel data yang
berarti. Ukuran file ini adalah
242 MB.
2. Membaca dan Memahami data >> next
Link Terkait Data Mining
- Metode Metode Dalam Datamining
- Twitter Data Mining Menggunakan Python : Cara Mengumpulkan Data
- Contoh Perhitungan Manual Penerapan Metode K Means Klastering Datamining
1 Komentar untuk "Twitter Teks Mining - Cara Penggunaan Streaming Twitter API dengan Python"
bagaimana caranya agar data dapat di simpan ke dalam database?