Juli 2013 ~ bpdp's changelogs

Juli 21, 2013

Using Vim for Java + Gradle

Posted by Unknown on Minggu, Juli 21, 2013

Short posting. I've created a repo so that I can clone it everytime I want to create new project. See here:

https://github.com/bpdp/vim-java

Read More [...]

Posted in Gradle, Java, vim

Juli 19, 2013

Basis Data Graf: Titan dengan Apache Cassandra Sebagai Storage Backend

Posted by Unknown on Jumat, Juli 19, 2013

Tulisan ini merupakan kelanjutan dari tulisan sederhana tentang basis data graf sebelumnya. Kali ini saya akan menuliskan sedikit tentang memulai menggunakan Titan [1] yang merupakan basis data graf dengan kapabilitas penyimpanan dan pemrosesan data masif (web scale atau big data). Titan adalaha softwae bebas dengan lisensi Apache [2].

Titan sebenarnya terdiri atas 2 bagian:

Distribusi Titan
Storage backend

Distribusi Titan

Titan bisa diperoleh dari repositori Titan [3]. Versi rilis terakhir adalah 0.3.1. Hasil download adalah sebagai berikut:

$ ls
total 74744
drwxr-xr-x  2 bpdp bpdp     4096 Jul 11 06:57 .
drwxr-xr-x 25 bpdp bpdp     4096 Jul 18 10:37 ..
-rw-r--r--  1 bpdp bpdp 76521205 May 14 22:48 titan-all-0.3.1.zip
-rw-r--r--  1 bpdp bpdp       64 Jun 24 12:43 url
$ cat url 
http://s3.thinkaurelius.com/downloads/titan/titan-all-0.3.1.zip
$

Mendownload distribusi ini saja tidak cukup, karena distribusi ini "hanya" menyediakan core dari Titan, tidak ada komponen dari software yang berfungsi sebagai native storage backend. Secara umum, penggunaan Titan meliputi aktivasi storage backend (baik secara lokal maupun cluster) kemudian mengkonfigurasi Titan untuk menggunakan storage backend tersebut.

Storage Backend

Titan menggunakan basis data lainnya sebagai "tempat" untuk menyimpan data. Software yang bisa digunakan untuk keperluan ini adalah:
1. Apache Cassandra [4]
2. Apache HBase [5]
3. Oracle BerkeleyDB [6]
Mempelajari Titan saja tidak cukup, pemahaman yang memadai tentang storage backend juga diperlukan. Titan adalah basis data untuk data yang masif sehingga storage backend-nya pun juga software basis data kelas berat. Tingkat kompleksitas dari storage backend bervariasi, tetapi Apache HBase barangkali merupakan storage backend yang paling kompleks.

Memulai Storage Backend

Storage backend yang akan digunakan disini adalah Apache Cassandra. Versi yang digunakan adalah versi terakhir saat tulisan ini ditulis: 1.2.6. Langkah untuk memulai Apache Cassandra sangat mudah dan pada dasarnya hanya meliputi konfigurasi PATH serta file konfigurasi cassandra.yaml. Tarball dari Apache Cassandra pada tulisan ini akan diekstrak di $HOME/software/apache-cassandra-1.2.6 (direktori ini akan dirujuk dengan variabel $CASSANDRA_HOME). Data akan disimpan di $HOME/db/cassandra. Konfigurasi:

$HOME/.bash_profile

...
...
$CASSANDRA_HOME=$HOME/software/apache-cassandra-1.2.6
export PATH=$PATH:$CASSANDRA_HOME/bin
...
...

cassandra.yaml

Ada banyak konfigurasi yang bisa diatur pada file ini [7], tetapi pada bagian ini hanya 4 saja yang akan saya ubah:

cluster_name: 'KintamaniCluster'
data_file_directories:
    - /home/bpdp/db/cassandra/data
# commit log
commitlog_directory: /home/bpdp/db/cassandra/commitlog
saved_caches_directory: /home/bpdp/db/cassandra/saved_caches

Catatan: direktori-direktori diatas dibuat dulu jika belum ada.

Setelah itu, untuk memulai Apache Cassandra, login ke shell baru, setelah itu:

$ cassandra -f

Argumen -f digunakan untuk menampilkan hasil eksekusi di latar depan sehingga kita bisa melihat jika terjadi masalah. Hasilnya nanti akan banyak sekali, saya tampilkan bagian akhirnya saja:

...
...
INFO 05:07:53,670 Node localhost/127.0.0.1 state jump to normal
INFO 05:07:53,686 Startup completed! Now serving reads.
INFO 05:07:53,948 Starting listening for CQL clients on localhost/127.0.0.1:9042...
INFO 05:07:54,010 Binding thrift service to localhost/127.0.0.1:9160
INFO 05:07:54,083 Using TFramedTransport with a max frame size of 15728640 bytes.
INFO 05:07:54,090 Using synchronous/threadpool thrift server on localhost : 9160
INFO 05:07:54,090 Listening for thrift clients...
INFO 05:12:51,681 Compacting [SSTableReader(path='/home/bpdp/db/cassandra/data/system/schema_columnfamilies/system-schema_columnfamilies-ic-15-Data.db'), SSTableReader(path='/home/bpdp/db/cassandra/data/system/schema_columnfamilies/system-schema_columnfamilies-ic-13-Data.db'), SSTableReader(path='/home/bpdp/db/cassandra/data/system/schema_columnfamilies/system-schema_columnfamilies-ic-16-Data.db'), SSTableReader(path='/home/bpdp/db/cassandra/data/system/schema_columnfamilies/system-schema_columnfamilies-ic-14-Data.db')]
INFO 05:12:52,233 Compacted 4 sstables to [/home/bpdp/db/cassandra/data/system/schema_columnfamilies/system-schema_columnfamilies-ic-17,].  20,712 bytes to 6,933 (~33% of original) in 550ms = 0.012021MB/s.  10 total rows, 4 unique.  Row merge counts were {1:2, 2:0, 3:0, 4:2, }

Titan

Setelah men-donwload Titan, ekstrak hasil download tersebut di suatu direktori tertentu (penulis menempatkan di $HOME/software/titan, selanjutnya akan disebut $TITAN_HOME). Saya juga menempatkan variabel lingkungan PATH di .bash_profile sebagai berikut:

...
...
$TITAN_HOME=$HOME/software/titan
export PATH=$PATH:$TITAN_HOME/bin
...
...

Titan mendukung penuh TinkerPop stack sehingga kita bisa menggunakan tools dari TinkerPop stack, baik untuk REPL (menggunakan Gremlin) maupun dalam source code. Contoh sesi REPL dari Gremlin adalah sebagai berikut:

$ gremlin.sh 

         \,,,/
         (o o)
-----oOOo-(_)-oOOo-----
gremlin> conf = new BaseConfiguration();
==>org.apache.commons.configuration.BaseConfiguration@13015e8
gremlin> conf.setProperty("storage.backend","cassandra");
==>null
gremlin> conf.setProperty("storage.hostname","127.0.0.1");
==>null
gremlin> g = TitanFactory.open(conf);
13/07/20 06:29:02 INFO impl.ConnectionPoolMBeanManager: Registering mbean: com.netflix.MonitoredResources:type=ASTYANAX,name=ClusterTitanConnectionPool,ServiceType=connectionpool
13/07/20 06:29:02 INFO impl.CountingConnectionPoolMonitor: AddHost: 127.0.0.1
13/07/20 06:29:02 INFO impl.ConnectionPoolMBeanManager: Registering mbean: com.netflix.MonitoredResources:type=ASTYANAX,name=KeyspaceTitanConnectionPool,ServiceType=connectionpool
13/07/20 06:29:02 INFO impl.CountingConnectionPoolMonitor: AddHost: 127.0.0.1
==>titangraph[cassandra:127.0.0.1]
gremlin> bambang = g.addVertex(null);
==>v[360004]
gremlin> domain = g.addVertex(null);
==>v[360008]
gremlin> bambang.setProperty("name", "Bambang Purnomosidi");
==>null
gremlin> domain.setProperty("name", "Pragmatic Web");
==>null
gremlin> e = g.addEdge(null, bambang, domain, "researching");
==>e[7ygD-1vEw-2F0LaTPQTs][360004-researching->360008]
gremlin> print e.getVertex(Direction.OUT).getProperty("name") + "---" + e.getLabel() + "-->" + e.getVertex(Direction.IN).getProperty("name");
Bambang Purnomosidi---researching-->Pragmatic Web==>null
gremlin>

Jika ingin membuat program yang memanfaatkan Titan dan storage backend-nya ini, pengetahuan yang diperlukan akan lebih kompleks dan memerlukan tulisan tersendiri. We'll talk about it later. Stay tune.

Proses Selanjutnya

Setelah berbagai setting ini, jika komputer mati (untuk server seharusnya tidak :-D), setiap kali login, kita sudah bisa langsung mengeksekusi Apache Cassandra, setelah itu mengaktifkan Titan (tidak perlu konfigurasi ribet lagi):

$ cassandra -f
$ gremlin.sh

Hanya itu saja, kecuali anda ingin coding, tentu perlu langkah lain.

So, Enjoy big data!

Referensi

[1] http://titan.thinkaurelius.com
[2] http://www.apache.org/licenses/LICENSE-2.0.html
[3] http://s3.thinkaurelius.com/downloads/titan/titan-all-0.3.1.zip
[4] http://cassandra.apache.org
[5] http://hbase.apache.org
[6] http://www.oracle.com/technetwork/database/berkeleydb/overview/index-093405.html
[7] http://wiki.apache.org/cassandra/StorageConfiguration

Juli 15, 2013

Menggunakan Gradle untuk Grizzly

Posted by Unknown on Senin, Juli 15, 2013

Tulisan sederhana ini akan menjelaskan penggunaan Gradle dalam konteks sebagai build tool, khususnya untuk membangun aplikasi server yang scalable berbasis NIO. NIO atau lebih lengkapnya NIO.2 adalah pustaka untuk I/O di Java yang dispesifikasikan pada JSR 203. Jika dulu pilihan untuk membangun aplikasi server - khususnya server web - terbatas pada penggunaan JSP dan Servlet container seperti Tomcat, Jetty, atau Resin, sekarang pilihan lebih luas lagi karena tersedia berbagai macam framework yang disediakan (dan kebanyakan software bebas!) untuk membangun aplikasi server yang scalable. Beberapa framework yang bisa digunakan antara lain adalah:

Apache MINA [1]
Grizzly [2]
Netty [3]
xSocket [4]

Sekilas Grizzly

Grizzly adalah software bebas untuk membangun aplikasi server yang scalable. Grizzly digunakan juga dalam proyek Glassfish. Grizzly menggunakan Java NIO dan menyediakan berbagai macam pustaka untuk mengembangkan aplikasi server yang menurut saya relatif lengkap:

Aplikasi web dengan HTTP maupun HTTPS
Ajax
Comet (untuk teknologi push)
WebSocket
JAXWS (Web Services)
AJP (Apache JServ Protocol)
SPDY [5], protokol dalam tahap eksperimen dari proyek Chromium untuk mengurangi latensi dari halaman Web.

Artikel ini tidak bermaksud untuk melakukan komparasi antara berbagai framework NIO sehingga saya tidak akan menguraikan perbandingan antar framework tersebut. Pembaca yang berminat bisa melihat pada tulisan yang dibuat oleh Trustin Lee [6]. Meskipun demikian, perlu diingat bahwa perbandingan-perbandingan seperti ini biasanya hanya akan menimbulkan flame wars sehingga saya lebih menyarankan untuk memahami kebutuhan software yang akan dibuat dan kemudian menggunakan tools yang sesuai dengan kebutuhan.

Tentang Gradle

Gradle [5] merupakan software yang menurut pembuatnya (Gradleware) merupakan software bebas yang digunakan sebagai "The Enterprise Automation Tool". Software seperti ini berfungsi untuk peranti otomatisasi dalam berbagai tahap pengembangan software, mulai dari pengelolaan source code di komputer lokal developer, mengelola dependensi pustaka, testing, deployment, dan lain-lain. Software ini menarik bagi saya karena script yang digunakan dalam mendefinisikan berbagai tasks dalam pengembangan software merupakan kode sumber Groovy sehingga jika diperlukan kita bisa menggunakan berbagai fasilitas dari Groovy untuk mengelola proyek kita. Ini berbeda dengan Apache Ant [] + Ivy yang berfungsi sebagai build tools sekaligus mengelola dependensi pustaka serta Apache Maven yang mempunyai fungsi sama dengan Gradle tetapi menggunakan XML untuk mengelola dan mendefinisikan berbagai tasks.

Meski tersedia untuk berbagai macam IDE besar dalam bentuk plugin (Eclipse, Netbeans, Intellij IDEA), saya merasa lebih nyaman menggunakan perintah di shell karena lebih fleksibel (that's YMMV!). Untuk mengikuti tulisan ini, pastikan anda sudah menginstall Gradle menggunakan langkah-langkah yang telah diuraikan di manual [7]. Untuk memeriksa apakah instalasi anda sudah betul atau belum, ketikkan perintah berikut:

$ gradle --version
------------------------------------------------------------
Gradle 1.6
------------------------------------------------------------
Gradle build time: Tuesday, May 7, 2013 9:12:14 AM UTC
Groovy: 1.8.6
Ant: Apache Ant(TM) version 1.8.4 compiled on May 22 2012
Ivy: 2.2.0
JVM: 1.7.0_25 (Oracle Corporation 23.25-b01)
OS: Linux 3.9.9-1-ARCH i386
$

Tentu bagian-bagian tertentu akan berbeda (misalnnya OS dan/atau versi JVM). Lainnya seharusnya sama. Jika sudah berada pada posisi ini, kita siap menggunakan Gradle.

Contoh Source Code Aplikasi Grizzly

Untuk keperluan artikel ini, saya akan menggunakan contoh source aplikasi semacam echo server yang bersifat blocking / synchronous. Aplikasi ini terdapat dalam contoh yang terdapat pada distribusi Gradle [8]. Struktur direktori dari aplikasi ini adalah sebagai berikut:

Gradle menggunakan file build.gradle untuk mengelola proyek (kelak jika sudah lebih kompleks, ini bisa dikembangkan menjadi lebih dari satu file konfigurasi). Jika melihat struktur direktori tersebut, kita akan melihat letak dari source code (BlockingHttpHandlerSample.java) di direktori $PROJECT_ROOT_DIR/src/main/name/bpdp/grizzly/. Secara default, source code akan diletakkan pada direktori $PROJECT_ROOT_DIR/src/main/java/. Pada struktur diatas, source code diletakkan pada paket name.bpdp.grizzly sehingga source code BlockingHttpHandlerSample,java perlu diubah sedikit pada bagian package dengan isi berikut:

package name.bpdp.grizzly;

File build.gradle

File build.grade digunakan untuk mengelola proyek. Proyek pada contoh ini berada pada direktori $HOME/kerjaan/src/java/grizzly/ dan setiap penyebutan $PROJECT_ROOT_DIR akan mengacu ke lokasi tersebut. Isi dari file tersebut adalah sebagai berikut:

apply plugin: 'java'

version = "0.0.1"
group = "name.bpdp.grizzly"

dependencies {
compile group: 'org.glassfish.grizzly', name: 'grizzly-framework', version: '2.3.3'
compile group: 'org.glassfish.grizzly', name: 'grizzly-http-server', version: '2.3.3'
testCompile group: 'junit', name: 'junit', version: '4.11'
testCompile group: 'org.glassfish.grizzly', name: 'grizzly-framework', version: '2.3.3'
testCompile group: 'org.glassfish.grizzly', name: 'grizzly-http-server', version: '2.3.3'
}
repositories {
mavenCentral()
}
task(runApp, dependsOn: 'classes', type: JavaExec) {
main = 'name.bpdp.grizzly.BlockingHttpHandlerSample'
classpath = sourceSets.main.runtimeClasspath
}
test {
maxParallelForks = 5
maxHeapSize = '1024m'
}

Source code Groovy di atas relatif lebih mudah dipahami. Untuk mengelola proyek Java, kita perlu menggunakan plugin java kemudian didefinisikan berbagai dependensi pustaka yang digunakan dalam proyek. Lihat pada bagian dependencies, yang kita tulis disitu mirip dengan definisi XML dari repositori Maven (silahkan lihat di website Grizzly pada bagian download). Kita juga menggunakan repositori Maven untuk mengambil berbagai dependensi pustaka, kemudian membuat task 'runApp' untuk menjalankan aplikasi yang telah kita build. Pada bagian 'runApp' kita definisikan nama kelas main yang akan dijalankan dengan classpath sesuai dengan classpath runtime (lokasi dari berbagai hasil kompilasi).

Membangun (Build) Aplikasi

Untuk membangun aplikasi tersebut, kita hanya perlu menjalankan perintah dari shell: 'gradle build' dan Gradle akan mengambil berbagai pustaka yang kita perlukan dari repositori Maven kemudian mengkompilasi. Jika menjalankan ini untuk pertama kali, mungkin akan sedikit lama apalagi jika pustaka yang akan diambil banyak. Pustaka-pustaka tersebut nantinya akan diletakkan di $HOME/.gradle.

$ gradle build
:compileJava
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-framework/2.3.3/grizzly-framework-2.3.3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-project/2.3.3/grizzly-project-2.3.3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-bom/2.3.3/grizzly-bom-2.3.3.pom
Download http://repo1.maven.org/maven2/net/java/jvnet-parent/3/jvnet-parent-3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-http-server/2.3.3/grizzly-http-server-2.3.3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-http/2.3.3/grizzly-http-2.3.3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-rcm/2.3.3/grizzly-rcm-2.3.3.pom
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-framework/2.3.3/grizzly-framework-2.3.3.jar
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-http-server/2.3.3/grizzly-http-server-2.3.3.jar
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-http/2.3.3/grizzly-http-2.3.3.jar
Download http://repo1.maven.org/maven2/org/glassfish/grizzly/grizzly-rcm/2.3.3/grizzly-rcm-2.3.3.jar
:processResources UP-TO-DATE
:classes
:jar
:assemble
:compileTestJava UP-TO-DATE
:processTestResources UP-TO-DATE
:testClasses UP-TO-DATE
:test
Download http://repo1.maven.org/maven2/junit/junit/4.11/junit-4.11.pom
Download http://repo1.maven.org/maven2/org/hamcrest/hamcrest-core/1.3/hamcrest-core-1.3.pom
Download http://repo1.maven.org/maven2/org/hamcrest/hamcrest-parent/1.3/hamcrest-parent-1.3.pom
Download http://repo1.maven.org/maven2/junit/junit/4.11/junit-4.11.jar
Download http://repo1.maven.org/maven2/org/hamcrest/hamcrest-core/1.3/hamcrest-core-1.3.jar
:check
:build
BlUILD SUCCESSFUL
Total time: 48.44 secs
$

Hasil proses build di atas akan diletakkan pada direktori build sebagai berikut:

Jika sudah mengkompilasi tanpa error, kita bisa menjalankan aplikasi tersebut menggunakan task yang telah kita definisikan (runApp):

$ gradle runApp
:compileJava UP-TO-DATE
:processResources UP-TO-DATE
:classes UP-TO-DATE
:runApp
Jul 15, 2013 8:39:56 PM org.glassfish.grizzly.http.server.NetworkListener start
INFO: Started listener bound to [0.0.0.0:8080]
Jul 15, 2013 8:39:56 PM org.glassfish.grizzly.http.server.HttpServer start
INFO: [HttpServer] Started.
Client connected!
Writing request:
HttpRequestPacket (
method=POST
url=/echo
query=null
protocol=HTTP/1.1
content-length=-1
headers=[
Host=localhost:8080]
)
contentA-
contentB-
contentC-
contentD

Echoed POST Data: contentA-contentB-contentC-contentD
Jul 15, 2013 8:39:56 PM org.glassfish.grizzly.http.server.NetworkListener stop
INFO: Stopped listener bound to [0.0.0.0:8080]
BUILD SUCCESSFUL
Total time: 7.916 secs
$

And that's the end of this simple story. Happy hacking!

Referensi

[1] http://mina.apache.org

[2] http://grizzly.java.net

[3] http://netty.io

[4] http://xsocket.org - tidak dikembangkan lagi, hanya sebatas bug fixes.

[5] http://www.chromium.org/spdy

[6] http://gleamynode.net/articles/2232/

[7] http://www.gradle.org/docs/current/userguide/installation.html

[8] https://maven.java.net/content/repositories/releases/org/glassfish/grizzly/samples/ - atau yang spesifik digunakan pada tulisan ini adalah BlockingHttpHandlerSample.java di file grizzly-http-server-samples-2.3.3-sources.jar.

Read More [...]

Posted in Gradle, Grizzly, Java, NIO.2

Juli 14, 2013

Pengantar Teknologi Basis Data Graf

Posted by Unknown on Minggu, Juli 14, 2013

Artikel ini merupakan pengantar ke basis data graf yang sekarang mulai marak dibicarakan dan diimplementasikan. Pengantar ini diperlukan sebelum membahas software basis data graf terdistribusi menggunakan Titan [1]. Jika akan dikategorikan, Titan ini masuk ke dalam kategori basis data NOSQL (Not Only SQL) untuk membedakan dengan basis data relasional (RDBMS) seperti PostgreSQL, MySQL, Oracle Database 10g yang menggunakan SQL sebagai bahasa untuk query (DDL maupun DML). Jika sudah terbiasa dengan "standar" SQL, bersiap-siaplah kaget dengan dunia NOSQL yang sangat bervariasi [2]. Artikel ini akan terdiri atas beberapa seri dan nantinya akan lebih dikonsentrasikan ke penggunaan Titan.

Big Data

Tulisan ini sama sekali tidak untuk menunjukkan bahwa RDBMS adalah teknologi yang sudah usang dan tidak pantas dipakai, tapi saya lebih meyakini bahwa setiap kreasi itu mempunyai kesesuaian dalam menyelesaikan masalah tertentu. Demikian juga dengan NOSQL yang kebanyakan berasal dari kebutuhan dari pengelolaan data yang masif. Pengelolaan data yang masih ini dikenal juga dengan 2 istilah:

"Web scale" untuk menunjukkan kemampuan skalabilitas pada aplikasi yang memerlukan data sangat besar yaitu aplikasi Web. Tentu ini bukan aplikasi Web yang bersifat personal (seperti wiki sederhana, CMS dengan ruang lingkup kecil, dan sejenisnya), tetapi lebih pada aplikasi Web skala besar dengan akses dan keanggotaan sampai ke seluruh dunia (misal: Facebook, Twitter).
"Big data", untuk menunjukkan kebutuhan data yang sangat masif karena seringkali data bersifat realtime dan berjumlah sangat besar sehingga harus dikelola dalam cluster-cluster. Istilah ini mulai populer seiring dengan paper dari Google: MapReduce (framework untuk model pemrograman bagi pemrosesan data yang sangat besar) [3] dan BigTable [4].

Basis Data Graf

Basis data graf (Graph Database) adalah basis data yang menggunakan graf dalam pemodelan data. Graf merupakan cabang ilmu dari matematika yang dikenal mempunyai keterkaitan aplikasi dengan banyak disiplin ilmu lainnya. Teori graf sudah berumur panjang. Teori graf ini pertama kali dikenal sejak Leonhard Euler menulis paper "Seven Bridges of Königsberg" pada tahun 1736. Dalam matematika, graf ini merupakan bagian utama dari Matematika Diskrit. Meski banyak buku yang ditulis terkait dengan teori graf, buku dari Frank Harary tentang teori graf pada 1969 membuat banyak peneliti dari berbagai disiplin ilmu menyadari pentingnya teori graf terkait dengan berbagai macam disiplin ilmu. Teori graf ini juga dikembangkan di dunia software untuk pemodelan data, terutama untuk pemodelan dan analisis yang memerlukan keterkaitan dalam bentuk graf. Perkembangan akhir-akhir ini menunjukkan bahwa teori graf ini bisa diterapkan untuk basis data dan membentuk basis data graf.

Pada basis data graf, data akan dimodelkan dalam bentuk graf (terdiri atas sekumpulan vertex (node) dan dihubungkan dengan dengan edge / arc) yang memungkinkan berbagai macam operasi dilakuan pada struktur data tersebut, misalnya traversal, pattern matching, penemuan "knowledge" baru (reasoning), dan lain-lain. Banyak aspek kehidupan manusia pada dasarnya bisa dimodelkan dengan graf. Contoh paling sederhana, fasilitas rekomendasi teman pada Facebook adalah hasil dari penerapan teori graf: saya mengenal A, A mengenal B, B mengenal C, C mengenal D, dan seterusnya, kemudian dicari pola yang sama antar individu tersebut sehingga bisa dihasilkan rekomendasi bahwa saya mungkin juga mengenal D.

Beberapa basis data yang menggunakan graf untuk pemodelan data antara lain:

OrientDB [5]
Neo4J [6]
AangoDB [7]
HyperGraphDB [8]
InfiniteGraph [9]
Titan

Kebanyakan basis data graf disediakan untuk keperluan Big Data, meski ada juga in-memory graph database yang cocok untuk pemrosesan yang cepat dan tidak untuk keperluan pengelolaan data masif.

Bentuk Spesifik dari Basis Data Graf: TripleStore dan QuadStore

TripleStore merupakan pemodelan data yang berdasarkan pada spesifikasi dari W3C yaitu RDF (Resource Description Framework). Pada pemodelan ini, pemodelan akan didasarkan pada S-P-O (Subyek Predikat Obyek), misalnya "Bambang menulis artikel". QuadStore adalah TripleStore yang menyertakan dukungan Named Graph yang memungkinkan suatu graf diidentifikasikan berdasarkan pada URI. Contoh dari basis data QuadStore ini adalah OpenLink Virtuoso [10]. Beberapa contoh TripleStore:

1. Bigdata [11]

2. AllegroGraph [12]

3. Meronymy - sekarang berganti nama menjadi SparkleDB [13] - sekaligus QuadStore

"Standar" Basis Data Graf: Tinkerpop Stack

Dengan adanya banyak implementasi tersebut, tentu akan mulai banyak kesulitan karena akan muncul berbagai macam implementasi dan pada akhirnya menyebabkan para pengguna dan developer untuk mempelajari basis data tersebut secara spesifik. Saat ini, dikembangkan "standar" untuk pengelolaan basis data graf tersebut. Saya tulis "standar" menggunakan tanda petik karena standar disini tidak diimplementasikan dalam suatu organisasi standar seperti ANSI atau ISO, tetapi lebih ke aarah kesepakatan antara banyak developer yang bekerja dengan basis data graf dan dilakukan oleh komunitas. Standar yang banyak dianut saat ini dikembangkan oleh Tinkerpop [14] dan mempunyai standar paling mendasar yang dikenal dengan sebutan Blueprints [15].

Standar dari Tinkerpop ini terdiri atas berbagai lapisan (sehingga sering disebut sebagai 'stack'). Standar paling mendasar adalah Blueprints. Standar lainnya bisa dilihat di website Tinkerpop. Pada artikel ini saya lebih menekankan pada kedudukan dari berbagai macam standar tersebut. Standar Tinkerpop ini jika diibaratkan dalam dunia pemrograman yang melibatkan SQL di Java, mempunyai kedudukan yang setara dengan JDBC. Dengan demikian, skema dari standar ini adalah sebagai berikut:

Source code <-----> Tinkerpop API <-----> basis data graf

Dengan demikian, source code akan bersifat portable dan tidak terlalu tergantung pada basis data graf tertentu. Vendor basis data graf perlu mengimplementasikan "driver" Tinkerpop supaya bisa diakses menggunakan API Tinkerpop. Pada saat ini, banyak sekali software basis data graf yang mengimplementasikan API tersebut [16].

Bagaimana dengan TripleStore dan QuadStore pada Tinkerpop?

Sebagai bagian dari basis data graf, TripleStore dan QuadStore juga mendapatkan perhatian dari Tinkerpop. Tinkerpop menyediakan Ouplementations [17] yang menggunakan SAIL dari Sesame [18] sehingga RDF ini juga bisa diakses melalui stack Tinkerpop meskipun relatif lebih rumit.

Referensi

[1] http://titan.thinkaurelius.com

[2] Lihat misalnya di http://www.nosql-databases.org

[3] https://www.usenix.org/legacy//events/osdi06/tech/chang/chang_html/

[4] http://research.google.com/archive/bigtable-osdi06.pdf

[5] http://orientdb.org

[6] http://neo4j.org

[7] http://www.arangodb.org

[8] http://www.hypergraphdb.org

[9] http://www.infinitegraph.com

[10] http://www.openlinksw.com/

[11] http://www.systap.com/bigdata.htm