2026-05-155 menit bacaDiperbarui 2026-05-16

Limit Token GPT Dijelaskan: Hitung Token Sebelum Menabrak Tembok Konteks

Oleh Redaksi Safe Local Tools

Cara tercepat membuang uang pada API LLM adalah mengira "karakter" sama dengan "token". Model menagih dan memotong berdasarkan token—fragmen subkata yang tidak selaras dengan kata, tanda baca, atau blok kode. Jika Anda mengirim prompt 12 ribu karakter ke model jendela 8 ribu token, Anda tidak "hampir"; Anda sudah di luar anggaran.

Panduan ini menjelaskan apa itu tokenizer, bagaimana jendela konteks berbeda antar keluarga model, mengapa prompt multibahasa dan berat kode mengejutkan tim, serta cara menghitung secara lokal dengan Safe Local Tools yang sepenuhnya berjalan di browser—API key dan teks pelanggan tidak meninggalkan perangkat Anda.

Membiasakan diri menghitung token sebelum mengklik kirim sama pentingnya dengan memvalidasi JSON: itu pemutus sirkuit murah yang menjaga SLA latensi dan tagihan Anda tetap masuk akal.

OG illustration

Apa itu token (dan mengapa itu bukan kata)

Model bahasa besar tidak membaca string Unicode mentah secara langsung seperti manusia membaca kalimat. Teks dipecah oleh tokenizer menjadi urutan bilangan bulat; tiap bilangan memetakan fragmen—kadang kata utuh, kadang suku kata, kadang tanda baca yang merekat pada tetangga.

Dokumentasi publik dan komunitas merujuk penyandian seperti cl100k_base untuk era GPT‑4 serta varian baru untuk model penalaran. Kosakata tepat berubah tiap generasi model; dua penghitung bisa berselisih beberapa persen pada paragraf yang sama.

Aturan praktis: meskipun kartu model mengiklankan "128k konteks", Anda masih membutuhkan tokenizer yang cocok dengan endpoint itu—bukan perkiraan panjang byte generik.

Jendela konteks: masukan, keluaran, dan ruang yang "tersimpan"

API modern mengiklankan satu angka besar—32k, 128k, 200k—tetapi ruang yang bisa dipakai selalu terbagi.

Instruksi sistem dan pengembarang menghabiskan overhead tetap pada tiap permintaan.

Dokumen yang diambil RAG sering menjadi potongan terbesar.

Riwayat obrolan menumpuk tiap giliran.

Definisi fungsi atau JSON schema sangat boros token.

Balasan model (max_tokens) ikut menghitung pada banyak penyedia.

Tim sering melupakan bahwa token keluaran mengurangi jendela yang sama. Model "120k" dengan cadangan 8k untuk jawaban meninggalkan ~112k untuk semua yang Anda selipkan di prompt.

Tambahkan margin untuk urutan berhenti, pemformatan, serta rantai penalaran internal pada model tertentu.

Mengapa penghitung kata dan karakter gagal

Penulis konten memakai jumlah kata; insinyur melihat panjang string. Keduanya menyesatkan.

Kode mengindentasi dan membuka kurung secara tidak merata dalam tokenizer.

JSON dan YAML mengulang kunci; setiap kutip bisa menjadi pecahan token sendiri.

Skrip non‑Latin bisa lebih hemat karakter tetapi lebih mahal token per unit makna.

Substring berulang seperti log atau stack trace tetap ditagih per token tanpa ampun.

Kejutan mahal untuk bot dukungan adalah base64 atau dump hex—pendek secara visual, luar biasa panjang secara token.

Keluarga model dan penyimpangan penghitungan

Anda tidak bisa mengandaikan satu penghitung untuk semua penyedia.

OpenAI GPT‑4.x dan GPT‑4o banyak terdokumentasi dengan tabel komunitas per penyandian.

Anthropic Claude memakai tokenizer lain; heuristik "sekitar 3,5 karakter per token" untuk bahasa Inggris adalah perkiraan kasar, bukan hukum.

Model open-weight seperti Llama atau Mistral membawa tabel SentencePiece atau BPE sendiri.

Model embedding sering punya batas berbeda dari model chat yang Anda pasangkan.

Jika produk Anda menampilkan "token tersisa", jelaskan apakah angka itu persis atau diperkirakan—UI memaafkan perkiraan; departemen keuangan tidak memaafkan perkiraan pada invoice.

Daftar periksa pra‑terbang untuk prompt produksi

Serialkan muatan lengkap yang akan dikirim—sistem + alat + pesan—bukan hanya gelembung pengguna terbaru.

Hitung dengan tokenizer target bilamana memungkinkan.

Kurangkan token keluaran yang direncanakan dari angka yang diiklankan.

Sesuaikan ukuran chunk RAG sebelum LLM melihatnya.

Catat penggunaan dari respons API (usage.prompt_tokens) dan bandingkan dengan estimasi lokal mingguan.

Ketika estimasi menyimpang, periksa outlier: skema alat baru, string lokalisasi lebih panjang, atau parser lampiran.

Strategi pemotongan yang tidak merusak kualitas

Saat kelebihan anggaran, hindari memotong string secara membabi buta pada indeks karakter.

Ringkas giliran lama menjadi blok memori bergulir pada sistem.

Buang bagian tengah riwayat sambil menjaga tujuan pengguna pertama dan k giliran terakhir.

Perkecil keluaran alat—log milik penyimpanan objek, bukan jendela chat.

Potong ulang dokumen dengan kontrol overlap daripada menempel seluruh PDF.

Simpan ID pesan secara eksternal dan kirim referensi artefak daripada mengunggah ulang megabyte tiap giliran.

Biaya dan latensi bergerak bersama token

Token berkorelasi dengan dolar pada SKU bayar‑per‑token, waktu hingga token pertama pada prompt panjang, serta tingkat gagal ketika penyedia mengembalikan context_length_exceeded.

Penghitung lokal adalah pemutus sirkuit murah: jika UI sudah merah sebelum klik, Anda tidak mengantrekan job yang sudah pasti gagal.

Privasi: mengapa menghitung secara lokal penting

Demo tokenizer pihak ketiga nyaman tetapi berisiko untuk catatan pasien, kontrak, kredensial dalam stack trace, atau salinan produk yang belum dirilis.

Penghitungan token Safe Local Tools berjalan di klien. Anda bisa mengiterasi selama insiden tanpa menambahkan pemroses SaaS lain ke daftar tinjau keamanan.

Contoh kerja: anggaran kopilot dukungan

Bayangkan model jendela 16k dengan cadangan 2k untuk jawaban. Anda sudah membawa instruksi sistem 1,5k, artikel pusat bantuan yang diambil 6k, utas tiket 3k, dan skema alat 1k—total 11,5k sebelum pertanyaan baru pengguna.

Tanpa menghitung lokal Anda mungkin baru menyadari ketika API menolak; dengan menghitung lokal Anda tahu harus merangkum utas atau mengurangi retrieval sebelum pemanggilan.

Instrumentasi yang layak ditambahkan minggu ini

Emit tag prompt_tokens, completion_tokens, dan model pada setiap permintaan.

Alarm ketika p95 ukuran prompt melintasi ~70 persen jendela untuk model default Anda.

Dasbor selisih estimator lokal dibanding token yang ditagih.

Flag fitur untuk memblokir kirim ketika hitungan lokal melewati ambang.

Streaming tetap menumpuk token keluaran

Respons streaming mengumpulkan token keluaran sampai aliran berakhir. Meter token UI harus mutakhirkan bertahap agar pengguna membatalkan generasi mahal lebih awal.

Meretas konteks sebagai vektor serangan

Penyerang dapat membanjiri masukan panjang untuk menghabiskan anggaran atau melampaui filter keselamatan. Tangkal dengan batas keras ukuran masukan di tepi, pembatasan tarif per akun dan IP, serta pembuangan lampiran besar sebelum tokenizer.

Menghitung secara lokal membantu tim produk membuat prototipe ambang tersebut tanpa membocorkan payload serangan ke vendor.

Matematika token membosankan sampai menjadi mahal. Solusinya kebiasaan: ukur muatan lengkap dengan tokenizer yang tepat, sisakan margin untuk keluaran, dan perlakukan retrieval sebagai bagian prompt—bukan renungan belakangan.

Saat Anda ingin mengecek draf prompt terhadap beberapa penyandian tanpa mengunggahnya, Coba Penghitung Token AI →