Teknoloji şirketi VNGRS, tamamen Türkçe verilerle, sıfırdan eğittiği ve kamuya açık şekilde paylaştığı ilk büyük dil modeli ‘Kumru LLM’i duyurdu. Bu gelişme, Türkiye’nin artık sadece yapay zeka teknolojisini kullanan değil, aynı zamanda geliştiren ve üreten bir ülke konumuna yükseldiğini belgeliyor. Kendi milli “tokenizer”ı sayesinde çok dilli modellere göre %90’a varan oranda daha verimli çalışan Kumru, düşük maliyetle şirket içinde kurulabilme özelliğiyle de finans ve sağlık gibi kritik sektörlerde veri güvenliğini milli sınırlar içinde tutarak bir çığır açıyor.
Türkçe İçin, Türk Mühendisler Tarafından Geliştirilen ‘Kumru’ Kamuya Açıldı!
VNGRS mühendisleri, Türkiye’nin güvenlik, uyumluluk ve Türkçe dilinde mükemmellik ihtiyaçlarını göz önünde bulundurarak, tamamen yerli ve milli bir temel dil modeli geliştirme vizyonuyla yola çıktı. 45 gün süren yoğun bir eğitim sürecinin ardından, 7.4 milyar parametreye sahip Kumru, 500 GB boyutunda devasa bir Türkçe veri seti ve 300 milyar “token” ile eğitilerek hayata geçirildi.
Kumru, sadece kelimeleri anlayan bir makine değil; Türkçenin yapısını, deyimlerini, kültürel kodlarını ve doğal akışını anlayan, bu topraklara ait bir yapay zeka. Bu, onu küresel rakiplerinden ayıran en temel ve en güçlü özellik.
Verimliliğin Sırrı: %90 Daha Verimli Milli Tokenizer, Küresel Rakiplerini Geride Bırakıyor
Kumru’nun devrim niteliğindeki başarısının ardındaki en büyük teknik sır, sıfırdan Türkçe için geliştirilen “tokenizer” teknolojisi. Bir dil modelinin metni anlama biçimini belirleyen bu teknoloji, çok dilli modellerde Türkçe için genellikle verimsiz çalışır ve basit bir cümleyi bile çok fazla parçaya bölerek maliyeti ve işlem süresini artırır.
Kumru’nun milli tokenizer’ı ise bu sorunu kökünden çözüyor. Yapılan testlerde, diğer çok dilli modellerin Türkçe bir metni işlemek için Kumru’dan %38 ila %98 arasında daha fazla “token” kullandığı tespit edildi. Bu ne anlama geliyor?
- Daha Hızlı ve Daha Ucuz: Kumru, aynı metni çok daha az işlem gücüyle, daha hızlı ve daha ucuza işleyebiliyor.
- Daha Fazla Bilgi: 8,192 token’lık bağlam penceresine (context length), rakiplerine göre neredeyse iki kat daha fazla Türkçe metin sığdırabiliyor. Bu, yaklaşık 20 A4 sayfalık bir dokümanı tek seferde anlayabilmesi demek.
Boyutundan Büyük Başarı: 7 Milyar Parametrelik Kumru, 70 Milyar Parametrelik Devleri Nasıl Geçti?
Kumru’nun yetenekleri, Türkiye’deki akademik yapay zeka performans ölçüm standardı olan Cetvel benchmark’ında da kanıtlandı. 26 farklı Türkçe doğal dil işleme görevini içeren bu testte Kumru, inanılmaz bir başarıya imza attı.
Sonuçlara göre Kumru-7B, kendisinden 10 kat daha büyük olan LLaMA-3-70B, Qwen-2-72B ve Gemma-3-27B gibi küresel devleri, özellikle Türkçe dilbilgisi düzeltme ve metin özetleme gibi dilin inceliklerini gerektiren alanlarda geride bıraktı. Bu, “büyük olan değil, işini en iyi yapan kazanır” deyişinin yapay zeka dünyasındaki en net kanıtı oldu.
Verilerimiz Ülkemizde Güvende: Şirket İçinde Kurulum (On-Premise) ile Dijital Egemenlik
Kumru’nun en stratejik avantajlarından biri, şirketlerin kendi sunucularına kurulabilme (on-premise) imkanı sunması. Bu, özellikle bankacılık, finans, sağlık ve kamu gibi veri gizliliğinin hayati olduğu sektörler için bir devrim niteliğinde. Artık şirketler, hassas verilerini yurtdışındaki bulut sunucularına göndermek zorunda kalmadan, kendi sistemleri üzerinde güvenle yapay zeka çözümleri geliştirebilecek.
Üstelik bu teknolojiye ulaşmak artık çok daha ekonomik. Kumru-7B, RTX 3090 gibi tüketici sınıfı bir ekran kartında (16GB VRAM) bile çalışabiliyor. VNGRS’nin belirttiğine göre, Kumru’yu şirket içinde kurmanın donanım maliyeti yaklaşık 2.000 dolarken, benzer Türkçe yeteneğine sahip en yakın rakip model için gereken tek bir H100 GPU’nun maliyeti 30.000 doları buluyor. Bu, milli teknolojinin getirdiği muazzam bir maliyet avantajı anlamına geliyor.
Demokratik Yapay Zeka: Herkesin Kullanabileceği Açık Kaynaklı Kumru-2B Versiyonu da Geldi
VNGRS, bu teknolojiyi sadece büyük kurumlara değil, tüm Türkiye’ye sunma misyonuyla hareket ederek, Kumru-2B adında daha küçük ve tamamen açık kaynaklı bir versiyon da yayınladı. 2 milyar parametrelik bu model, 4.8 GB gibi düşük bir bellek gereksinimiyle mobil cihazlarda bile çalışabiliyor. Bu sayede öğrenciler, araştırmacılar, start-up’lar ve meraklı olan herkes, Türkiye’nin ilk milli dil modelini kendi projelerinde özgürce kullanabilecek.
Kumru; RAG tabanlı sohbet robotlarından doküman özetlemeye, çağrı merkezi analizinden sosyal medya içerik üretimine kadar sayısız senaryoya entegre edilerek, Türkiye’de yerelleştirilmiş yapay zeka deneyiminde yeni bir çağın kapısını aralıyor.
Kumru’yu Deneyin
VNGRS, geliştirdiği milli dil modeli Kumru’yu herkesin deneyebilmesi için bir web sayfası da hazırladı. Modelin metin anlama, özetleme ve üretme gibi yeteneklerini görmek isteyen kullanıcılar, kumru.ai adresi üzerinden Kumru ile tanışabilirler.
Anahtar kelimeler: Kumru LLM, yerli dil modeli, Türkçe yapay zeka, VNGRS, açık kaynak LLM, büyük dil modeli, doğal dil işleme, on-premise AI, milli tokenizer, Cetvel benchmark










Yanıtla