TF IDF nedir? Google’ın alakalı bilgileri saniyeler içinde nasıl sunabileceğini inceleyerek sorunun cevabını bulabilir miyiz
Doğal Dil İşleme olarak bilinen NLP (Doğal Dil İşleme), algoritmaların metni anlamasını sağlar. Çünkü çoğu algoritma matematiktir ve verimli çalışması için metnin sayılarla gösterilmesi gerekir. Bunun için TF IDF devreye giriyor.
TF IDF Nedir?
TF-IDF (terim frekansı – ters belge frekansı); yani, belgenin frekansı ve ters frekansı. Metni, vektör temsili olarak da bilinen önemli sayılar olarak temsil etmenin bir yolu.
TF, yani Terim Frekansı, Hans Peter Luhn’un (1957) ve IDF’nin veya Karen Spärck Jones’un (1972) Ters Belge Frekansı’nın çalışmasıyla ortaya çıkan metriklerdir. 1970’lerin başında bilgi alma problemlerini çözmek için kullanılan TF IDF’ler, o zamandan beri belge türlerini ayrıştırma, konu modelleme ve anahtar kelime filtreleme dahil olmak üzere çeşitli durumlarda kullanılan doğal dil işleme (NLP) algoritmalarıyla ilişkilendirilmiştir.
TF IDF, incelenen tüm belgeler (ör. web sayfaları) bağlamında kelime sıklığı ve anlamı hakkında bilgi sağlar. Bu nedenle, bu algoritma arama motorları tarafından içerik kalitesini değerlendirme yöntemi olarak kullanılabilir.
TF IDF, bir belgedeki en yüksek sıradaki kelimeler o belgeyle en alakalı olduğu için metindeki anahtar kelimeleri bulmak için kullanışlıdır. TF IDF; Otomatik metin analizi ve makine öğrenimi algoritmalarında kelimeleri vurgulamak için kullanışlıdır.
TF IDF Nasıl Çalışır?
TF IDF’nin terim frekansı veya terim frekansı (TF) ve ters belge frekansı veya ters belge frekansı (IDF) olarak adlandırılan iki bileşeni vardır.
Terim Sıklığı, bir belgede bir kelimenin ne sıklıkta geçtiğini ölçerek, bir metinde veya veri kümesinde her kelimenin kaç kez geçtiğini kaydeder. Örneğin bir makalede “seo” kelimesi 10 kez geçiyorsa ve makalenin tamamı 500 kelimeden oluşuyorsa TF değeri 0,02 (10/500) olur.
IDF, derleme sırasındaki belge sayısının, topluluktaki incelenen anahtar kelimeyi içeren belge sayısına bölünmesiyle elde edilen logaritmasıdır. Yani, belgelerin ters frekansı, toplam belge sayısının terimi içeren belge sayısına bölünmesiyle hesaplanan bir terimin önemini ölçer. Derlem, yani incelenen tüm belgelerin sayısı 10 ise ve kontrol edilen anahtar kelime, derlemin üç belgesinde yer alıyorsa, IDF değeri 0,52’dir (log(10/) 3).
TF hesaplanırken tüm terimler önemli kabul edilir. Kelime veri setinde daha sık geçiyorsa, belge için önemli olmasa da terim frekans (TF) değeri yüksek olacaktır. “ve”, “ile”, “if”, “bu” gibi tüm belgeler için ortak olan bazı terimlerin birden fazla kez göründüğü ve veri kümesinde kullanılan daha az bilinen kelimeler kadar bilgi içermediği bilinmektedir.
Bu nedenle, en yüksek ağırlık, bir terimin az sayıda belgede birden çok kez geçtiği zamandır. En düşük sayı, çoğu belgede kullanılan terminolojinin sonucudur. En yüksek ve en düşük arasındaki ağırlıklar, terimin belgede veya daha fazla makalede ne zaman daha az göründüğünü gösterir.
TF IDF negatif değerleri kabul edemez. En düşük değeri 0’dır. Terim Frekansı (TF) ve Ters Belge Frekansı (IDF) pozitif sayılardır. TF IDF, terimin belgenin tersi ile çarpım sıklığına eşit olduğundan çarpım 0’dan küçük olamaz.
TF IDF Neden Önemli?
TF-IDF’yi anlamak, TF-IDF üzerinde uyguladığınız algoritmaların sonuçlarını anlamayı ve yorumlamayı kolaylaştırır. Metin sınıflandırma sorunu, NLP’de sık karşılaşılan sorunlardan biridir. Metin sınıflandırma problemlerinde, algoritmalar, eğittiği önceden tanımlanmış bir dizi konu temelinde konuları tahmin etmek zorundadır.
Birkaç yıl önce Google, kelime sayısı 1500’den az olduğunda metni göstermenin en iyi yolunun TF IDF olduğunu keşfetti. Bu, genel bir sorun için küçük bir örneğiniz olduğunda, TF IDF’yi deneyin ve çalışması gerektiği anlamına gelir.
TF IDF ve Makine Öğrenimi
Doğal dil ile makine öğrenimi, algoritmalar nedeniyle metnin sayılara dönüştürülmesi ihtiyacını doğurmuştur. metin vektörleştirme; Bu, veri analizi için makine öğrenimi sürecinde temel bir adımdır.
Makine öğrenimi algoritmaları geleneksel olarak sayılarla en iyi şekilde çalışırken, TF-IDF algoritmaları onlara sayısal bir değer veya bir vektör atayarak sözcüklerin kodunu çözmelerine yardımcı olur. Bu, özellikle metin analizi gibi NLP ile ilgili alanlarda makine öğrenimi için devrim niteliğinde bir gelişmedir.
Bir makine öğrenmesi algoritmasının anlayabileceği şekilde kelimeleri sayılara çevirdiğinizde TF-IDF puanı; Naive Bayes ve Support Vector Machines gibi algoritmalara aktarılabilir. Sonuç olarak, kelime sayma gibi daha temel yöntemlerin sonuçları önemli ölçüde iyileştirilebilir.
Bu nedenle TF IDF, makine öğrenmesi için veri hazırlamada faydalıdır, çünkü bu noktada makine öğrenmesi algoritmalarının kullanılabilmesi için kelimelerin sayı olarak kodlanması gerekir.
TF-IDF’nin nasıl çalıştığını anlamak, makine öğrenimi algoritmalarının nasıl çalıştığını daha iyi anlamak için yararlıdır. Makine öğrenimi ile metin analizinde, TF-IDF algoritması, verileri sınıflandırmaya ve anahtar kelimeleri çıkarmaya yardımcı olur. Bu, bir destek bileti veya yorum satırı işaretlemek ve veri girmek gibi basit, monoton görevlerin saniyeler içinde yapılabileceği anlamına gelir.