Şu eğitimden: Veri Bilimi Esasları: Veri Madenciliği

Metin madenciliği algoritmaları

- [Eğitmen] Metinle başa çıkmak için çok genel iki algoritma kategorisi olduğunu söyleyebiliriz. Kişi sezgisel olanı yapar ve söylenenlerin anlamına odaklanır. Yani, örneğin, konuşmanın bölümlerini tanımlayacak algoritmalara sahip olacaksınız, bu bir fiildir, bu bir sıfattır, vb. Duyarlılığı tanımlayacaktır, bu olumlu bir ifadedir, bu olumsuz bir ifadedir. Ve metni analiz etmek için bir metnin konularında olduğu gibi kelimelerin anlamlarını kullanacaktır. Bu oldukça sofistike bir işlemdir. Yine de ilginç olan, bu diğer yaklaşımın, kelimelerin alıntı / alıntı yapılmamış çantasının, bu durumda da çok işe yaramasıdır. Bunlar, kelimeleri anlamlarını bile anlamadan farklı kategorilerin bireysel belirteçleri olarak ele alan yöntemlerdir. Bildiğiniz her şey veya sayılar için şekiller oluşturabilirler. Aslında, onları sayılara dönüştürür. Sırayı kaybedersiniz, bir kelimenin belirli işlevine bakmazsınız, sadece ne sıklıkta gerçekleştiğini ve belki de yanında ne olduğunu sayarsınız. Öyleyse ikincisi hakkında biraz konuşalım, Kelimeler Çantası, çünkü kulağa garip geliyor. Şimdi ilginç bir şekilde, birçok makine öğrenme algoritması bu şekilde çalışıyor. Metni parçalara veya belirteçlere ayırırlar ve sadece bu şekilde analiz ederler. Yani Naive Bayes bir, sinir ağları bir. Ayrıca kümelemeyi k-kastedebilirim, vektör makinelerini destekleyebilirim, Terim Frekansı Ters Belge Frekansı vektörizasyonu anlamına gelen ortak TFIDF'yi vb. ve bazen sadece bir kelimenin bir belgede bulunup bulunmadığını, yani ikili varlığı işaretleyip işaretlemediğinizi veya ne sıklıkta oluştuğuna göre ağırlıklandırırsınız, bu TFIDF'dir. Ya da biri, yaptığınız şeyden hala anlam çıkaracaksınız. Şimdi daha sofistike anlam temelli yaklaşımlarda, bu çok büyük bir alan olan NLP veya doğal dil işleme alanına giriyor. Telefonunuz ona ne söylediğinizi bu şekilde bilir. Şimdi, belirtmeliyim ki, teknik olarak hala bir anlamı yok. Hala dijital bir makine, hala sayılara dönüştürüyor, ancak daha nüanslı bir yaklaşım sergiliyor. Örneğin, burası Gizli Markov modeli veya HMM olarak adlandırılan şey gibi bir şey elde ettiğiniz yerdir. Operasyonlardaki değişikliklere ulaşmaya çalıştığı ve olanların arkasındaki bazı davranışları çıkarsadığı yer burasıdır. Veya konu modellemesini kullanan bir Latent Dirichlet tahsisi, bir LDA gibi bir şeye ulaşabilirsiniz, burada metni anlamak için kullanılabilecek gözlemlenmemiş gruplar oluşturmak için makalenin konusunun ne olduğuna karar vermeye çalışır. Ve çok iyi bilinen bir deyişi alıntılamak gerekirse, burada anlamsızlığın mantıksız etkinliği olarak adlandırılabilecek bir şey var. Çok garip olan şey, doğal dil işleme çok daha fazlasını başarsa da, kelimeleri kelimeler olarak ele almadan bile, sadece belirteçler veya kategoriler olarak çok yararlı şeyler yapabilirsiniz. Metin madenciliği algoritmaları, anlam üzerindeki vurgularında farklılık gösterir. Bazıları çok fazla vurgu yapar ve büyük bir özenle modellemeye çalışır, bazıları ise tamamen görmezden gelir. İlginçtir ki, basit yöntemler, düz eski Kelime Çantası, bir kelimenin gerçekleşip gerçekleşmediğini gösterir. belirli görevler için yeterli olabilir. Ve daha karmaşık yöntemler, örneğin bilgisayarın söylediklerinizi anlamaya, anlamınızı çıkarmaya ve sorularınızı ondan cevaplamaya çalıştığı doğal dil işleme için ayrılmıştır. Her iki durumda da, görevinizdeki hedeflerinize uyan ve belirli veri bilimi projeniz için ihtiyacınız olan içgörüyü elde etmenize yardımcı olan bir algoritma seçmek istersiniz.

İçerikler