@ARTICLE{Matuszewski_Paweł_„Śmieci_2022, author={Matuszewski, Paweł}, number={No 2}, journal={Studia Socjologiczne}, pages={137-164}, howpublished={online}, year={2022}, publisher={Instytut Filozofii i Socjologii PAN}, publisher={Komitet Socjologii PAN}, publisher={Wydział Socjologii UW}, abstract={Jedna z głównych decyzji przy ręcznym kodowaniu danych tekstowych dotyczy tego, czy kodowanie ma być weryfikowane. W przypadku modeli nadzorowanych prowadzi to do istotnego dylematu: czy lepszym rozwiązaniem jest dostarczenie modelowi dużej liczby przypadków, na których będzie się uczyć kosztem weryfikacji poprawności danych, czy też zakodowanie każdego przypadku n-razy, co pozwoli porównać kody i sprawdzić ich poprawność, ale jednocześnie n-krotnie zmniejszy zbiór danych treningowych. Taka decyzja może zaważyć nie tylko na ostatecznych wynikach klasyfikatora. Z punktu widzenia badaczy jest istotna również dlatego, że – realistycznie zakładając, że badania mają ograniczone źródło finansowania – nie można jej cofnąć. Wykorzystując 100 tys. unikatowych i ręcznie zakodowanych tweetów przeprowadzono symulacje wyników klasyfikatora w zależności od kontrolowanego odsetka błędnie zakodowanych dokumentów. Na podstawie danych przedstawiono rekomendacje.}, type={Artykuły / Articles}, title={„Śmieci na wejściu, śmieci na wyjściu”. Wpływ jakości koderów na działanie sieci neuronowej klasyfikującej wypowiedzi w mediach społecznościowych}, URL={http://www.czasopisma.pan.pl/Content/123540/PDF-MASTER/Studia_Socjologiczne_2022_nr2_s.137_164.pdf}, doi={10.24425/sts.2022.141426}, keywords={sieci neuronowe, klasyfikacja danych tekstowych, modele nadzorowane, opinion mining, jakość koderów}, }