DictionaryForumContacts

 Statistik

link 2.04.2023 14:27 
Subject: Влияние артикля the на наличие сарказма⁠⁠
Уважаемые специалисты по английскому языку, здравствуйте! Нуждаемся в Вашем экспертном мнении. Мы сейчас решаем задачу машинного обучения, а именно, поиска сарказма в английском тексте (на примере заголовков статей). Оказалось, что при наличии в заголовке артикля the, в 6 раз чаще он не относится к саркастическому, чем при его отсутствии. Мы никак не можем понять причину, с чем это связано? Саркастические тексты - это разговорная речь, потому в них не используются артикли? В саркастических текстах новостных изданий указывать на конкретные события / явления может быть чревато? Или, вероятнее, есть какие-то другие причины?

Примеры заголовков, в которых есть артикль the, и которые относятся к саркастическим:

'i must make sure you have the skills to please my grandson,' says queen elizabeth disrobing before meghan markle"

'surinamese man struggling to write the great surinamese novel'

"studio admits entire israeli-palestinian conflict just marketing campaign for 'you don't mess with the zohan' that got out of hand"

"trump: 'it's my honor to deliver the first-ever state of the union'"

'nation excited to see whatever bile the internet spews up today'

"study: headaches are the body's way of communicating it wants pills"

'paul ryan quietly doing seated ab exercises throughout state of the union'

'ugly man with huge penis unsure how to get the word out'

'kite flyer in the zone'

'sephora makeup artist helping woman create the perfect pink eye'

Примеры заголовков, в которых есть артикль the, и которые НЕ относятся к саркастическим

how the u.k. government ignored offers to take in more lone children'

'behold, the most magical (and massive) picnic of all time'

"praise 'the jesus': a 'big lebowski' spinoff is reportedly in the works"

'meanwhile, in the real world'

'why bernie sanders and donald trump won the michigan primaries'

"apple fritter season is here, and so are the recipes you'll need"

'the smithereens lead singer pat dinizio dead at 62'

"'the bold type' creator on tackling sexual assault in the show's hopeful finale"

"reclaiming 'usa!, usa! usa!' from the bigots in murrieta"

"jessica simpson takes the plunge after crushing us with news she'll never do reality tv again

Примеры заголовков, в которых нет артикля the, и которые относятся к саркастическим:

"georgia school board bans 'theory of math'"

"world's last bob hope fan dies of old age" 'biden now a purple belt'

'hardened snacker keeps trying to rediscover that first mind-blowing nacho cheese high'

'painting of jesus totally knows area man is high'

"chuck schumer relieved he's never taken stance meaningful enough to have someone mail him explosive"

'trump privately terrified his sexual assault victims will someday come forward'

"new 'phone book' raising serious privacy issues"

"couple nervous to admit they met online in comments section of 'how to iron shirt' video"

'successful u.s. airstrike kills 30 iraqis who may as well have been terrorists'

Примеры заголовков, в которых нет артикля the, и которые НЕ относятся к саркастическим:

"most americans can't afford a minor emergency"

'obama says voting barriers are directly linked to jim crow and slavery'

'charleston church holds first service since shootings'

'why i will never carpe diem again'

"if you want to read this book, you'll have to buy an ipad"

"angelina jolie refutes vanity fair's portrayal of controversial auditions"

"international women's day"

"dad's tea party with 2-year-old basically sums up toddlers"

'michael moore uses reality shows to explain how bad america is at voting'

"police officers replace 11-year-old's stolen xbox with a brand-new one"

 10-4

link 2.04.2023 16:05 
Сарказм - не сарказм... Да еще в заголовках, без знания стиля и сути журналистского текста. Выделение слов одинарными кавычками показывает их употребление в необычном значении, иносказательном употреблении, отчасти ироничном цитировании. А артикли в заголовках - что с ними не так?

 Statistik

link 2.04.2023 16:51 
Большое спасибо за ответ, 10-4!Размечены были именно заголовки, они людьми определены как сарказм. Классификатор обучается на этих данных.

В одинарных кавычках сами заголовки, так как тексты выгружаются в таком формате (ещё и все буквы приведены к единому регистру).

Факт наличия артикля the с высокой вероятностью говорит о том, что заголовок был отнесён к не-сарказму.

 Statistik

link 2.04.2023 17:02 
В силу некоторых причин программа не позволяет делать одни двойные кавычки внутри других. Поэтому встречаются и одинарные, и двойные кавычки.

 10-4

link 2.04.2023 18:23 
Мне кажется, что наличие или отсутствие артикля не является признаком "сарказма". Сарказм — язвительная насмешка, в которой утверждается одно, а подразумевается противоположное.

И где здесь это? Что подразумевается, а не говорится прямо? И как это можно машине объяснить?

 Statistik

link 2.04.2023 21:17 
10-4, артикль the оказался самым значимым словом. Мы сами не понимаем, почему, поэтому на Мультитран и написали Построенная модель в 88% правильно предсказывает, является ли текст сарказмом или нет. Наша модель работает, но мы не понимаем, как

Мы специалисты в математике (некоторые - ещё и в теоретической ядерной физике), а вот английский знаем недостаточно хорошо.

В предложениях, в которых есть артикль the, частота не-сарказма к сарказму 6:1

Мы объясняем машине так- в одном столбце находится текст заголовка, в другом стоит цифра 0 или 1, которая и указывает на наличие или отсутствие сарказма.

 Erdferkel

link 2.04.2023 21:28 
Звуки умертвив,

МузЫку я разъял, как труп...

 Statistik

link 2.04.2023 22:11 
Erdferkel

 Amor 71

link 3.04.2023 3:51 
Omitting an article (definite or indefinite) in a newspaper title is done for brevity and in order to attract more attention.

Сарказм- не сарказм, это уже двадцатьнадцатстенное.

 Lonely Knight

link 3.04.2023 5:17 
Нет связи между артиклем и сарказмом.

Опущение артиклей в заголовках СМИ - литературная норма. Но не все артикли можно опустить. Артикль может быть частью устойчивого выражения (идиомы, названия, цитаты и т.п.).

Очень натянутое предположение: если в заголовке есть идиоматическое, околоразговорное выражение (требующее артикля; "in the zone", "get the word out"), с некоторой вероятностью этот заголовок имеет эмоциональную окраску. Всерьез выражать эмоции (отношение в сказанному) в СМИ вроде бы не принято, а вот с иронией - запросто.

 d.

link 3.04.2023 9:59 
было бы интересно получить данные о восприятии пар заголовков, отличающихся только наличием артикля, иначе сравнивается несравнимое

 Rus_Land

link 3.04.2023 12:08 
Тут как минимум надо бы перевернуть вопрос (причину и следствие): не артикль влияет на сарказм, а сарказм является (ли) обстоятельством, обуславливающим менее частотное появление артикля... Хорошенькая тема для диссертации...

 Lonely Knight

link 3.04.2023 12:10 
d., так тут и не сравнивается ничего. Никакой связи между артиклем и сарказмом как таковой нет. Отсутствует у артикля какая бы то ни было семантическая наполненность, добавляющая сарказм исходному высказыванию.

Суть в том, как я понял, что согласно биг дата, т.е. статистически, во множестве заголовков с артиклем, в рамках конкретного эксперимента, нашлось больше саркастических высказываний, чем во множестве без оного. И построенная на основе эксперимента модель имеет предсказательную силу (хотя, конечно, модель учитывает не только артикль, кмк).

 Sjoe! moderator

link 3.04.2023 14:07 
Вопрос для stackexchange. Здесь только субъективные мнения можно получить (притом не всегда обоснованные на более чем gut feeling).

Longely Knight (15:10) is right, imho.

 Rus_Land

link 3.04.2023 15:25 
* Отсутствует у артикля какая бы то ни было семантическая наполненность, добавляющая сарказм *

Собственно, аскер утверждает как раз обратное: согласно их данным, артикль Убавляет сарказм... Впрочем, что в лоб, что по лбу: то, что даже местные зубры не въехали, показывает, что предположение о связи (в любую сторону) артикля the с сарказмом имеет явные признаки быть высосанным из пальца...

 Maksym Kozub

link 3.04.2023 17:16 
Lonely Knight , +1 и к отсутствию связи, и к "натянутому предположению" о возможной (но не слишком вероятной) связи с идиоматическими выражениями.

 Amor 71

link 3.04.2023 18:04 
Я допускаю, что есть какая-то связь, подмеченная аскером, если статистика не врет. Но объяснить ее можно просто тем, что где сарказм и полушутки, там и грамматическая фривольность.

 Amor 71

link 3.04.2023 18:35 
Нью Йоркская газета Daily News грешит такими вольностями. Когда я только приехал, то выписывал несколько лет для изучения английского. И вот как-то в заголовке к статье читаю "Prez Sayz". Блин, весь англо-русский словарь перерыл, ничего даже близко не нашел. Потом по ходу прочтения текста догадался "President Says".

 Maksym Kozub

link 3.04.2023 19:14 
Amor 71, я представил себе кусочек диалога:

— Sayz who?

— Sayz Prez!

:)

 pangie

link 3.04.2023 19:42 
Если связь действительно есть, то я бы копала вот в какую сторону:

Чтобы понять сарказм, надо знать контекст. Вот здесь, например (второй абзац снизу) https://www.tandfonline.com/doi/abs/10.1080/10926488.2021.1887707?journalCode=hmet20

говорится, что сарказм требует знания контекста, наличия одинакового понимания ситуации обеими сторонами. В качестве частного случая упоминается контраст и противоречие с ожиданием.

Обычно то, что и так известно и понятно всем участникам диалога, как раз и обозначается с помощью артикля the - всякое прошлое знание или нечто очевидное.

Мне кажется, можно подумать в эту сторону.

 Statistik

link 3.04.2023 20:07 
Всем большое спасибо за комментарии!

 Wiana

link 4.04.2023 13:15 
1. Вы привели одинаковое количество заголовков на каждый случай - мы не видим указанную Вами разницу.

2. Непонятно, какая выборка текстов у вас была.

3. Непонятно, составлена ли значимая часть текстов одними и теми же авторами, у которых, соответственно, совпадет их личный стиль письма.

4. Непонятно, какова выборка респондентов.

5. Наличие или отсутствие сарказма в высказывании никак не связано с отнесенностью данного высказывания к разговорной или книжной речи. Его может быть одинаково много или одинаково мало и там, и там.

6. Почему рассматривается именно сарказм? Почему не ирония или просто попытка скаламбурить? Как ставился вопрос перед респондентами - исключительно как "саркастический / не саркастический"?

7. Разные артикли (включая нулевой или намеренно опущенный) могут придавать высказываниям те или иные оттенки, однако в целом отсутствие определенного артикля не относится к особенностям, отличающим саркастический... тон.

Грубо говоря, обрисованная Вами ситуация на данный момент выглядит примерно так: "У нас в саду растут разные цветы, некоторые постоянно засыхают. Не засыхают только розы. У роз есть шипы, у остальных цветов нет. Очевидно, шипы как-то на это влияют."

Итог: в вашу команду математиков и физиков для решения таких задач неплохо бы позвать лингвиста, хотя бы консультантом.

 Pokki

link 4.04.2023 18:09 
Могу предложить следующее объяснение. Сравните:

My friend is a gay.

My friend is the gay.

Артикль тут добавляет комичности, по аналогии это может работать в других случаях.

 Рина Грант

link 4.04.2023 18:56 
Мне все же кажется, что это случайное совпадение. Один из тех ложных критериев, которые в действительности никак не влияют на результат.

 Shabe

link 4.04.2023 19:52 
Pokki, для справки: "My friend is a gay" звучит по-английски либо грубо, либо неграмотно. Нейтрально звучит "my friend is gay": we say 'you are gay' instead of 'you are a gay'. (Разумеется, гей в среде других геев мог бы в шутку поиздеваться над грамматикой и сказать "a gay".)

Лучше сравнить "my friend is a guy" (просто один парень) с "my friend is the guy" (тот самый парень, свой в доску парниша).

Wiana, плюсую, вопросов много. Пока мы не узнаем весь контекст, остаётся только гадание на воде)

Я тоже склонен предполагать, что связи нет и один и тот же журналист в один момент своей жизни the поставил бы, а в другую минуту в том же заголовке бы опустил.

 Pooh

link 16.04.2023 19:05 
Если ваша задача - обучить машину распознавать сарказм везде, то стоит взять за пример не только заголовки. Заголовки - слишком специфичная вещь, и, как правильно вам сказали выше, использование артиклей в заголовках отличается от использования в обычной речи. Да, возможно, заголовки - самый удобный пример для обучения, но велик риск того, что увязав артикли с сарказмом на основе заголовков, вы не научите машину распознавать сарказм в других высказываниях.

 SirReal moderator

link 18.04.2023 5:19 
на протяжении последних лет 20 количество американцев, тонущих в бассейне, коррелирует с количеством фильмов, в которых снялся Николас Кейдж, но это не значит, что между этими двумя явлениями существует причинно-следственная связь.

 Erdferkel

link 18.04.2023 6:19 
SirReal, а докажите, что эти американцы не утопились в бассейне после просмотра вышеупомянутых фильмов!

 

You need to be logged in to post in the forum