понедельник, 30 марта 2020 г.

Інформатика для групи 2-2, 2-3 Урок 14. Тема: Візуалізація рядів і трендів даних. Інфографіка.


Урок 14

Тема: Візуалізація рядів і трендів даних. Інфографіка.
Ви дізнаєтеся:
v що таке візуалізація та як зробити її ефективною;
v що таке інфографіка й коли її доцільно використовувати;
v як обрати найкращу техніку візуалізації числових даних;
v як будувати лінію тренду на діаграмі;
v які інструменти використовують для візуалізації;
v які існують розповсюджені помилки візуалізації даних


Що таке візуалізація та як зробити її ефективною?
Візуалізація - це подання відомостей, даних, фактів у візуальній формі 
(мал. 11.1).


Візуалізація даних має кілька переваг:
- акцентування уваги на різних аспектах даних;
- аналіз великого набору даних зі складною структурою;
- зменшення інформаційного перевантаження людини й утримування її уваги;
- однозначність і ясність виведених даних;
- виділення взаємозв’язків і відносин, що містяться в інформаційних даних;
- естетична привабливість.
Успіх візуалізації безпосередньо залежить від правильності її застосування, а саме - від вибору типу графічного подання даних, його правильного використання й оформлення.
Вибір можна здійснити за таким алгоритмом (мал. 11.2).
Цілі візуалізації — це реалізація основної ідеї інформаційних даних, це те, заради чого потрібно показати вибрані дані, якого ефекту потрібно досягти, - виявлення взаємозв’язку між даними, показ розподілу даних, композиції або порівняння даних (мал. 11.3).
Взаємозв’язки між даними — це те, як вони залежать одне від одного. За їх допомогою можна виявити наявність або відсутність залежностей між змінними. Якщо основна ідея інформаційних даних містить фрази «відноситься до», «знижується / підвищується при», то потрібно прагнути показати саме взаємозв’язки між даними.
Розподіл даних - те, як вони розташовуються щодо чого-небудь, скільки об’єктів потрапляє в певні послідовні області числових значень. Основна ідея при цьому міститиме фрази «в діапазоні від x до y», «концентрація», «частотність», «розподіл».
Композиція даних — об’єднання даних з метою аналізу загальної картини загалом, порівняння компонентів, складових, відсоток від деякого цілого. Ключовими фразами для композиції є «становить x %», «частка», «відсоток від цілого».
Порівняння даних — об’єднання даних з метою порівняння деяких показників, виявлення того, як об’єкти співвідносяться один з одним. Також це порівняння компонентів, що змінюються з плином часу. Ключові фрази для ідеї при порівнянні - «більше / менше ніж», «дорівнює», «змінюється»,  підвищується / знижується».
Після визначення мети візуалізації потрібно визначити тип даних.
Вони можуть за своїм типом і структурою бути дуже різнорідними (мал. 11.4).
Безперервні числові дані (мал. 11.5, а) містять інформацію залежності однієї числової величини від іншої, наприклад, графіки функцій, як-от y = 2x.
Безперервні тимчасові (мал. 11.5, б) описують дані про події, що відбуваються на будь-якому проміжку часу, як-от графік температури, вимірюваної кожного дня.
Дискретні дані (мал. 11.5, в) можуть містити залежності категорійних величин, наприклад, графік кількості продажів товарів у різних магазинах.
Географічні дані (мал. 11.5, г) містять різну інформацію, пов’язану з місцем розташування, геологією та іншими географічними показниками, яскравий приклад - це звичайна географічна карта.
Логічні дані (мал. 11.5, д) показують логічне розташування компонентів відносно один одного, наприклад, генеалогічне дерево сім’ї.
                        а)                            б)                                       в)
                                              г)                                 д)

Що таке інфографіка й коли її доцільно використовувати?
Інформаційна графіка, або інфографіка, (англ. Information graphics; infographics) - це графічне візуальне подання інформаційних даних або знань, призначених для швидкого й чіткого відображення комплексних даних.
Інфографіка — це графічне подання складної інформації. Вона необхідна, коли складні дані потрібно доступно викласти широкій аудиторії.
Для створення інфографіки дотримуються таких кроків (мал. 11.6).

Існують вісім основних типів інфографіки (табл. 11.1).

Самостійне завдання.
Вправа 1. Секрети успіху інфографіки
Завдання. Розгляньте інфографіку Чому ваш мозок жадає інфографіки за
посиланням https://neomam.com/interactive/13reasons/ . Виділіть серед наведених причин популярності інфорграфіки такі п’ять причин, які ви можете віднести до власних переваг.
1. У браузері відкрийте посилання https://neomam.com/interactive/13reasons/.
2. За потреби увімкніть автоматичний переклад веб-сторінок у браузері.
3. Розгляньте блоки інфографіки за допомогою смуги прокрутки вікна.
4. Виділіть серед наведених причин популярності інфорграфіки п’ять причин, які є найважливішими для вас. Створіть список причин, додайте до нього статистичні дані, подані на сайті, що вказують на їх підґрунтя.
5. Розмістіть список на спільному ресурсі у класі.

Зразок виконання вправи 1. Секрети успіху інфографіки
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=0AgeQ6wKvjg
або QR кодом


Як обрати найкращу техніку візуалізації числових даних?
При виборі типу графіка для візуалізації потрібно розуміти тип даних та мету, якої потрібно досягти. Це можуть бути такі цілі:
порівняти значення: стовпчаста діаграма, лінійний графік, графік розсіювання;
зрозуміти композицію (виділити складові): стовпчаста діаграма, кругова діаграма;
оцінити розподіл даних: лінійний графік, графік розсіювання, стовпчаста діаграма, гістограма;
зрозуміти тенденцію: лінійний графік, стовпчаста діаграма;
зрозуміти відношення між даними: лінійний графік, графік розсіювання (табл. 11.3, складена на основі діаграм Джина Желязни).
Таблиця 11.3
Самостійне завдання.
Вправа 2. Побудова діаграми.
Зразок виконання вправи 2. Побудова діаграми
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=h5BM8_3lRnw
або QR кодом

Як будувати лінію тренду на діаграмі?
Для відображення змін даних або передбачення чи тенденції цих змін можна побудувати спеціальний графік, який називають лінією тренду.
Лінії тренду можна додати до ряду даних у плоских діаграмах з областями без
накопичення, графіках, гістограмах, стовпчастих, біржових, точкових і бульбашкових діаграмах.
Вибір функції для побудови лінії тренду зазвичай визначається характером зміни даних у часі. Такі зміни можна описати однією з відомих математичних функцій. 
Для побудови лінії тренду для деяких даних потрібно побудувати діаграму, до якої додати лінію, що згладжує наявні дані. У табличному процесорі Microsoft Excel для цього можна скористатись інструментом Лінія тренду вкладки Макет, яка з’являється, коли виділити область побудованої діаграми. У списку вказівок можна обрати потрібну функцію наближення, а також вказати Додаткові параметри лінії тренду. Серед таких параметрів варто обрати такі:
«показувати рівняння на діаграмі», яке є математичною моделлю для знаходження прогнозованого значення;
«помістити на діаграму величину достовірності…», за значення вказаного показника можна оцінити ступінь точності наближення - значення, близьке до 1,- висока ступінь довіри, а до 0 - мінімальна.

Самостійне завдання.
Вправа 3. Попит  на IT-спеціалістів
Зразок виконання вправи 3. Попит  на IT-спеціалістів
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=jGORTRi01F4

або QR кодом 
Які інструменти використовують для візуалізації?
Прості засоби візуалізації включено до сучасних табличних процесорів. Вони не охоплюють усього різноманіття технік, але для простих задач й оперативного подання даних цілком підходять.
Але для побудови якісних візуалізацій краще використовувати спеціалізовані
інструменти, тим більше, що серед них є вільні й досить прості у використанні. Розглянемо деякі з них (табл. 11.4)
Самостійне завдання.
Вправа 4. Інфографіка в сервісі Piktochart.
Зразок виконання вправи 4. Інфографіка в сервісі Piktochart.
 (Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=pjI2YFgv9PY

або QR кодом 
Які існують розповсюджені помилки візуалізації даних?
Розповсюджені такі помилки візуалізації даних і швидкі способи їх виправлення (табл. 11.5).
Крім того, потрібно:
використовувати один колір для кожної окремої категорії даних;
упорядковувати набори даних відповідно до логічної ієрархії;
використовувати виділення або підсвічування важливої інформації;
використовувати значки для позначень та вилучати підписи, які не є необхідними;
не використовувати комбінацій із занадто контрастних кольорів, таких як червоний/зелений або синій/жовтий;
не додавати додаткові зображення, пояснення, тіні, орнаменти, які не є необхідними, оскільки вони відволікають увагу;
не використовувати більш ніж 6 кольорів в одному наборі;
не використовувати нестандартні шрифти та їх видозміни (напівжирний текст, курсив, підкреслювання).






Інформатика, для групи 2-3, 2-2. Урок 13. Тема: Обчислення основних статистичних характеристик вибірки



Урок 13

Тема: Обчислення основних статистичних характеристик вибірки

Ви дізнаєтеся:
v що є основними статистичними характеристиками вибірки;
v які функції можна використовувати для знаходження центральної тенденції в середовищі табличного процесора

Що є основними статистичними характеристиками вибірки?
Основними статистичними характеристиками вибірки є середнє, мода та медіана, які ще називають мірами центральної тенденції. Вони показують загальні або типові характеристики розподілу даних за певною змінною. Середнє, мода та медіана - це окремі значення, що представляють весь набір даних, типові для всіх значень у групі.
Розглянемо кожну з них.
Для обчислення середнього значення досить додати всі значення в розподілі
й поділити на кількість спостережень.
Медіану можна визначити як точку на ряді розподілу (впорядкований набір значень змінної для різних спостережень - наприклад, від найменшого до найбільшого значення) - до цієї точки розташована половина всіх значень, і після цієї точки - теж половина значень. Тобто медіана - це значення, що ділить упорядкований ряд навпіл. Якщо кількість значень непарна, то береться одне зі значень - те, що стоїть у розподілі рівно по центру. Коли значень парна кількість, то беруть два центральні значення і знаходять їхнє середнє.
Мода - це значення, яке найчастіше трапляється. Як правило, вона представляє найбільш типове значення. Наприклад, за інформацією міністерства юстиції України, найпопулярнішими іменами, якими українські батьки називали своїх новонароджених дітей у 2017 р., стали Анастасія, Софія, Анна, Артем, Максим та Олександр (https://24tv.ua/ukrayinatag1119 ).  Ці імена є модою серед усіх імен. На моду ніколи не впливають екстремальні значення в розподілі, а впливають екстремальні частоти значень, наскільки часто те чи інше значення змінної трапляється в розподілі.
Кожне з мір центральної тенденції має загальні правила для використання, переваги та обмеження (табл. 10.1).

Які функції можна використовувати для знаходження центральної тенденції в середовищі табличного процесора?

У табличному процесорі центральна тенденція представлена функціями з категорії Статистичні, та майже всі вони призначені для обчислення узагальнювальних статистичних характеристик вибірки.
Статистичні функції, що розглядаються нижче (крім функції RANK), можуть мати декілька аргументів, які мають бути числами, масивами або посиланнями на діапазони клітинок, що містять числа. Якщо до діапазону-аргументу функції входять клітинки, які містять текст чи логічні значення або є порожніми, то вони ігноруються; але клітинки, що містять нульові значення, враховуються. Коли потрібно обчислити певну статистичну характеристику вибірки, діапазон, що містить елементи вибірки, слід зробити аргументом функції.
Ознайомимось із кількома найважливішими функціями категорії Статистичні:
- AVERAGE (число1; число2;…) (рос. СРЗНАЧ) - обчислює середнє значення;
- МАХ (число1; число2;…) (рос. МАКС) - обчислює максимальне значення;
- МІN (число1; число2;…) (рос. МИН) - обчислює мінімальне значення;
- МЕDІАN (число1; число2;…) (рос. МЕДИАНА) - повертає медіану;
- МОDЕ (число1; число2;…) (рос. МОДА) - повертає моду;
- RANK (число; посилання; порядок) (рос. РАНГ) - повертає ранг числа у списку чисел, тобто його номер у впорядкованій послідовності чисел із вказаного діапазону. Функція має такі аргументи: число – це число, для якого визначається ранг; посилання - це масив або посилання на список чисел; порядок - аргумент, який визначає спосіб упорядкування. Якщо цей аргумент відсутній або дорівнює нулю, то найбільше число має ранг 1. Якщо цей аргумент дорівнює будь-якому ненульовому числу, то ранг 1 має найменше число.
Примітка. Функція RANK призначає повторюваним числам однаковий ранг. Проте наявність повторюваних чисел впливає на ранги наступних чисел. Наприклад, якщо у списку цілих чисел, відсортованих за зростанням, двічі трапляється число 10 з рангом 5, число 11 матиме ранг 7 і жодне із чисел не матиме рангу 6.

Самостійне завдання.

Вправа 4. Витрати сімейного бюджету.
Завдання. Протягом деякого року сім’я витрачала на опалення будинку та
користування електроенергією кошти, які подано у статистичному ряді таблицею 10.2. Знайдіть основні статистичні характеристики ряду даних.
 (таб. 10.2)
1. Обчислимо середнє арифметичне.
2. Для знаходження медіани виконаємо упорядкування даних за зростанням. Для цього виділіть діапазон В1:М2, на вкладці Основне у списку оберіть Налаштовуване сортування. У вікні Сортування оберіть Параметри й у вікні Параметри сортування вкажіть стовпці діапазону. Натисніть OK.
3. Зазначте 2 рядок для сортування.
4. Центральними значеннями вибірки (n = 12) є значення у стовпцях G та H. . Знайдіть медіану засобами табличного процесора (=MEDIAN(B2:M2) (МЕДІАНА(B2:M2)). Перевірте, чи отримали таке само значення. Маємо, що середнє значення витрат більше тяжіє до половини значень у правій частині відсортованого діапазону.
5. За даними витрат найчастіше для оплати послуг витратили 200 грн (6, 9, 10 місяці). Це ж значення можна отримати в табличному процесорі за формулою=MODE(B2:M2)(=МОДА(B2:M2)).

Зразок виконання вправи 4. Витрати сімейного бюджету.
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=NCo3sBj4JsM

або QR кодом 



Інформатика, для групи 2-3. Урок 12. Тема: Основи статистичного аналізу даних. Ряди даних.


Урок 12
Тема: Основи статистичного аналізу даних. Ряди даних.
Ви дізнаєтеся:
v що таке аналіз даних та які виділяють етапи аналізу даних;
v у чому суть статистичного підходу до опрацювання даних;
v як будують ряди даних;

Що таке аналіз даних та які виділяють етапи аналізу даних?
Аналіз даних — розділ математики та інформатики, що займається розробкою методів опрацювання даних незалежно від їх природи.
Для аналізу даних потрібні знання предметної області та знання математики й статистики. Розуміння предметної області дає змогу визначити, які проблеми потребують першочергового вирішення. Знання математики й статистики дають змогу формалізувати рішення, перевести його в алгоритм та оцінити, яка ймовірність отримати результат; для цього використовують засоби комп’ютерної техніки.
Розрізняють чотири етапи аналізу даних (мал. 10.1).

 (мал.10.1)

Спочатку дані необхідно підготувати, тобто зібрати та відібрати ті, які потрібні для моделі опрацювання. Далі будується модель опрацювання й аналізуються її результати. Останній етап — це інтерпретація та презентація результатів. Тут потрібно продемонструвати питання, на яке шукали відповідь, які дані використовували та що отримали в результаті.

При збиранні даних використовують різні рівні їх виміру. Наприклад,
розрізняють значення в певній точці (8; 3,6); можна розглядати різні
інтервали ([1,6] [0,15]) та різні відношення (86 %, 14 %).
У чому суть статистичного підходу до опрацювання даних?
Коли ми робимо виміри, то завжди існує ймовірність похибки. Багаторазове вимірювання та збереження при цьому відповідних результатів приводить до накопичення даних, які опрацьовують спеціальними методами, які вивчаються у статистиці. Такі дані називаються статистичними даними.
Статистичні дані — сукупність упорядкованих, класифікованих даних про деяке масове явище або процес.
Статистичні дані дають змогу не тільки охопити картину певного питання на даний час, а й планувати необхідні дії на майбутнє. Так, статистичні дані про зайнятість населення дають можливість визначити, яку кількість спеціалістів і якої кваліфікації слід готувати, у якому регіоні варто споруджувати те чи інше підприємство.
Велику множину об’єктів, що є предметом статистичного дослідження, називають генеральною сукупністю. Наприклад, якщо досліджуються передвиборчі вподобання, генеральною сукупністю може бути населення країни. Проте дослідник, як правило, не має змоги оперувати всією генеральною сукупністю. Наприклад, опитати кожного громадянина країни нереально. Натомість досліджують вибірку — деяку множину об’єктів, вибраних з генеральної сукупності, і, проаналізувавши її, роблять висновки щодо властивостей генеральної сукупності загалом. Так,
дослідивши вподобання 10 000 виборців, можна зробити достатньо точні висновки щодо вподобань виборців усієї країни. У заміні дослідження великої множини об’єктів дослідженням значно меншою її частиною та подальшому «поширенні» результатів дослідження на всю множину полягає сутність статистичного підходу до опрацювання даних.

Самостійне завдання.
Вправа 1. Статистичні довідники.
Завдання. На сайті Державної служби статистики (http://www.ukrstat.gov.ua)
у вкладці Статистична інформація встановіть, які статистичні дані наведено на сайті, яким чином їх можна переглянути та які умови доступу до даних. Зробіть висновки.
Зразок виконання вправи1. Статистичні довідники. (Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=-QcDJMf8844 ))

або QR кодом 








Тема: Як будують ряди даних?
Статистичний ряд розподілу - це впорядковані статистичні дані.
Найпростішим видом статистичного ряду розподілу є ранжований ряд, тобто ряд чисел, що розташовані в порядку зростання чи спадання ознаки, яка змінюється. Такий ряд не дає змоги судити про закономірності, закладені в розподілених даних: біля якої величини групується більшість показників; які є відхилення від цієї величини; яка загальна картина розподілу. Із цією метою дані групують, показуючи, як часто трапляються окремі спостереження в загальній їх кількості.
Ряди розподілу одиниць сукупності за ознаками, що мають кількісний вираз, називаються варіаційними рядами. У таких рядах значення ознаки (варіанти) розташовані в порядку зростання або спадання.
У варіаційному ряді розподілу розрізняють два елементи: варіанта й частота. Варіанта - це окреме значення групувальної ознаки; частота - число, яке показує, скільки разів трапляється кожна варіанта (мал. 10.2). 
Таким чином, варіаційний ряд розподілу - це такий ряд, у якому варіанти розташовані в порядку зростання або спадання, вказані їх частоти або частки. Варіаційні ряди бувають дискретні й інтервальні.
Дискретні варіаційні ряди — це такі ряди розподілу, в яких варіанта як величина кількісної ознаки може набувати тільки певного значення. Варіанти різняться між собою на одну чи кілька одиниць.
Інтервальні варіаційні ряди — такі ряди розподілу, в яких значення варіанти дано у вигляді інтервалів, тобто значення ознак можуть відрізнятися одне від одного на як завгодно малу величину. При побудові варіаційного ряду неперервної ознаки неможливо вказати кожне значення варіанти, тому сукупність розподіляється за інтервалами. Останні можуть бути рівні й нерівні.
Для побудови дискретного ряду розподілу слід виписати всі можливі значення ознаки, а потім підрахувати, скільки разів кожне з них трапляється у вибірці - це будуть частоти. У Microsoft Excel для підрахунку частот можна застосувати функцію COUNTIF (рос. СЧЕТЕСЛИ) з категорії Статистичні.

Самостійне завдання.
Вправа 2. Побудова дискретного розподілу.
Завдання. Учні проводили експеримент із гральним кубиком: кожен записував число, яке випало на верхній грані. Побудуйте дискретний ряд розподілу експерименту.
1   1. Відкрийте файл Кубик_Експеримент, що міститься в папці Статистика на спільному ресурсі.  
     2. Проаналізуйте результати експерименту, складіть таблицю для обчислення частоти випадання грані кубика за зразком (мал. 10.4).
     
3. Для обчислення частоти скористайтесь формулою. Наприклад, у клітинці

С3: =СЧЁТЕСЛИ($A2:$A21;C2) (С3:=COUNTIF(($A2:$A21;C2)
4. Перевірте, чи можна застосувати автозаповнення для діапазону D2:H2.
Відповідь поясніть.
5. Збережіть файл у папці власного сховища з тим самим іменем.

Зразок виконання вправи 2. Побудова дискретного розподілу.
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=Xi8D53vm6s8

або QR кодом 
Самостійне завдання.

Вправа 3. Побудова інтервального ряду розподілу.
Завдання. Побудуйте інтервальний ряд розподілу з п’яти інтервалів за даними опитування учнів про кількість сторінок художньої літератури, які вони прочитали протягом останніх вихідних.
1. Відкрийте файл Сторінки_Експеримент, що міститься в папці Статистика
на спільному ресурсі.
2. Визначте найбільше, найменше значення вибірки та крок побудови інтервалу, якщо кількість інтервалів становить 5.
3. Складіть таблицю Межі Інтервалів (діапазон D1:D5).
4. Задайте функцію FREQUENCY (Частота ) в діапазон G2:G6, де ми бачимо результати її обчислення, тобто частоти.
5. Збережіть файл у папці власного сховища з тим самим іменем.

Зразок виконання вправи 3. Побудова інтервального ряду розподілу.
(Перегляньте уважно відео за посиланням https://www.youtube.com/watch?v=49Djr1z5mJo

або QR кодом